搜索引擎的收錄原理




能夠獲得網(wǎng)站網(wǎng)頁資料,并建立數(shù)據(jù)庫以提供查詢的系統(tǒng),我們都可以把它叫作搜索引擎[3] 。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎和分類目錄[4] 。全文搜索引擎的數(shù)據(jù)庫是依靠一個叫“網(wǎng)絡機器人(Spider)”或叫“網(wǎng)絡蜘蛛(crawlers)”的軟件,它遍歷互聯(lián)網(wǎng),能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡上的鏈接從一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站到另一個網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新,還會回訪已抓取過的網(wǎng)頁。網(wǎng)絡機器人或網(wǎng)絡蜘蛛采集的網(wǎng)頁,還要有其它程序進行分析,根據(jù)一定的相關度算法進行大量的計算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。 分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導航站點,也可以歸屬為原始的分類目錄。