索引庫




索引庫就類似于我們查字典時(shí)候的檢索表,或者是圖書館的書目檢索。Google的蜘蛛在抓取網(wǎng)頁之后,就把這些頁面放到對應(yīng)的索引庫里面。在用戶搜索的時(shí)候,只需要到相應(yīng)的檢索庫里面搜索相應(yīng)的信息,而不是從所有的頁面當(dāng)中。
中文名
索引庫
類似于
我們查字典時(shí)候的檢索表
分類根據(jù)
詞語
用 于
網(wǎng)絡(luò)
目錄
索引庫的分類方式
索引庫里用詞語來分類。因?yàn)楸M管互聯(lián)網(wǎng)上的網(wǎng)頁是不斷激增的,但是每一種語言里,詞語的數(shù)量都是相對固定的。比如英語就是一百多萬個(gè)單詞,100億 ÷ 1百萬 = 1 萬;漢語是8萬多個(gè)詞語,100億÷8萬=12萬5千。都是計(jì)算機(jī)很容易處理得過來的。
用詞語來分類還有一個(gè)好處,就是可以匹配用戶查詢的那個(gè)詞語。本來用戶就是要查這個(gè)詞語的,那我就按這個(gè)詞語去分類就是。所以,搜索引擎的索引庫,最后就是這個(gè)樣子的: