狠狠网/色综合久久久久综合体桃花网/日本护士三aaaaaa/久久久久久综合一区中文字幕

或者

搜索引擎蜘蛛的三個特性

作者:dengying 瀏覽:3501 發布時間:2015-05-21
編輯 分享 評論 0

  

    1、抓取網頁覆蓋率

  對于現在的搜索引擎來說,還沒有哪個搜索引擎能抓取互聯網上出現的所有網頁,所有搜索引擎只能索引互聯網的一部分而已,這里就有一個概念——“暗網”,暗網是指目前搜索引擎蜘蛛按照常規方式很難抓取到的互聯網頁面,蜘蛛是依賴頁面中的鏈接發現新的頁面,進而抓取索引,但是很多頁面內容是以數據庫方式存儲的。這樣蜘蛛很難或無法抓取這些信息,結果就是用戶也無法在搜索引擎搜索得到這些信息。

  2、抓取網頁的重要性

  蜘蛛抓取了很多內容,也及時更新了,但如果抓取的都是一些低質量內容,那肯定是不行的。盡管要多抓勤抓,但是每個網頁重要性差異很大,這就是矛盾的地方,搜索引擎蜘蛛不僅要干得多、干得快、還要干得好。所以必然會優先照顧部分能經常提供高質量內容的網站,特別是定時定量更新的,這樣才能最大程度上保證優質內容不被漏掉,這也可以說是沒辦法的辦法。如果搜索引擎蜘蛛抓回的網頁大都是比較重要的網頁,則可說其在抓取網頁重要性方面做得很好。

  3、抓取網頁時效性

  說到用戶的搜索體驗,網頁的時效性相對覆蓋率句更加直觀了,比如你在搜索結果搜索到了一個結果,當你點擊后頁面是不存在的,作何感想搜索引擎是在努力避免這些的,所以蜘蛛抓取網頁時效性同樣是一個重要考核點。互聯網信息比較多,蜘蛛抓取一輪需要較長的時間周期,這個時間內之前建立索引的很多網頁可能已經發生變化或者被刪除,這就導致搜索結果中有一部分是過期的數據。


詞條統計

  • 瀏覽次數:3501
  • 編輯次數:0次歷史版本
  • 最近更新:2015-05-21
  • 創建者:dengying
  • 相關詞條

    相關問答

    相關百科

    相關資訊