狠狠网/色综合久久久久综合体桃花网/日本护士三aaaaaa/久久久久久综合一区中文字幕

或者

爬蟲抓取方式分類說明

作者:dengying 瀏覽:2055 發布時間:2015-05-25
編輯 分享 評論 0

  

    一個網站想被搜索引擎(百度、谷歌等)收錄,是靠索引爬蟲抓取的。那么爬蟲是怎么抓取的呢?下面跟大家解說一下:

  爬蟲的抓取方式一般可以分為累積式抓取和增量式抓取兩種。

  累積式抓取是指從某一個時間點開始,通過遍歷的方式抓取系統所能允許存儲和處理的所有網頁。在理想的軟硬件環境下,經過足夠的運行時間,累積式抓取可以保證取到相當規模的網頁集合。但由于Web數據的動態特性,已抓取的網頁可能出現更新或死鏈的情況,因此積累式抓取到的網頁集合事實上并無法與真實環境中網絡數據保持一致。

  增量式抓取是指在具有一定量規模的網頁集合的基礎上,采用更新數據的方式選取已在集合中的過時網頁進行抓取,以保證所抓取的數據與真實網絡數據足夠接近。進行增量式抓取的前提是,系統已經抓取了足夠數量的網頁,并具有這些頁面被抓取的時間信息


詞條統計

  • 瀏覽次數:2055
  • 編輯次數:0次歷史版本
  • 最近更新:2015-05-25
  • 創建者:dengying
  • 相關詞條

    相關問答

    相關百科

    相關資訊