狠狠网/色综合久久久久综合体桃花网/日本护士三aaaaaa/久久久久久综合一区中文字幕

或者

詳細的robots.txt學(xué)習(xí)方法

作者:青檸i 瀏覽:171 發(fā)布時間:2018-05-24
分享 評論 0

    關(guān)于這個正確的寫法,蛋疼博客-老林參考了很多作者的寫法、還有百度的文獻,發(fā)現(xiàn)有的作者解釋或者寫法太過簡單,造成新手不易理解,當(dāng)然蛋疼博客-老林也不敢保證百分百解釋得讓你很明白.


    是以什么形式存在?就是一份網(wǎng)站和搜索引擎雙方簽訂的規(guī)則協(xié)議書.每一個搜索引擎的蜘蛛訪問一個站點時,它首先爬行來檢查該站點根目錄下是否存在.如果存在,蜘蛛就會按照該協(xié)議書上的規(guī)則來確定自己的訪問范圍;如果沒有,那么蜘蛛就會沿著鏈接抓取.


    請牢牢記住:必須放置在站點的根目錄下,而且文件名必須全部小寫.Disallow后面的冒號必須為英文狀態(tài)的.


    我們先來理解User-agent和Disallow的定義.


    ● User-agent:該項用于描述搜索引擎蜘蛛的名字.(1)規(guī)定所有蜘蛛:User-agent:*;(2)規(guī)定某一個蜘蛛:User-agent:BaiduSpider.


    ● Disallow:該項用于描述不希望被抓取和索引的一個URL,這個URL可以是一條完整的路徑.這有幾種不同定義和寫法:(1)Disallow:/,任何以域名+Disallow描述的內(nèi)容開頭的URL均不會被蜘蛛訪問,也就是說以目錄內(nèi)的文件均不會被蜘蛛訪問;(2)Disallow:/則允許robots抓取和索引,而不能抓取和索引;(3)如果Disallow記錄為空,說明該網(wǎng)站的所有部分都允許被訪問.在文件中,至少應(yīng)有Disallow記錄,如果為空文件,則對所有的搜索引擎robot來說,該網(wǎng)站都是開放的.


    1、國內(nèi)建站需要用到的常見搜索引擎robot的名稱.


    有時候我們覺得網(wǎng)站訪問量(IP)不多,但是網(wǎng)站流量為什么耗的快?有很多的原因是垃圾(沒有)蜘蛛爬行和抓取消耗的.而網(wǎng)站要屏蔽哪個搜索引擎或只讓哪個搜索引擎收錄的話,首先要知道每個搜索引擎robot的名稱.


    2、文件基本常用寫法:


    首先,你先建一個空白文本文檔(記事本),然后命名為:.


    (1)禁止所有搜索引擎訪問網(wǎng)站的任何部分.


    User-agent: *


    Disallow: /


    (2)允許所有的robots訪問,無任何限制.


    User-agent: *


    Disallow:


    或者


    User-agent: *


    Allow: /


    還可以建立一個空文件或者不建立.


    (3)僅禁止某個搜索引擎的訪問(例如:百度baiduspider)


    User-agent: BaiduSpider


    Disallow:/


    (4)允許某個搜索引擎的訪問(還是百度)


    User-agent: BaiduSpider


    Disallow:


    User-agent: *


    Disallow: /


    這里需要注意,如果你還需要允許谷歌bot,那么也是在"User-agent: *"前面加上,而不是在"User-agent: *"后面.


    (5)禁止Spider訪問特定目錄和特定文件(圖片、壓縮文件).


    User-agent: *


    Disallow: /


    Disallow: /admin/


    Disallow: .jpg$


    Disallow: .rar$


    這樣寫之后,所有搜索引擎都不會訪問這2個目錄.需要注意的是對每一個目錄必須分開說明,而不要寫出"Disallow:/ /admin/".


    歡迎轉(zhuǎn)載【詳細的robots.txt學(xué)習(xí)方法】,請注明轉(zhuǎn)自:上海seo優(yōu)化公司 http://www.seo-999.com/article/6346s.html!