狠狠网/色综合久久久久综合体桃花网/日本护士三aaaaaa/久久久久久综合一区中文字幕

或者

網站robots文件的作用介紹及寫法大全

作者:小雞燉蘑菇 瀏覽:203 發布時間:2017-11-15
分享 評論 0

一個完整的網站,301重定向、404頁面自定義和robots.txt文件都是必有的,沒有為什么,301是為了集權;404是在網站出現死鏈的時候引導蜘蛛以及增加用戶體驗;那robots.txt文件是做什么的呢?它有什么作用呢?


  一、robots文件是什么?


  robots.txt文件是存放在網站根目錄下面的一個TXT文本文檔.它是網站和蜘蛛之間的一個協議.


  二、robots文件有什么作用?


  如果你網站根目錄有robots.txt這樣一個文件,那蜘蛛在爬行你網站的時候就會首先訪問這個文件(robots文件一般都要存放在根目錄,蜘蛛第一個訪問的文件,因此這個文件是很重要的).robots文件的作用是告訴搜索引擎蜘蛛,網站的哪些文件夾可以抓取,哪些文件夾不能抓取,從而確保我們網站的隱私內容不會被收錄.


  三、robots文件怎么寫?


  1.定義搜索引擎


  用User-agent:來定義搜索引擎,其中*表示所有


  百度蜘蛛名字:Baiduspider,谷歌蜘蛛名字:Googlebot.


  User-agent:*表示定義所有蜘蛛


  User-agent: Baiduspider表示自定義百度蜘蛛,


  User-agent: Googlebot表示自定義谷歌蜘蛛


  大家可以參考百度或者淘寶的robots.txt,他么就是這樣寫的,而我們小站只需要自定義所有搜索引擎蜘蛛即可.


  2.禁止訪問和允許訪問


  User-agent: *


  Disallow: /


  表示禁止所有搜索引擎訪問;


  User-agent: *


  Allow: /


  表示允許所有搜索引擎訪問.


  PS:在:后面/前面有一個英文狀態下的空格,空格必須有,必須是英文狀態下的


  3.禁止搜索引擎訪問網站中的某些目錄


  假設a是我網站根目錄的一個文件夾,寫法分別如下:


  User-agent: *


  Disallow: /a


  禁止搜索引擎訪問a文件夾及a文件夾下面的所有文件


  User-agent: *


  Disallow: /a/


  禁止搜索引擎訪問a文件夾下面的所有文件,但是a文件夾是允許被訪問的(這里闡述不太清楚,具體大家可以去百度站長平臺測試)


  4、禁止搜索引擎訪問某一類文件


  $表示結尾,如果要禁止搜索引擎訪問css結尾的文件,寫法如下:


  User-agent: *


  Disallow: /*.css$


  如果要禁止搜索引擎訪問js結尾的文件,寫法如下:


  User-agent: *


  Disallow: /*.js$


  *號表示所有,$表示結尾,上面兩個舉例則表示所有css或者js結尾的文件


  5.禁止訪問網站中的動態頁面


  禁止訪問網站中的動態頁面,寫法如下:


  User-agent: *


  Disallow: /*?*


  ?表示動態路徑,*號表示所有.


  6.禁止訪問某個字母開頭的文件


  為了隱藏我們網站的一些目錄,如后臺地址等,假如shenshan這個文件夾是我網站的后臺地址,我不想讓別人通過robots.txt文件看到它,可以這樣寫


  User-agent: *


  Disallow: /sh*


  這就表示所有sh開頭的目錄都不能訪問


  7.允許訪問首頁


  只允許搜索引擎蜘蛛訪問我們網站首頁,寫法如下:


  User-agent: *


  Disallow: /*


  頭條的robots.txt就是這樣寫的(似乎暴露了什么).


  8.禁止訪問二級目錄


  如果我有兩個文件夾下面同時存在shenshan這個文件夾,我又不想讓搜索引擎訪問shenshan這個文件夾,可以這樣寫:


  User-agent: *


  Disallow: /*/shenshan


  三、書寫robots文件注意事項


  1.robots文件的后綴必須是.txt;


  2.robots文件應該存放在網站的根目錄,而且所有字母都必須小寫;


  3.在寫robots文件的時候,User-agent、Disallow、Allow、Sitemap這些詞開頭第一個字母必須大寫,后面的字母則要小寫;


  4.特別注意,在:后面必須有一個英文狀態下的空格.