?robots.txt概念如果我們網站內有某些特殊的文件不讓搜索引擎收錄,那怎么辦?答案是
使用一個叫做robots.txt的文件
robots.txt文件告訴搜索引擎本網站哪些文件是允許搜索引擎蜘蛛抓取,哪些不允許抓取
搜索引擎蜘蛛訪問網站任何文件之前,需先訪問robots.txt文件,然后抓取robots.txt文件允許的路徑,跳過其禁止的路徑
總結
robots.txt是一個簡單的.txt文件,用以告訴搜索引擎哪些網頁可以收錄,哪些不允許收錄
關于robots.txt文件的10條注意事項
1、如果未創建robots.txt文件,則代表默認網站所有文件向所有搜索引擎開放爬取
2、必須命名為
robots.txt,都是小寫,robot后面加"s"
3、robots.txt必須放置在一個站點的根目錄下
通過如https
//http://www.hecch.cn//robots.txt 可以成功訪問到,則說明本站的放置正確
4、一般情況下,robots.txt里只寫著兩個函數
User-agent和 Disallow
5、空格換行等不能弄錯,可復制這個頁面并修改為自己的
點擊6、有幾個禁止,就得有幾個Disallow函數,并分行描述
7、至少要有一個Disallow函數,如果都允許收錄,則寫
Disallow:如果都不允許收錄,則寫:Disallow: / (注:只是差一個斜桿)
8、允許有多個User-agent,如果對所有爬取蜘蛛生效,則用“*”星號表示
9、robtos.txt文件內可以放上Sitemap文件地址,方便告訴搜索引擎Sitemap文件地址
10、網站運營過程中,可以根據情況對robots.txt文件進行更新,屏蔽一些不要搜索引擎抓取的文件地址
舉例兩個常見屏蔽規則
User-agent: * 星號說明允許所有搜索引擎收錄Disallow: /search.html 說明 http://www.hecch.cn/search.html 這個頁面禁止搜索引擎抓取
Disallow
/index.php? 說明類似這樣的頁面http://www.hecch.cn/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取
來源
搜外網
請立即點擊咨詢我們或撥打咨詢熱線: 18942620423,我們會詳細為你一一解答你心中的疑難。項目經理在線