robots.txt 防爬蟲
robots.txt檔案用法舉例:
1. 允許所有的robot訪問
User-agent: * Allow: / 或者 User-agent: * Disallow:
2. 禁止所有搜尋引擎訪問網站的任何部分
User-agent: *
Disallow: /
3. 僅禁止Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow: /
4. 僅允許Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow:
5. 禁止spider訪問特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
6. 允許訪問特定目錄中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
7. 使用”*”限制訪問url
禁止訪問/cgi-bin/目錄下的所有以”.htm”為字尾的URL(包含子目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
8. 使用”$”限制訪問url
僅允許訪問以”.htm”為字尾的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止訪問網站中所有的動態頁面
User-agent: *
Disallow: /*?*
10. 禁止Baiduspider抓取網站上所有圖片
僅允許抓取網頁,禁止抓取任何圖片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
11. 僅允許Baiduspider抓取網頁和.gif格式圖片
允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
12. 僅禁止Baiduspider抓取.jpg格式圖片
User-agent: Baiduspider
Disallow: .jpg$
相關文章
- 爬蟲使用代理防封IP爬蟲
- 爬蟲如何防網站封IP?防封有效措施爬蟲網站
- 網路爬蟲小偏方:robots.txt快速抓取網站的小竅門爬蟲網站
- 禁止蜘蛛/爬蟲:如何配置Robots.txt和網站地圖(Sitemap.xml)爬蟲網站地圖XML
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 資料安全(反爬蟲)之「防重放」策略爬蟲
- 如何有效防爬蟲?教你打造安全堡壘爬蟲
- 想做個防爬蟲的功能怎麼做爬蟲
- Linux企業級專案實踐之網路爬蟲(29)——遵守robots.txtLinux爬蟲
- 爬蟲:多程式爬蟲爬蟲
- 通用爬蟲與聚焦爬蟲爬蟲
- 爬蟲--Scrapy簡易爬蟲爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 反爬蟲之字型反爬蟲爬蟲
- 爬蟲進階:反反爬蟲技巧爬蟲
- 爬蟲爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 【python爬蟲】python爬蟲demoPython爬蟲
- 爬蟲那些事-爬蟲設計思路爬蟲
- 爬蟲專案(一)爬蟲+jsoup輕鬆爬知乎爬蟲JS
- 爬蟲與反爬蟲技術簡介爬蟲
- 爬蟲技術(二)-客戶端爬蟲爬蟲客戶端
- 2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲Python爬蟲框架分散式
- request爬蟲爬蟲
- 爬蟲2爬蟲
- 科普:爬蟲爬蟲
- scrapy爬蟲爬蟲
- 爬蟲概述爬蟲
- app爬蟲APP爬蟲
- 爬蟲案例爬蟲
- 請教如何將防爬蟲anti spam攻擊安全機制取消?爬蟲
- C#爬蟲與反爬蟲--字型加密篇C#爬蟲加密
- Python爬蟲教程-01-爬蟲介紹Python爬蟲
- Java爬蟲與Python爬蟲的區別?Java爬蟲Python
- 分散式爬蟲原理之分散式爬蟲原理分散式爬蟲
- 爬取網站前1_解析網站robots.txt檔案網站
- 在scrapy框架下建立爬蟲專案,建立爬蟲檔案,執行爬蟲檔案框架爬蟲