robots.txt 防爬蟲

weixin_34148456發表於2017-09-21

robots.txt檔案用法舉例:

1. 允許所有的robot訪問

User-agent: * Allow: / 或者 User-agent: * Disallow:

2. 禁止所有搜尋引擎訪問網站的任何部分

User-agent: *

Disallow: /

3. 僅禁止Baiduspider訪問您的網站

User-agent: Baiduspider

Disallow: /

4. 僅允許Baiduspider訪問您的網站

User-agent: Baiduspider

Disallow:

5. 禁止spider訪問特定目錄

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

6. 允許訪問特定目錄中的部分url

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

7. 使用”*”限制訪問url

禁止訪問/cgi-bin/目錄下的所有以”.htm”為字尾的URL(包含子目錄)。

User-agent: *

Disallow: /cgi-bin/*.htm

8. 使用”$”限制訪問url

僅允許訪問以”.htm”為字尾的URL。

User-agent: *

Allow: .htm$

Disallow: /

例9. 禁止訪問網站中所有的動態頁面

User-agent: *

Disallow: /*?*

10. 禁止Baiduspider抓取網站上所有圖片

僅允許抓取網頁,禁止抓取任何圖片。

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

11. 僅允許Baiduspider抓取網頁和.gif格式圖片

允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片

User-agent: Baiduspider

Allow: .gif$

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .png$

Disallow: .bmp$

12. 僅禁止Baiduspider抓取.jpg格式圖片

User-agent: Baiduspider

Disallow: .jpg$

相關文章