linux:web伺服器爬蟲協議robot

1向2飛發表於2017-10-18
robots.txt常用配置內容總結:(提示直接放在web根目錄下即可,可以使用百度站長工具robot工具測試
User-agent: Baiduspider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: Googlebot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: 360Spider


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: msnbot


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: Sosospider


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: YoudaoBot


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
root@ubuntu:/var/www# cat robots.txt
User-agent: Baiduspider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: Googlebot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: 360Spider


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: msnbot


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: Sosospider


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: YoudaoBot


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: bingbot 


Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: Sogou web spider/4.0
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$


User-agent: *
Disallow: /

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/23890223/viewspace-2146097/,如需轉載,請註明出處,否則將追究法律責任。

相關文章