linux:web伺服器爬蟲協議robot
robots.txt常用配置內容總結:(提示直接放在web根目錄下即可,可以使用百度站長工具robot工具測試)
User-agent: Baiduspider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: Googlebot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: 360Spider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: msnbot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: Sosospider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: YoudaoBot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
root@ubuntu:/var/www# cat robots.txt
User-agent: Baiduspider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: Googlebot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: 360Spider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: msnbot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: Sosospider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: YoudaoBot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: bingbot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: Sogou web spider/4.0
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: *
Disallow: /
User-agent: Baiduspider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: Googlebot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: 360Spider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: msnbot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: Sosospider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: YoudaoBot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
root@ubuntu:/var/www# cat robots.txt
User-agent: Baiduspider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: Googlebot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: 360Spider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: msnbot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: Sosospider
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: YoudaoBot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: bingbot
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: Sogou web spider/4.0
Allow: /
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
User-agent: *
Disallow: /
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/23890223/viewspace-2146097/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Protobuf協議逆向解析-APP爬蟲協議APP爬蟲
- python爬蟲基礎與http協議Python爬蟲HTTP協議
- WEB伺服器之HTTP協議Web伺服器HTTP協議
- 爬蟲入門系列(一):快速理解HTTP協議爬蟲HTTP協議
- 爬蟲入門系列(一):快速理解 HTTP 協議爬蟲HTTP協議
- Python 爬蟲十六式 – 第一式:HTTP協議Python爬蟲HTTP協議
- Python 爬蟲十六式 - 第一式:HTTP協議Python爬蟲HTTP協議
- wechat web協議Web協議
- Scrapy 示例 —— Web 爬蟲框架Web爬蟲框架
- Python爬蟲開發(二):整站爬蟲與Web挖掘Python爬蟲Web
- Web伺服器的工作原理及其相關協議Web伺服器協議
- web網路協議Web協議
- web通訊協議Web協議
- 非同步爬蟲之理解協程非同步爬蟲
- 爬蟲之多工非同步協程爬蟲非同步
- Web伺服器的工作原理及其相關協議-VeCloudWeb伺服器協議Cloud
- http協議讀書筆記3-Web伺服器HTTP協議筆記Web伺服器
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 【JS 逆向百例】WebSocket 協議爬蟲,智慧樹掃碼登入案例分析JSWeb協議爬蟲
- Web 端反爬蟲技術方案Web爬蟲
- 爬蟲普及,Web安全更需注意爬蟲Web
- 使用 CasperJS 構建 Web 爬蟲JSWeb爬蟲
- [CareerCup] 10.5 Web Crawler 網路爬蟲Web爬蟲
- 爬蟲:多程式爬蟲爬蟲
- web應用與http協議WebHTTP協議
- WEB基礎及HTTP協議WebHTTP協議
- soap協議的web服務協議Web
- Web基礎與HTTP協議WebHTTP協議
- 2.爬蟲 urlib庫講解 異常處理、URL解析、分析Robots協議爬蟲協議
- Git : SSH 協議伺服器Git協議伺服器
- 通用爬蟲與聚焦爬蟲爬蟲
- 爬蟲--Scrapy簡易爬蟲爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- Web伺服器捉蟲速記Web伺服器
- Web快取 – HTTP協議快取Web快取HTTP協議
- 反爬蟲之字型反爬蟲爬蟲
- 爬蟲進階:反反爬蟲技巧爬蟲
- 爬蟲爬蟲