如何使用robots禁止各大搜尋引擎爬蟲爬取網站

link_xjxj發表於2018-08-28

原文網址 : https://flycode.co/archives/238199

爬蟲網站

ps：由於公司網站配置的測試環境被百度爬蟲抓取，干擾了線上正常環境的使用，剛好看到每次搜尋淘寶時，都會有一句由於robots.txt檔案存在限制指令無法提供內容描述，於是便去學習了一波

　　　1.原來一般來說搜尋引擎爬取網站時都會，先讀取下robots.txt檔案，並依照裡面所設定的規則去爬取網站（當然是指沒用登入限制的頁面）

　　　 2.下面我們就來說一說如何設定robots.txt檔案

　　　　1）.robots.txt檔案必須是放在檔案根目錄上：
　　　　　　例如：

　　　　　　　　├─admin

　　　　　　　　│ └─templates

　　　　　　　　│ header.tpl.php

　　　　　　　　│ task_add.tpl.php

　　　　　　　　│ └─robots.txt

　　　　 2 ) .首先常用的命令為

　　　　　　　　User-agent : 可以具體制定User-agent適用，即搜尋引擎的名字，如果為 * 的話則為通配

　　　　　　　　Disallow : 可以設定檔案或資料夾，不允許被爬蟲爬取，且為 / 時禁止爬取整站，也可以指定檔案路徑，不可爬取

　　　　　　　　Crawl-delay: 延時爬取，防止爬蟲短時間內爬取網站過快導致網站崩潰，則可以設定該延時

　　　　　　　　Allow : 允許爬取指定頁面，為 / 時爬取整站

　　　　3）搜尋引擎別稱

　　　　　　　　Googlebot 谷歌

　　　　　　　　Baiduspider 百度

　　　　　　　　等等

　　類似我們測試環境就設定了

　　　　User-agent : / 所有搜尋引擎

　　　　Disallow : / 禁止整站

Web網站如何檢視搜尋引擎蜘蛛爬蟲的行為
2019-05-12
Web網站爬蟲
Tomcat和搜尋引擎網路爬蟲的攻防
2018-10-26
Tomcat爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
laravel 簡單限制搜尋引擎爬蟲頻率
2022-05-27
Laravel爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
laravel+queryList爬蟲各大桌布網站，打造自己的桌布網站
2021-09-22
Laravel爬蟲網站
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
網路爬蟲小偏方：robots.txt快速抓取網站的小竅門
2019-01-03
爬蟲網站
如何合理控制爬蟲爬取速度？
2022-06-02
爬蟲
GitHub 熱門：各大網站的 Python 爬蟲登入彙總
2019-03-18
Github網站Python爬蟲
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
Python爬蟲全網搜尋並下載音樂
2021-02-14
Python爬蟲
爬蟲的小技巧之–如何尋找爬蟲入口
2018-03-05
爬蟲
搜狗搜尋微信Python爬蟲案例
2022-04-04
Python爬蟲
搜尋引擎指南robots.txt檔案
2020-04-05
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
【爬蟲】專案篇-使用selenium爬取大魚潮汐網
2024-04-05
爬蟲
Python使用多程式提高網路爬蟲的爬取速度
2019-02-01
Python爬蟲
招聘網站爬蟲模板
2020-09-20
網站爬蟲
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
使用 Python 爬取網站資料
2024-07-27
Python網站
如何用Python網路爬蟲爬取網易雲音樂歌曲
2018-04-27
Python爬蟲
爬蟲練習——爬取縱橫中文網
2020-10-19
爬蟲
【Python爬蟲】正則爬取趕集網
2020-12-24
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
如何提高爬取爬蟲採集的效率？
2022-06-11
爬蟲
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
爬蟲是如何被網站識別的？
2022-04-28
爬蟲網站
[譯] 如何使用 Python 和 BeautifulSoup 爬取網站內容
2019-02-23
Python網站
python網路爬蟲--爬取淘寶聯盟
2018-07-17
Python爬蟲

如何使用robots禁止各大搜尋引擎爬蟲爬取網站

相關文章