robots.txt裡的有趣事

王平發表於2019-01-09

原文網址 : https://www.yuanrenxue.com/crawler/funny-robotstxt.html

之前在爬蟲小偏方系列文章之《robots.txt快速抓取網站的小竅門》這篇文章裡分享了透過robots.txt檔案來抓取網站每天新增URL的小偏方，有朋友覺得這是個sao操作，其實robots.txt檔案裡還有其它一些有趣事。

robots.txt的有趣事

1.可以透過robots.txt找到工作

出國旅遊經常用到的，全球最大旅遊網站TripAdvisor(中文名貓頭鷹)在它的robots.txt檔案裡留有招聘資訊招聘SEO人才。

tripadvisor robots.txt

因為經常訪問robots.txt檔案的，除了各色各樣網路爬蟲外，就是做SEO的人經常來光顧了，在這個檔案裡打招聘SEO職位的廣告那是相當精準了。

這就跟知乎在它的網頁前端console裡打招聘前端職位是一樣一樣的，去除錯分析知乎前端頁面的除了知乎自家開發人員，就是其它公司的前端攻城獅了。而且還容易引起話題討論。

知乎 console

2.洩露網站隱藏頁面和後臺登入網址

因為robots.txt檔案裡的規則主要是給搜尋引擎爬蟲看的，是用來告訴搜尋爬蟲什麼頁面可以抓取，什麼頁面不能抓取。有時搜尋爬蟲會抓取到網站後臺頁面，並可能會在搜尋結果中展現，這是網站方面不想看到的。

所以會在robots.txt檔案裡寫明某些目錄裡的頁面不能抓取，但是這樣寫明後會帶來安全隱患，因為這樣就洩露了網站的後臺登入地址。比如這個網站的robots.txt。

不安全的robots.txt寫法

檔案的用意是不讓爬蟲抓取wp-admin/裡的頁面，但是被一些”駭客”看到這個檔案的話，對方就知道了你的後臺登入地址。我們訪問一下wp-admin

後臺地址

登入防護沒有做好的話，對方就有可能透過字典演算法，試出你的密碼。看圖實際上是一個wordpress網站，預設後臺地址就是wp-admin，用wordpress的最好改一下。

還有比較奇葩的robots.txt檔案會直接洩露網站的賬戶密碼。

洩露密碼的robots.txt

訪問檔案裡的passwords.txt檔案是一個個鮮活的賬號和密碼。

這樣寫robots.txt檔案本意是好的，讓搜尋爬蟲別抓取，但是人也會來看robots.txt檔案，人心難測啊~~~

3.霸氣外露型robots.txt

都知道nike公司的經典廣告語是Just do it.

nike在robots.txt檔案裡也是體驗這種大氣範兒。

nike robots.txt

Just crawl it. 翻譯過來就是隨便爬，別客氣。

這氣場，大氣！！！

4.有效降低你爬蟲的訪問頻次

猿人學讀者裡的Python爬蟲選手都知道抓取網站，要控制訪問頻率，不然容易被網站給KO了。

透過robots.txt裡的sitemap檔案是最有效降低你爬蟲訪問頻率的方法。

robots.txt裡的sitemap檔案本來就是給搜尋引擎爬蟲準備的，搜尋引擎爬蟲每天全網要抓取幾億幾十億次，每天整個網際網路估計會新產生幾千萬張網頁，搜尋引擎爬蟲自己的算力其實是吃緊的，它希望各家網站有一個sitemap檔案來告訴它這個網站有哪些連結，哪些是今天新增的，哪些是最近更新的。

這樣就不用搜尋引擎爬蟲從頭到尾一層一層的爬你的網站，透過sitemap檔案只抓新增的和更新過的就好，這樣很好的節省了搜尋引擎的算力，也減少了網站頻寬壓力。

所以爬蟲選手們如果不是為了練手，可以直接去訪問sitemap檔案試試，這樣可以減少很多無效訪問。對你，對對方網站都好。

另外再告訴你，一般sitemap檔案是真靜態檔案，你訪問sitemap時，對方的web伺服器(nginx/apache等)會直接讀取該檔案返回給你，不會走到後端處理程式中。一些網站的頻率控制措施是在後端程式邏輯中完成，也就是說你訪問sitemap檔案，對方網站的訪問頻率控制管不到你，除非在web伺服器加了頻率控制措施才能制裁你。

5.robots.txt檔案規則寫錯，後果嚴重

上文說了，該檔案是告訴爬蟲哪些頁面可以抓，哪些頁面不要抓，如果你哪天瞌睡沒睡醒，把規則寫錯了(robots.txt允許寫簡單的類似正規表示式的東東)，後果就是某天早上你來上班，查閱流量統計時，發現網站流量全沒有了，流量就是網站的命根，這時你下巴都要嚇掉。

敢保證你把所有可能引起流量下滑的原因都想完了，都想不到是你那天靈魂出竅寫錯了robots.txt規則導致的。把正常的頁面也寫成了不讓搜尋爬蟲抓取。我以前就幹過這蠢事，記憶猶幸。

6.robots.txt限制不了爬蟲

robots.txt是一個不成為的規定，沒有法律效應，它只是一個txt文字檔案，只能靠自覺和道德約束。

除了各位的非主流爬蟲，各個大廠的主流搜尋引擎爬蟲是最不遵守robots.txt檔案規定的。它們是千方百計，換著花樣的想抓你的網站。

搜尋引擎爬蟲的user-agent寫法通常是XXXSpider，這是明的，暗地裡它們還會改user-agent，改成正常的瀏覽器UA來光顧你的網站(跟我們的非主流爬蟲一樣一樣的)，讓你防不勝防，有網站的朋友可以分析下你web伺服器日誌的IP。

我的公眾號：猿人學 Python 上會分享更多心得體會，敬請關注。

***版權申明:若沒有特殊說明，文章皆是猿人學 yuanrenxue.com 原創，沒有猿人學授權，請勿以任何形式轉載。***

關於 Bash 指令碼中 Shebang 的趣事
2023-05-07
指令碼
sed 原地替換檔案時遇到的趣事
2023-11-04
【已結束】招聘季有獎徵文活動丨面試趣事等你分享
2022-03-16
面試
SEO優化-robots.txt解讀
2018-05-09
優化
如何使用robots.txt及其詳解
2020-12-12
如何針對SEO優化您的WordPress Robots.txt
2020-12-25
優化
搜尋引擎指南robots.txt檔案
2020-04-05
學習筆記：robots.txt檔案
2024-08-29
筆記
老婆餅裡沒有老婆，RLHF裡也沒有真正的RL
2025-01-08
Linux 27件有趣事實你知道多少？
2018-08-28
Linux
前端程式設計師的趣事，一起來看看吧
2018-12-29
前端程式設計師
關於 Linux 和 Git 的創造者 Linus Torvalds 的 20 件趣事
2022-09-23
LinuxGit
昆明哪裡有開手撕發票“哪裡有開哪裡能開”
2020-11-26
在 A 裡面找有 C 的 B
2024-07-23
哪裡有賣高仿包的
2021-03-04
西安哪裡有開廣告發票"哪裡有開’
2020-11-26
2023年奔走的總結---吉特日化MES 專案趣事篇一
2023-12-11
網路爬蟲小偏方：robots.txt快速抓取網站的小竅門
2019-01-03
爬蟲網站
CCNA-Part3 - 資料鏈路層的趣事 - 走進交換機
2020-06-27
哪裡有賣靠譜的冒名卡
2020-05-28
科技的世界裡沒有“粉紅稅”
2021-08-19
哪裡有好喝又便宜的茶葉?
2021-03-21
哪裡有最好最便宜的茶葉
2020-12-10
哪裡有賣高仿包的地方
2021-03-04
哪裡有好喝又便宜的茶葉?哪裡有好喝又便宜的茶葉?茶葉選什麼的好？
2021-02-06
MySQL裡沒有 boolean型別怎麼辦？MySQL 裡的 tinyint(1)
2024-04-18
MySqlBoolean型別
天津哪裡有開手撕發票‘怎麼開哪裡有開’
2020-11-26
西安哪裡可以開票“哪裡能開,哪裡有開”
2020-11-24
合肥哪裡可以開票“哪裡能開,哪裡有開”
2020-11-24
吉林哪裡可以開票“哪裡能開,哪裡有開”
2020-11-24
徐州哪裡可以開票“哪裡能開,哪裡有開”
2020-11-24
實名好的電話卡哪裡有
2020-11-10
python裡有分號嗎
2021-09-11
Python
北京哪裡有開住宿費 # 哪裡可以開 #
2020-06-06
上海哪裡有開住宿費 # 哪裡可以開 #
2020-06-06
有機茶葉哪裡有-志強茶行
2021-03-19
鄭州哪裡有開廣告發票“哪裡有開怎麼開”
2020-11-26
杭州哪裡可以開發票“哪裡能開,哪裡有開”
2020-11-23

robots.txt裡的有趣事

相關文章