一個爬蟲的故事：這是人乾的事兒？

軒轅之風發表於2020-10-10

原文網址 : https://www.cnblogs.com/xuanyuan/p/13790268.html

爬蟲

爬蟲原理

我是一個爬蟲，每天穿行於網際網路之上，爬取我需要的一切。

說起來還要感謝HTTP協議，因為它，全世界的網站和瀏覽器才能夠連線通訊，而我也是藉助HTTP協議，獲取我想要的資料。

我只需要偽裝成一個瀏覽器，向伺服器傳送HTTP請求，就能拿到網頁HTML檔案。

接著，我再按照HTML的格式規範，去解析其中的圖片<img>、連結<a>、表單<form>等等我關注的資訊。

獲取連結標籤以後，我又可以進一步爬取連結背後的網頁，如此反覆，要不了多久，一個網站中暴露出來的內容我就能爬個乾淨。

當然了，我們們做爬蟲也還是有底線的。幹我們這一行，有一個約定俗成的規定，那就是Robots協議。

只要你在網站的根目錄下放置一個叫robots.txt的檔案，裡面寫上哪些目錄禁止訪問，我就會繞道而行，就像這樣：

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

就像程式設計師們經常互相鄙視一樣，在我們們爬蟲的圈子裡，也存在鄙視鏈。

地位最高的要數搜尋引擎的爬蟲了，他們高高在上，正大光明的爬，各個網站歡迎還來不及，都想被他們收錄到搜尋引擎之中，給網站帶來流量。這些爬蟲，都是圈子裡的大佬，我們惹不起。

另外有一些爬蟲，他們有的不遵守robots協議，隨意亂爬，有的一天天的淨知道爬美女圖片，把人家伺服器爬崩潰了，這些爬蟲我們也是看不起的。

像我這樣老實本分的爬蟲，平日的工作就是爬取一些網站的資料，像購物網站、點評網站等等。雖然我們很守規矩，但這些個網站還是很不待見我們，為了拿到資料，我們展開了曠日持久的拉鋸戰。

反爬蟲技術

現在很多網站都上雲了，雲上的資源可昂貴了，CPU、記憶體、儲存這些都價格不菲，尤其是網路頻寬，價格是真心貴。

那些網站不待見我們們這些爬蟲也就可以理解了，我們不像搜尋引擎爬蟲可以給他們帶來好處，相反，還會消耗他們的伺服器效能，花掉他們寶貴的流量，那可是白花花的人民幣，誰不心疼啊？

所以這些網站加了一個措施：一旦在HTTP請求中的user-agent欄位發現這是一個爬蟲，那就不搭理我們了。

這個user-agent是HTTP協議中表示客戶端名字的欄位，那個時候我剛剛入行，沒什麼經驗，不懂得偽裝，很容易就被發現。

為了能夠繼續爬資料，我只好改頭換面，偽裝成了瀏覽器的名字，圈子裡有的兄弟還偽裝成了搜尋引擎爬蟲的名字，我可不像他們那樣沒下線。

這一招管用了沒多久，這些網站就升級了策略，通過我們的行為來識別是不是真的瀏覽器。我們畢竟是程式，那速度比人類點選快多了，網站一旦發現我們短時間內發起了很多請求，那就掐斷連線。

我只好降低爬取的頻率，避免被拉入黑名單。

有些網站更狠，在網頁裡面插入一些假的圖片，只有幾個畫素那種，人類的眼睛是看不見的，但是我們不知道啊，對我來說都是<img>標籤，我一訪問就中計了！立刻被拉入黑名單。

沒有辦法，攤上這種事，我只好想辦法換個IP再去爬，真是難頂。

聽說圈子裡有些大佬用上了分散式技術，組團去爬，很多個IP地址，其中一個或者幾個封了也不用怕，我真是很羨慕。

前後端分離

在我的職業生涯中，遇到過一些奇怪的網站，明明網頁中有資料，但是我一訪問拿到的HTML中啥也沒有，一度讓我很鬱悶。

後來才知道，原來他們用上了一個叫前後端分離開發的技術，資料不再從伺服器渲染到HTML網頁中，而是瀏覽器通過單獨的API介面拿到後再動態載入出來，難怪我拿到的只是一個空殼子。

為了拿到資料，我只好也學著去請求這些資料介面，不過因為這些網站都有API閘道器，會檢查請求的Token或者Authorization之類的認證欄位，再加上我不知道他們的介面引數格式，導致我經常拿不到資料。

到了最近兩年，我拿到的網頁HTML越來越簡單了，在瀏覽器中豐富多彩的頁面，一檢視原始碼竟然只有簡單幾行，真是見了鬼了！

終於有一天，一個前輩告訴我，現在流行單頁應用SPA了，頁面全都是在前端動態生成的，拿到的HTML根本沒有價值。

這簡直欺人太甚了！

一不做二不休，我決定弄一個真正的瀏覽器進來，這個內嵌的瀏覽器沒有介面，專門為我服務，嵌入到我的程式中，讓他去真正的渲染網頁，渲染完成後我再去取資料！

這是真正意義上模擬人類去訪問網站了，再也不用模擬繁瑣的資料介面訪問，也不用擔心單頁應用，前端渲染就前端渲染，我再也不怕了！

驗證碼

到後來，不知道是誰發明的，網站們紛紛用上了一種叫驗證碼的技術，給我們出了難題。

開始的驗證碼還算比較簡單，一般都是些簡單的數字、英文字元做了些變形，就像這樣：

圈子裡很快有大佬教我們用文字識別技術OCR來自動識別這種驗證碼，我也折騰了一下，費了老大勁終於可以識別出來，準確率不敢說100%，99%還是有的。

不過沒多久，這驗證碼就變得越來越複雜，什麼漢字識別，物體識別，滑動解鎖，一個比一個難，根本超出了我的理解範圍，你瞧瞧下面這些驗證碼，這是人乾的事兒嗎？

哎，這還真是人才能幹的事，不是我們爬蟲能幹的~

如今，這些網站的反爬蟲技術越來越先進，我們能發揮的空間被一步步擠壓。

前段時間，有個愣頭青爬蟲把一家公司的伺服器給爬崩潰了，把人家正常業務都弄停掉了，他還被抓了起來，現在監管越來越嚴，搞得大家人心惶惶。

內憂外患不斷，不少爬蟲兄弟失業的失業，轉行的轉行，爬蟲這碗飯，真是越來越不好吃了。。。

往期TOP5文章

我是Redis，MySQL大哥被我害慘了！

CPU明明8個核，網路卡為啥拼命折騰一號核？

因為一個跨域請求，我差點丟了飯碗

完了！CPU一味求快出事兒了！

雜湊表哪家強？幾大程式語言吵起來了！

一個老同學的故事引發的nodejs 爬蟲
2018-08-24
NodeJS爬蟲
這可能是你見過的最全的網路爬蟲乾貨總結！
2018-10-23
爬蟲
IPIDEA乾貨|Java爬蟲與Python爬蟲的區別
2023-05-08
IdeaJava爬蟲Python
爬蟲個人總結
2021-08-08
爬蟲
[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的
2019-05-27
爬蟲
個人分享 | 我的常規爬蟲流程
2018-10-31
爬蟲
我的第一個 scrapy 爬蟲
2019-02-16
爬蟲
音樂故事丨他是這樣一個人，他叫周杰倫
2018-08-17
一個很垃圾的整站爬取--Java爬蟲
2019-01-07
Java爬蟲
什麼是爬蟲?爬蟲的工作原理是什麼呢
2020-05-27
爬蟲
面試—html語義化，SEO的原理，什麼是爬蟲、怎麼去寫一個爬蟲
2018-08-07
面試HTML爬蟲
一個前端小白的"爬蟲"初試
2018-08-05
前端爬蟲
nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
養豬、插秧、搬貨……這才是機器人該乾的活兒
2024-10-29
機器人
Python爬蟲的框架有哪些？推薦這五個！
2021-05-07
Python爬蟲框架
分享個人開源爬蟲框架
2019-03-01
爬蟲框架
Anaconda Pycharm 是怎麼個事兒？
2021-08-27
PyCharm
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
我的第一個Python爬蟲——談心得
2018-03-30
Python爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
女帝之路：這是光榮創始人之一，襟川惠子的故事
2020-06-30
什麼是爬蟲？Python爬蟲的工作流程怎樣?
2021-02-01
爬蟲Python
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
寫爬蟲是不違法的，違法的是你用資料幹了非法的事
2019-11-01
爬蟲
爬蟲實戰：從外地天氣到美食推薦，探索乾飯人的世界
2024-03-18
爬蟲
五個常用的爬蟲包
2019-12-10
爬蟲
實際工作中的 Python 爬蟲專案是這樣寫的
2019-04-15
Python爬蟲
這可能是你見過的最全的網路爬蟲總結
2020-09-11
爬蟲
俺尋思這node版的漫畫爬蟲沒人要捏...
2018-08-25
爬蟲
編寫一個使用wreq庫的爬蟲程式
2023-11-23
爬蟲
一個基於 golang 的爬蟲電影站
2020-03-20
Golang爬蟲
一個簡單的爬蟲頭部構造
2020-11-22
爬蟲
使用python的scrapy來編寫一個爬蟲
2019-03-14
Python爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
一塊小餅乾(Cookie)的故事-下篇
2019-03-01
Cookie
Python爬蟲是如何實現的？
2022-07-15
Python爬蟲
爬蟲代理是如何執行的？
2022-06-09
爬蟲
每天一個爬蟲-learnku
2021-06-16
爬蟲

一個爬蟲的故事：這是人乾的事兒？

爬蟲原理

反爬蟲技術

前後端分離

驗證碼

往期TOP5文章

相關文章