就想寫個爬蟲,我到底要學多少東西啊?

進擊的Coder 發表於 2022-12-06
爬蟲

當今大資料的時代,網路爬蟲已經成為了獲取資料的一個重要手段。

但要學習好爬蟲並沒有那麼簡單。首先知識點和方向實在是太多了,它關係到了計算機網路、程式設計基礎、前端開發、後端開發、App 開發與逆向、網路安全、資料庫、運維、機器學習、資料分析等各個方向的內容,它像一張大網一樣把現在一些主流的技術棧都連線在了一起。正因為涵蓋的方向多,因此學習的東西也非常零散和雜亂,很多初學者搞不清楚究竟要學習哪些知識,學習過程中遇到反爬也不知道用什麼方法來解決,本篇我們來做一些歸納和總結。

初學爬蟲

一些最基本的網站,往往不帶任何反爬措施。比如某個部落格站點,我們要爬全站的話就順著列表頁爬到文章頁,再把文章的時間、作者、正文等資訊爬下來就可以了。

那程式碼怎麼寫呢?用 Python 的 requests 等庫就夠了,寫一個基本的邏輯,順著把一篇篇文章的原始碼獲取下來,解析的話用 XPath、BeautifulSoup、PyQuery 或者正規表示式,或者粗暴的字串匹配把想要的內容摳出來,再加個文字寫入存下來就完事了。

程式碼很簡單,就幾個方法呼叫。邏輯很簡單,幾個迴圈加儲存。最後就能看到一篇篇文章就被我們存到自己的電腦裡面了。當然有的同學可能不太會寫程式碼或者都懶得寫,那麼利用基本的視覺化爬取工具,如某爪魚、某裔採集器也能透過視覺化點選的方式把資料爬下來。

如果儲存方面稍微擴充套件一下的話,可以對接上 MySQL、MongoDB、Elasticsearch、Kafka 等等來儲存資料,實現持久化儲存。以後查詢或者操作會更方便。

反正,不管效率如何,一個完全沒有反爬的網站用最最基本的方式就搞定了。

到這裡,你就說你會爬蟲了嗎?不,還差的遠呢。

Ajax、動態渲染

隨著網際網路的發展,前端技術也在不斷變化,資料的載入方式也不再是單純的服務端渲染了。現在你可以看到很多網站的資料可能都是透過介面的形式傳輸的,或者即使不是介面那也是一些 JSON 的資料,然後經過 JavaScript 渲染得出來的。

這時候,你要再用 requests 來爬那就不頂用了,因為 requests 爬下來的原始碼是服務端渲染得到的,瀏覽器看到頁面的和 requests 獲取的結果是不一樣的。真正的資料是經過 JavaScript 執行的出來的,資料來源可能是 Ajax,也可能是頁面裡的某些 Data,也可能是一些 ifame 頁面等等,不過大多數情況下可能是 Ajax 介面獲取的。

所以很多情況下需要分析 Ajax,知道這些介面的呼叫方式之後再用程式來模擬。但是有些介面帶著加密引數,比如 token、sign 等等,又不好模擬,咋整呢?

一種方法就是去分析網站的 JavaScript 邏輯,死摳裡面的程式碼,揪出來這些引數是怎麼構造的,找出思路來了之後再用爬蟲模擬或重寫就行了。如果你解出來了,那麼直接模擬的方式效率會高非常多,這裡面就需要一些 JavaScript 基礎了,當然有些網站加密邏輯做的太牛逼了,你可能花一個星期也解不出來,最後放棄了。

那這樣解不出來或者不想解,那咋辦呢?這時候可以有一種簡單粗暴的方法就是直接用模擬瀏覽器的方式來爬取,比如用 Puppeteer、Pyppeteer、Selenium、Splash 等,這樣爬取到的原始碼就是真正的網頁程式碼,資料自然就好提取了,同時也就繞過分析 Ajax 和一些 JavaScript 邏輯的過程。這種方式就做到了可見即可爬,難度也不大,同時模擬了瀏覽器,也不太會有一些法律方面的問題。

但其實後面的這種方法也會遇到各種反爬的情況,現在很多網站都會去識別 webdriver,看到你是用的 Selenium 等工具,直接幹掉或不返回資料,所以你碰到這種網站還得來專門解一下這個問題。

多程式、多執行緒、協程

上面的情況如果用單執行緒的爬蟲來模擬是比較簡單的,但是有個問題就是速度慢啊。

爬蟲是 IO 密集型的任務,所以可能大多數情況下都在等待網路的響應,如果網路響應速度慢,那就得一直等著。但這個空餘的時間其實可以讓 CPU 去做更多事情。那怎麼辦呢?多開點執行緒吧。

所以這時候我們就可以在某些場景下加上多程式、多執行緒,雖然說多執行緒有 GIL 鎖,但對於爬蟲來說其實影響沒那麼大,所以用上多程式、多執行緒都可以成倍地提高爬取速度,對應的庫就有 threading、multiprocessing 了。

非同步協程就更牛逼了,用 aiohttp、gevent、tornado 等等的基本上你想搞多少併發就搞多少併發,但是還是悠著點,別把人家網站搞掛了。

總之,用上這幾個,爬蟲速度就提上來了。

但速度提上來了不一定是好事,反爬接著肯定就要來了,封你 IP、封你賬號、彈驗證碼、返回假資料,所以有時候龜速爬似乎也是個解決辦法?

分散式

多執行緒、多程式、協程都能加速,但終究還是單機的爬蟲。要真正做到規模化,還得來靠分散式爬蟲來搞。

分散式的核心是什麼?資源共享。比如爬取佇列共享、去重指紋共享等等。

我們可以使用一些基礎的佇列或元件來實現分散式,比如 RabbitMQ、Celery、Kafka、Redis 等等,但經過很多人的嘗試,自己去實現一個分散式爬蟲,效能和擴充套件性總會出現一些問題,當然特別牛逼的除外哈。不少企業內部其實也有自己開發的一套分散式爬蟲,和業務更緊密,這種當然是最好了。

現在主流的 Python 分散式爬蟲還是基於 Scrapy 的,對接 Scrapy-Redis、Scrapy-Redis-BloomFilter 或者用 Scrapy-Cluster 等等,他們都是基於 Redis 來共享爬取佇列的,總會多多少少遇到一些記憶體的問題。所以一些人也考慮對接到了其他的訊息佇列上面,比如 RabbitMQ、Kafka 等等,解決一些問題,效率也不差。

總之,要提高爬取效率,分散式還是必須要掌握的。

驗證碼

爬蟲難免遇到反爬,驗證碼就是其中之一。要會反爬,那首先就要會解驗證碼。

現在你可以看到很多網站都會有各種各樣的驗證碼了,比如最簡單的圖形驗證碼,要是驗證碼的文字規整的話,OCR 過一遍或者基本的模型庫都能識別,不想搞這個的話可以直接去對接個打碼平臺來搞,準確率還是有的。

然而你可能現在都見不到什麼圖形驗證碼了,都是一些行為驗證碼,如某驗、某盾等等,國外也有很多,比如 reCaptcha 等等。一些稍微簡單一點的,比如滑動的,你可以找點辦法識別缺口,比如影像處理比對、深度學習識別都是可以的。軌跡呢自己寫個模擬正常人行為的,加點抖動之類的。有了軌跡之後咋模擬呢,如果你牛逼,那麼可以直接去分析驗證碼的 JavaScript 邏輯,把軌跡資料錄入,那就能得到裡面的一些加密引數,直接拿著這些引數放到表單或介面裡面就能直接用了。當然也可以用模擬瀏覽器的方式來拖動,也能透過一定的方式拿到加密引數,或者直接用模擬瀏覽器的方式把登入一起做了,拿著 Cookies 來爬也行。

當然拖動只是一種驗證碼,還有文字點選、邏輯推理等,要是真不想搞,可以找打碼平臺來解出來再模擬,但畢竟花錢的,一些高手就會選擇自己訓練深度學習相關的模型,收集資料、標註、訓練,針對不同的業務訓練不同的模型。這樣有了核心技術,也不用再去花錢找打碼平臺了,再研究下驗證碼的邏輯模擬一下,加密引數就能解出來了。不過有的驗證碼難得很,有的我也沒搞定。

當然有些驗證碼可能是請求過於頻繁而彈出來的,這種如果換個 IP 什麼的也能解。

封 IP

封 IP 也是個令人頭疼的事,行之有效的方法就是換代理了。

代理很多種,市面上免費的,收費的太多太多了。

首先可以把市面上免費的代理用起來,自己搭建一個代理池,收集現在全網所有的免費代理,然後加一個測試器一直不斷測試,測試的網址可以改成你要爬的網址。這樣測試透過的一般都能直接拿來爬你的目標網站。我自己也搭建過一個代理池,現在對接了一些免費代理,定時爬、定時測,還寫了個 API 來取,放在 GitHub 了:,打好了 Docker 映象,提供了 Kubernetes 指令碼,大家可以直接拿來用。

付費代理也是一樣,很多商家提供了代理提取介面,請求一下就能獲取幾十幾百個代理,我們可以同樣把它們接入到代理池裡面。但這個代理也分各種套餐,什麼開放代理、獨享代理等等的質量和被封的機率也是不一樣的。

有的商家還利用隧道技術搭了代理,這樣代理的地址和埠我們是不知道的,代理池是由他們來維護的,比如某布雲,這樣用起來更省心一些,但是可控性就差一些。

還有更穩定的代理,比如撥號代理、蜂窩代理等等,接入成本會高一些,但是一定程度上也能解決一些封 IP 的問題。

不過這些背後也不簡單,為啥一個好好的高匿代理就是莫名其妙爬不了,背後的一些事就不多講了。

##封賬號

有些資訊需要模擬登入才能爬嘛,如果爬的過快,人家網站直接把你的賬號封禁了,就啥都沒得說了。比如爬公眾號的,人家把你 WX 號封了,那就全完了。

一種解決方法當然就是放慢頻率,控制下節奏。

還有種方法就是看看別的終端,比如手機頁、App 頁、wap 頁,看看有沒有能繞過登入的法子。

另外比較好的方法,那就是分流。如果你號足夠多,建一個池子,比如 Cookies 池、Token 池、Sign 池反正不管什麼池吧,多個賬號跑出來的 Cookies、Token 都放到這個池子裡面,用的時候隨機從裡面拿一個。如果你想保證爬取效率不變,那麼 100 個賬號相比 20 個賬號,對於每個賬號對應的 Cookies、Token 的取用頻率就變成原來的了 1/5,那麼被封的機率也就隨之降低了。

奇葩的反爬

上面說的是幾種比較主流的反爬,當然還有非常多奇葩的反爬。比如返回假資料、返回圖片化資料、返回亂序資料、返回罵人的資料、返回求饒的資料,那都具體情況看著辦吧。

這些反爬也得小心點,之前見過一個反爬直接返回 rm -rf / 的也不是沒有,你要是正好有個指令碼模擬執行返回結果,後果自己想象哈。

JavaScript 逆向

說到重頭了。隨著前端技術的進步和網站反爬意識的增強,很多網站選擇在前端上下功夫,那就是在前端對一些邏輯或程式碼進行加密或混淆。當然這不僅僅是為了保護前端的程式碼不被輕易盜取,更重要的是反爬。比如很多 Ajax 介面都會帶著一些引數,比如 sign、token 等等,這些前文也講過了。這種資料我們可以用前文所說的 Selenium 等方式來爬,但總歸來說效率太低了,畢竟它模擬的是網頁渲染的整個過程,而真實的資料可能僅僅就藏在一個小介面裡。

如果我們能夠把一些介面的引數真正找出其中的邏輯,用程式碼來模擬執行,那效率就會有成倍的提升,而且還能在一定程度上規避上述的反爬現象。

但問題是什麼?難啊。

Webpack 是一方面,前端程式碼都被壓縮和轉碼成一些 bundle 檔案,一些變數的含義已經丟失,不好還原。然後一些網站再加上一些 obfuscator 的機制,把前端程式碼變成你完全看不懂的東西,比如字串拆散打亂、變數十六進位制化、控制流扁平化、無限 debug、控制檯禁用等等,前端的程式碼和邏輯已經面目全非。有的用 WebAssembly 等技術把前端核心邏輯直接編譯,那就只能慢慢摳了,雖然說有些有一定的技巧,但是總歸來說還是會花費很多時間。但一旦解出來了,那就萬事大吉了。怎麼說?就像奧賽題一樣,解出來昇天,解不出來 GG。

很多公司招聘爬蟲工程師都會問有沒有 JavaScript 逆向基礎,破解過哪些網站,比如某寶、某多、某條等等,解出來某個他們需要的可能就直接錄用你。每家網站的邏輯都不一樣,難度也不一樣。

App

當然爬蟲不僅僅是網頁爬蟲了,隨著網際網路時代的發展,現在越來越多的公司都選擇將資料放到 App 上面,甚至有些公司只有 App 沒有網站。所以資料只能透過 App 來爬。

咋爬呢?基本的就是抓包工具了,Charles、Fiddler 一把梭,抓到介面之後,直接拿來模擬就行了。

如果介面有加密引數怎麼辦呢?一種方法你可以邊爬邊處理,比如 mitmproxy 直接監聽介面資料。另一方面你可以走 Hook,比如上 Xposed 也可以拿到。

那爬的時候又怎麼實現自動化呢?總不能拿手來戳吧。其實工具也多,安卓原生的 adb 工具也行,Appium 現在已經是比較主流的方案了,當然還有其他的某精靈都是可以實現的。

最後,有的時候可能真的就不想走自動化的流程,我就想把裡面的一些介面邏輯摳出來,那就得搞逆向了,IDA Pro、jdax、FRIDA 等工具就派上用場了,當然這個過程和 JavaScript 逆向一樣很痛苦,甚至可能得讀彙編指令。搞一個案例掉一把頭髮也不是不可能的。

智慧化

上面的這一通,都搞熟了,恭喜你已經超過了百分之八九十的爬蟲玩家了,當然專門搞 JavaScript 逆向、App 逆向的都是站在食物鏈頂端的男人,這種嚴格來說已經不算爬蟲範疇了,這種神我們就不算在裡面了,反正我不是。

除了上面的一些技能,在一些場合下,我們可能也需要結合一些機器學習的技術,讓我們的爬蟲變得更智慧起來。

比如現在很多部落格、新聞文章,其頁面結構相似度比較高,要提取的資訊也比較類似。

比如如何區分一個頁面是索引頁還是詳情頁?如何提取詳情頁的文章連結?如何解析文章頁的頁面內容?這些其實都是可以透過一些演算法來計算出來的。

所以,一些智慧解析技術也營運而生,比如提取詳情頁,一位朋友寫的 GeneralNewsExtractor 表現就非常好。

假如說我來了一個需求,我要爬取一萬個新聞網站資料,要一個個寫 XPath 嗎?寫死我吧。如果有了智慧化解析技術,在容忍一定錯誤的條件下,完成這個就是分分鐘的事情。

總之,如果我們能把這一塊也學會了,我們的爬蟲技術就會如虎添翼。

運維

這塊也是一個重頭戲。爬蟲和運維也是息息相關。

比如寫完一個爬蟲,怎樣去快速部署到 100 臺主機上跑起來。

比如怎麼靈活地監控每個爬蟲的執行狀態。

比如爬蟲有處程式碼改動,如何去快速更新。

比如怎樣監控一些爬蟲的佔用記憶體、消耗的 CPU 狀況。

比如怎樣科學地控制爬蟲的定時執行、

比如爬蟲出現了問題,怎樣能及時收到通知,怎樣設定科學的報警機制。

這裡面,部署大家各有各的方法,比如用 Ansible 當然可以。如果用 Scrapy 的話有 Scrapyd,然後配合上一些管理工具也能完成一些監控和定時任務。不過我現在用的更多是還是 Docker + Kubernetes,再加上 DevOps 一套,比如 GitHub Actions、Azure Pipelines、Jenkins 等等,快速實現分發和部署。

定時任務大家有的用 crontab,有的用 apscheduler,有的用管理工具,有的用 Kubernetes,我的話用 Kubernetes 就多一些了,定時任務也是很好實現。

至於監控的話,也有很多,專門的一些爬蟲管理工具自帶了一些監控和報警功能。一些雲服務也帶了一些監控的功能。我用的是 Kubernetes + Prometheus + Grafana,什麼 CPU、記憶體、執行狀態,一目瞭然,報警機制在 Grafana 裡面配一下也很方便,支援 Webhook、郵件甚至某釘。

資料的儲存和監控,用 Kafka、Elasticsearch 個人感覺也挺方便的,我主要用的是後者,然後再和 Grafana 配合起來,資料爬取量、爬取速度等等監控也都一目瞭然。

結語

至此,爬蟲的一些涵蓋的知識點也就差不多了,怎麼樣,梳理一下,是不是計算機網路、程式設計基礎、前端開發、後端開發、App 開發與逆向、網路安全、資料庫、運維、機器學習都涵蓋到了?上面總結的可以算是從爬蟲小白到爬蟲高手的路徑了,裡面每個方向其實可研究的點非常多,每個點做精了,都會非常了不起。

爬蟲往往學著學著,就成為了一名全棧工程師或者全乾工程師,因為你可能真的啥都會了。但是沒辦法啊,都是被爬蟲逼的啊,如果不是生活所困,誰願意一身才華呢?

然而有了才華之後呢?摸摸頭頂,臥槽,我的頭髮呢?

嗯,大家都懂的。

最後最重要的,珍愛生命、珍愛每一根頭髮。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31557738/viewspace-2677690/,如需轉載,請註明出處,否則將追究法律責任。