大規模非同步新聞爬蟲的分散式實現

王平發表於2019-06-10

原文網址 : https://www.yuanrenxue.com/crawler/distributed-asyncio-crawler.html

非同步爬蟲分散式

前面我們講了《大規模非同步新聞爬蟲的實現思路》，在文章最後提到了把它升級為分散式的思路。今天，我們就來詳細實現一下，把它真正升級為分散式的大規模非同步爬蟲。

大規模非同步新聞爬蟲的分散式實現

一、架構

我們設計的這個分散式是典型的CS架構，也就是分為伺服器端和客戶端。伺服器端我們稱為“爬蟲Server”，客戶端稱為“爬蟲Client”。

爬蟲Server，負責管理所有URL（即，爬蟲客戶端的下載任務）的狀態，通過我們前面介紹的UrlPool（網址池）進行管理。還不知道UrlPool的同學可以搜尋我們前面的文章，或者到《猿人學網站》上去看“Python爬蟲教程”找到UrlPool的講解。Server提供介面給Clients，以便它們獲取URL和提交URL。

爬蟲Client，負責URL的下載、網頁的解析以及儲存等各種。Client通過介面向Server請求需要被下載的URL，下載完成後向Server報告URL是否下載成功，同時把從網頁中提取到的URLs提交給Server，Server把它們放入URLPool。

Server和Client的分工明確，由它們組成的分散式爬蟲的架構就是這樣子的：

分散式爬蟲設計圖

我們把這個分散式爬蟲叫做“bee”（小蜜蜂），寓意一群蜜蜂去採蜜。分別建立Server和Client的檔案：

bee_server.py

bee_client.py

二、爬蟲Server端實現

爬蟲Server端需要建立一個服務，它可以是TCP的，也可以是HTTP的。這裡，我們選擇Python的非同步web框架：Sanic 來寫這個服務。這個服務很簡單，程式碼如下：

用sanic做服務端

上面是web服務的實現程式碼，通過

@app.listener(‘after_server_stop’)

在Server退出前，快取URLPool裡面的url。

整個web服務就實現了一個介面：/task, 通過GET方法讓client獲取URLs，通過POST讓client提交URLs。

後面再加上執行程式：

分散式服務端程式入口

三、爬蟲Client的實現

我們把Client寫成一個類，這個類一部分介面是與Server互動用的，也就是從Server那裡獲取要下載的URL，以及向Server提交新得到的URLs。另外一部分介面是與網際網路互動的，即下載URLs。

通過非同步IO，我們可以把Client的併發提高上去，達到更高的抓取速度。

先來看看這個類的初始化：

分散式爬蟲客戶端設計

其中，self._workers 記錄當前正在下載的協程（即，併發數）；

sellf.workers_max 是限制最大併發數，根據自己的CPU效能和網路頻寬調整其大小，從而達到最大效率利用硬體資源。

download()方法是對aiohttp的封裝，方便非同步下載。

下面是與Server服務進行互動的兩個方法：

分散式爬蟲服務端和客戶端互動

下面是下載任務相關的方法。其中save_html()根據自己需要可以把下載的網頁儲存到資料庫；filter_good()清洗提取到的URLs，把不需要下載的URLs扔掉。process()是個協程定義，它的工作就是下載、提取、儲存、提交，這個協程會在抓取迴圈中被不斷的建立，達到併發的目的。

服務端處理html的方式

最後，我們定義兩個迴圈，一個用於定時向Server請求要下載的URLs，另一個用於排程下載任務處理協程。通過self._workers這個計數器限制協程數量。start()方法就是整個類的執行入口。

用協程來提高服務端的處理能力

最後的最後，我們需要執行Client：

新聞爬蟲客戶端的入口

四、執行和部署

執行過程很簡單，先執行Server程式：bee_server.py

執行分散式爬蟲的服務端

再執行Client程式： bee_client.py

執行分散式爬蟲的客服端

部署的話，可以單機也可以多機。

如果你的伺服器很強，多核的，單機可能就滿足你的下載量的需求了。首先執行一個Server，剩下client的執行數量根據核數來定。單核大約佔50%的CPU，自己多跑跑看。

如果你的下載量很大，比如實時抓取幾千家新聞網站，那麼可以多臺、多核進行部署。這時候，記得改一下Server監聽的host為0.0.0.0，以便其它機器能訪問它。

這就是一個分散式的爬蟲，道理很簡單，實現也不復雜。由於UrlPool的支援，你的Server可以隨時停掉重啟，然後繼續無重複下載。在這套程式碼上面，修改部分介面，就可以實現你自己的抓取目的。

老規矩，猿人學Python公眾號後臺回覆“bee”獲取相關程式碼。

———————————–

廣而告之，最近我在教爬蟲

一對一教學Python爬蟲；

學會如何設計抓取海量資料的爬蟲；

學會如何分析/破解反反爬策略；

學完自己能真實動手開發那種；

在猿人學Python公眾號選單欄-聯絡我，找到我的微信。

爬蟲文章擴充閱讀：

如何讓爬蟲一天抓取100萬張網頁

大規模非同步新聞爬蟲的實現思路

逆向破解js加密，程式碼混淆不是難事

爬蟲小偏方：robots.txt快速抓取網站的小竅門

爬蟲掙錢系列-(完結篇)結構化人名掙錢第三篇

猿人學banner宣傳圖

我的公眾號：猿人學 Python 上會分享更多心得體會，敬請關注。

***版權申明:若沒有特殊說明，文章皆是猿人學 yuanrenxue.com 原創，沒有猿人學授權，請勿以任何形式轉載。***

相關文章

大規模非同步新聞爬蟲：實現一個同步定向新聞爬蟲
2018-12-03
非同步爬蟲
大規模非同步新聞爬蟲的實現思路
2019-05-20
非同步爬蟲
大規模非同步新聞爬蟲：用asyncio實現非同步爬蟲
2018-12-03
非同步爬蟲
大規模非同步新聞爬蟲：簡單的百度新聞爬蟲
2018-12-02
非同步爬蟲
大規模非同步新聞爬蟲：實現一個更好的網路請求函式
2018-12-02
非同步爬蟲函式
大規模非同步新聞爬蟲：網頁正文的提取
2018-12-03
非同步爬蟲網頁
大規模非同步新聞爬蟲：實現功能強大、簡潔易用的網址池(URL Pool)
2018-12-03
非同步爬蟲
大規模非同步新聞爬蟲：讓MySQL 資料庫操作更方便
2018-12-03
非同步爬蟲MySql資料庫
Python之分散式爬蟲的實現步驟
2018-08-29
Python分散式爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
分散式爬蟲原理之分散式爬蟲原理
2018-05-25
分散式爬蟲
每秒採集幾十萬資料的大規模分散式爬蟲是如何煉成的？
2022-04-16
分散式爬蟲
Jsoup + HtmlUtil 實現網易新聞網頁爬蟲
2019-01-14
JSHTML網頁爬蟲
分散式爬蟲
2019-03-05
分散式爬蟲
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
爬蟲實戰：探索XPath爬蟲技巧之熱榜新聞
2024-03-21
爬蟲
分散式爬蟲原理
2019-02-16
分散式爬蟲
打造高效的分散式爬蟲系統：利用Scrapy框架實現
2023-10-12
分散式爬蟲框架
19--Scarpy05:增量式爬蟲、分散式爬蟲
2024-04-25
爬蟲分散式
分散式爬蟲的部署之Gerapy分散式管理
2018-06-06
分散式爬蟲
分散式爬蟲的部署之Scrapyd分散式部署
2018-05-30
分散式爬蟲
基於java的分散式爬蟲
2018-07-06
Java分散式爬蟲
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
爬蟲 | 非同步請求aiohttp模組
2024-06-16
爬蟲非同步AIHTTP
Golang爬蟲+正規表示式
2021-12-22
Golang爬蟲
分散式爬蟲總結和使用
2018-12-09
分散式爬蟲
Java 的正規表示式與爬蟲
2023-03-10
Java爬蟲
分散式爬蟲的部署之Scrapyd批量部署
2018-06-04
分散式爬蟲
如何利用 Python 爬蟲實現給微信群發新聞早報？（詳細）
2020-05-30
Python爬蟲
大規模爬蟲為什麼要管理DNS快取
2019-06-20
爬蟲DNS快取
Python爬蟲百度新聞標題
2020-11-29
Python爬蟲
成千上萬個站點，日資料過億的大規模爬蟲是怎麼實現的？
2020-12-05
爬蟲
分散式爬蟲很難嗎？用Python寫一個小白也能聽懂的分散式知乎爬蟲
2018-05-04
分散式爬蟲Python
每秒幾十萬的大規模網路爬蟲是如何煉成的？
2019-02-20
爬蟲
[爬蟲架構] 如何設計一個分散式爬蟲架構
2018-05-01
爬蟲架構分散式