高可用分散式代理IP池:架構篇

resolvewang發表於2018-02-28

歷時大致兩個月，到現在終於完成了高可用分散式代理IP池，目前開源在了Github上。寫這個專案的原因主要有兩點，一是自己平時的部分工作需要和爬蟲打交道，代理IP在有的時候可以發揮非常重要的作用，調研過一些開源的代理IP採集程式，發現在抓取、解析、校驗、資源排程等這些方面總有一些不盡人意的地方；二是和一個網友（不嚴格的說算得上是伯樂）的交流讓我有了關於使用Scrapy來寫分散式爬蟲的一些想法，正好可以藉助這個機會來嘗試證實這些想法。

這篇文章的目的是闡述haipproxy的主要架構和流程。該專案關鍵部分是

基於Scrapy和Redis的分散式爬蟲，用作IP抓取和校驗，對應於專案的crawler
基於Redis實現的分散式任務排程工具，對應於專案的scheduler和redis_util.py

Crawler分為代理抓取和校驗，兩者實現思想類似，主要使用Scrapy的spider_idle訊號和DontCloseSpider異常來阻止Scrapy在沒有資料的時候關閉，靈感來自scrapy-redis。為了方便闡述，我畫了一張包含各個元件的流程圖，如下

啟動排程器，包括代理爬蟲排程器和校驗爬蟲排程器。排程器會讀取rules.py中待抓取的網站，將其編排成任務存入各個任務佇列中
啟動各個爬蟲，包括IP抓取和校驗程式。專案中爬蟲和排程器都是高可用的，可以根據實際情況進行分散式部署，無需改動程式碼。由於本文的目標不是寫成該專案的詳細使用文件，所以省略瞭如指定啟動爬蟲型別和排程器型別的介紹
代理IP採集爬蟲啟動後會到對應的任務佇列中獲取任務並執行，再把獲取到的結果存入一個init佇列中
init佇列由一個特殊的校驗器HttpbinInitValidator進行消費，它會過濾掉透明代理，再把可用代理輸入各個Validated佇列中
排程器會定時從Validated佇列中獲取代理IP，再將其存入一個臨時的佇列。這裡用一個臨時佇列是為了讓校驗更加公平，如果直接從Validated佇列中獲取資源進行校驗，那麼會增大不公平性
這時候各個校驗器(非init校驗器)會從對應的臨時佇列中獲取待校驗的IP並對其進行校驗，此處省略校驗細節
校驗完成後再將其放回到Validated佇列中，等待下一輪校驗
請求成功率(體現為分數)、響應速度和最近校驗時間滿足settings.py所配置要求的代理IP將會被爬蟲客戶端所消費
為了遮蔽各個呼叫語言的差異性，目前實現的客戶端是squid客戶端，它可以作為爬蟲客戶端的中介軟體

到此，整個流程便完了。

效果測試

以單機模式部署haipproxy和測試程式碼，以知乎為目標請求站點，每一萬條成功請求為統計結果，實測抓取效果如下

請求量	時間	耗時	IP負載策略	客戶端
0	2018/03/03 22:03	0	greedy	py_cli
10000	2018/03/03 11:03	1 hour	greedy	py_cli
20000	2018/03/04 00:08	2 hours	greedy	py_cli
30000	2018/03/04 01:02	3 hours	greedy	py_cli
40000	2018/03/04 02:15	4 hours	greedy	py_cli
50000	2018/03/04 03:03	5 hours	greedy	py_cli
60000	2018/03/04 05:18	7 hours	greedy	py_cli
70000	2018/03/04 07:11	9 hours	greedy	py_cli
80000	2018/03/04 08:43	11 hours	greedy	py_cli

可見haipporxy的代理效果還算不錯，在開始的時候可以達到1w/hour的請求量，幾個小時候請求量請求量降為了5k/hour。降低的結果可能有三個: (1)隨著資料量的增大,Redis的效能受到了一定的影響(2)知乎校驗器在把Init Queue中的代理消費完之後，由於是定時任務，所以導致某段時間內新鮮的IP空缺。而免費IP大多數都是短效的，所以這段時間出現了IP的空缺;(3)由於我們採用的是greedy模式呼叫IP，它的呼叫策略是: 高質量代理IP會一直被呼叫直至該代理IP不能用或者被封，而低應速度IP會輪詢呼叫。這也可能導致高質量IP的空缺。可見IP校驗和呼叫策略還有很大的優化空間。希望志同道合的朋友加入進來一起優化，這也挺有意思的。

專案地址: https://github.com/SpiderClub/haipproxy

歡迎star和fork，也歡迎大家交流和PR。

jeesz分散式架構-分散式高可用
2017-03-16
分散式架構
基於MFS高可用的分散式儲存架構
2019-08-25
分散式架構
整合spring cloud雲架構 -高可用的分散式配置中心
2019-03-18
SpringCloud架構分散式
SpringCloud分散式微服務雲架構第七篇: 高可用的分散式配置中心(Config)
2019-12-13
SpringGCCloud分散式微服務架構
[分散式][高併發]高併發架構
2019-03-19
分散式架構
代理Ip池構建及使用
2019-01-16
Oracle 高可用架構
2010-12-21
Oracle架構
MySQL高可用架構案例篇：UCloud最佳實踐
2018-05-26
MySql架構Cloud
MySQL 高可用架構之 MMM 架構
2019-08-12
MySql架構
微服務分散式架構之redis篇
2020-10-04
微服務分散式架構Redis
Canal高可用架構部署
2021-03-25
架構
【Redis】Sentinel 高可用架構
2017-08-02
Redis架構
Redis Sentinel高可用架構
2015-12-12
Redis架構
Oracle高可用架構（MAA）
2011-11-10
Oracle架構
Twitter 高併發高可用架構
2013-07-24
架構
分散式架構的高效能與可用性
2023-12-26
分散式架構
(五)spring cloud微服務分散式雲架構-配置中心服務化和高可用
2019-03-11
SpringCloud微服務分散式架構
MySQL高可用架構對比
2019-04-03
MySql架構
AWS 高可用AWS架構方案
2020-12-02
架構
mysql高可用架構MHA搭建
2020-09-19
MySql架構
Keepalived 架構高可用 Mysql
2015-01-21
架構MySql
mysql MHA 高可用架構部署
2016-03-01
MySql架構
分散式儲存高可用設計
2017-04-07
分散式
[分散式]架構設計原則--高併發
2019-02-12
分散式架構
分散式WebSocket架構
2018-10-21
分散式Web架構
一篇文章帶你瞭解高可用架構分析
2023-01-05
架構
基於 Apache ShardingSphere 構建高可用分散式資料庫
2022-03-08
Apache分散式資料庫
高可用架構之高可用的應用和服務
2017-10-28
架構
k8s高可用架構
2019-05-15
K8S架構
MySQL高可用架構設計分析
2019-07-23
MySql架構
MQ系列9：高可用架構分析
2023-01-04
MQ架構
深度解析KubeEdge EdgeMesh 高可用架構
2022-11-22
架構
MyCAT高可用方案和架構圖
2017-03-15
架構
理解HDFS高可用性架構
2017-08-21
架構
Redis 高可用架構最佳實踐
2017-05-28
Redis架構
高可用架構設計全面詳解(8大高可用方案)
2024-02-29
架構
「如何設計」高可用的分散式鎖
2019-06-04
分散式
Redis高可用分散式內部交流(九)
2015-08-25
Redis分散式

高可用分散式代理IP池:架構篇

效果測試

相關文章