haipproxy核心校驗和排程策略

resolvewang發表於2018-03-04

原文網址 : https://juejin.im/post/5a9b9b7e518825558358ad7b

昨日使用haipproxy作為代理源，對知乎進行了資料抓取相關的效能測試，測試效果還不錯，有興趣的可以點選專案主頁檢視測試結果。但是它仍有繼續優化的空間，所以筆者打算單獨寫一篇文章來單獨闡述它現有的IP篩選策略，也就是題目說的高可用策略。而關於部署的高可用後續文章會談及到，這裡暫時按下不表。

下文主要會談到校驗器和客戶端的IP篩選策略。

校驗器

我們知道，一個代理IP有多個屬性，比如成功請求率、響應速度、是否支援Get/Post方法、是否匿名和該IP所處位置等。這些往往也是衡量一個IP質量的可參照標準。而從網際網路上採集的免費IP大多數是短效的，所以代理IP對應的最近驗證時間也是一個很重要的參考標準。haipproxy目前主要參照請求成功率、響應速度、最近驗證時間和是否匿名這四個維度對代理IP進行篩選。精力所限，目前還未打算對IP位置進行完善，而IP位置對於已登入的賬戶來說具有比較重要的意義。還有一點是，對於同一個代理IP，代理不同網站的效果可能大不相同，所幸的是，haipproxy可以根據自己需求定製校驗器

根據haipproxy架構篇的介紹，我們可以知道haipproxy initvalidator會過濾掉部分透明的代理ip，另外一個過濾透明IP的地方是proxy spiders，它在抓取代理IP的時候會直接丟棄透明代理IP。因此，是否匿名這個標註我們已經實現了，後續所有的validated queues中儲存的都是匿名及高匿IP。

請求成功率是以打分的方式來做的，這樣做的原因是不需要對歷時成功請求次數和失敗請求次數進行記錄和計算，優化了部分效能，又可以體現一個IP的穩定性。那麼打分的標準又是怎樣的呢？haipproxy會先給定一個初始分數(5)。當成功一次，我們就對該代理加1分，為了防止分數短時間急劇增大，在分數大於一定閾值(10)後就對其進行更平滑的加分處理，具體為round(10/score, 2)，這樣，分數會越來越難升高，但是足夠衡量每個代理IP的穩定性了。當失敗一次，就要分情況處理了。我們知道，很多免費代理IP可能短時間失效，比如代理埠被關了。這種情況下，haipproxy會直接丟棄該代理IP，因為它沒有繼續校驗的必要性了，再對它進行校驗只會增加校驗器的負擔。但是如果本次校驗超時了，校驗器會將該代理IP減一分，直到分數為0，則刪除。對於不同分數的IP的選取會在客戶端部分進行說明。

響應速度這個標準比較容易評判，haipproxy的做法是為校驗器爬蟲載入一個profilemiddleware，從而獲取到請求成功的代理IP的響應時間。同理，最近校驗時間也比較容易獲取到，我們使用redis的zset資料結構來儲存它。

客戶端

目前，haipproxy實現了兩種形式的客戶端：squid和py_cli。前者是語言無關的，它使用squid作為二級代理，它會定時自動更新squid配置檔案，以獲取新的可用代理，獲取的方法和使用py_cli相同，下面會講到。使用squid作為二級代理的好處是便於服務化，同時是語言無關的，我們的爬蟲端只需要將代理設定為http://squid_host:3128就可以了，不用關心其它，但是這麼做有一點不好的是，它的排程是輪詢IP，並且對於不可用或者低質量IP的處理和反饋是不透明的。基於這點，有必要實現基於不同語言的客戶端。

py_cli是haipproxy代理獲取的python實現。挑選可用代理的具體做法如下:

根據配置檔案的設定分別從validated_queue、ttl_queue和speed_queue中挑選出滿足配置引數需求的代理再對其求交集，引數預設值是LOWEST_SCORE = 6、TTL_VALIDATED_RESOURCE = 2和LONGEST_RESPONSE_TIME = 10，表示的意思是選擇分數大於６且最近驗證時間在２分鐘以內且最長響應時間不超過10s的代理。這樣可以對上述的各個標準做合理的保證。在上述挑選方式選出來的代理數量不足(len(proxies) < len(pool)*2)的時候，會放寬挑選要求，對速度和最近驗證時間求交集，然後和成功率做並集。如果代理數量還不足，它還會放低要求，對滿足最近驗證時間和成功率的集合做並集。
在爬蟲客戶端呼叫py_cli的時候，代理客戶端ProxyFetcher會首先呼叫refresh()方法，如果ProxyFetcher中的可用代理量不夠，那麼就會通過上一步的演算法對IP池進行擴充，如果數量足夠，那麼就會根據代理的排程策略選取合適的IP進行使用。
目前共有兩種代理排程策略。(1)輪詢策略。代理池是一個佇列結構，每次從隊首拿一個IP進行使用，如果該IP請求成功，則放到隊尾，如果不成功，則需要呼叫ProxyFetcher的proxy_feedback()方法將結果進行反饋。這種策略的好處是IP負載比較均衡。但是缺點在於，IP質量參差不齊，有的響應時間很快，有的響應時間很慢，並且高質量的免費代理IP的生命週期可能很短，這樣就無法充分利用。(2)貪婪策略。使用此種策略的時候，需要爬蟲端對每次請求的響應時間進行記錄，每次使用後呼叫proxy_feedback()方法以決定該代理IP是否繼續下一次請求的時候被使用。如果使用某個代理IP的響應時間低於傳入的response_time引數，那麼就會一直使用它，直到不能用就從代理池中刪除。如果時間高於了response_time，那麼它會把該IP放入隊尾。概括起來，該策略就是低質量IP輪詢，高質量IP一直使用。

上述便是目前關於haipproxy的代理IP挑選策略的所有細節。如果專案對您有用，不妨在Github上給個star。

Flink排程之排程器、排程策略、排程模式
2023-03-08
模式
Linux之CPU排程策略和CPU親和性
2024-11-25
Linux
排程器簡介，以及Linux的排程策略
2020-03-26
Linux
Go runtime 排程器精講（五）：排程策略
2024-09-14
Go
深入工作流排程的核心
2024-09-27
實現一個分散式排程系統-LoadBalance和Ha策略
2021-09-09
分散式
NET Core 多身份校驗與策略模式
2024-08-30
模式
ThreadX應用筆記：核心初始化和任務排程
2021-01-12
thread筆記
Spark中資源排程和任務排程
2021-11-12
Spark
第三章 Goroutine排程策略（16）
2019-05-15
Go
LInux實驗：程式排程模擬
2020-12-24
Linux
ModStart排程和佇列
2021-12-09
佇列
Linux核心學習筆記（5）– 程式排程概述
2018-09-06
Linux筆記
Linux 核心排程器原始碼分析 - 初始化
2021-05-14
Linux原始碼
校驗和與編號
2024-06-06
Timer和TimerTask 任務排程
2018-07-09
剖析react核心設計原理--非同步執行排程
2022-02-25
React非同步
100行程式碼實現React核心排程功能
2021-12-16
行程React
Java設計模式——策略模式——方法多樣排程靈活
2021-09-09
Java設計模式
Nachos實驗實現執行緒id、限制執行緒數和更改排程演算法（按優先順序排程）
2020-11-17
執行緒演算法
技術解讀 | SD-WAN的多樣性策略排程
2021-03-12
springMVC:校驗框架:多規則校驗,巢狀校驗,分組校驗;ssm整合技術
2021-03-25
SpringMVC框架巢狀SSM
TCP的校驗和與編號
2024-06-06
TCP
ROS 安裝過程中出現“hash校驗和不符”報錯解決辦法
2018-07-01
ROS
asyncio系列之抽絲剝繭分析事件排程的核心原理
2019-07-08
事件
任務排程的思考和總結
2018-03-31
kubernetes 排程
2022-07-14
Go排程器系列（3）圖解排程原理
2019-04-06
Go圖解
Go語言排程器之主動排程(20)
2019-05-28
Go
計算校驗和工具：Checksum Thing Mac
2022-03-23
Mac
SAP 基於採購訂單的MIRO校驗過程
2020-01-15
docker筆記33-排程器、預選策略及優選函式
2018-10-14
Docker筆記函式
ECC校驗
2018-04-07
程式排程的原理和演算法探析
2023-08-30
演算法
論銀行的排程系統和ＥＴＬ
2022-06-11
聊聊kube-scheduler如何完成排程和調整排程權重
2023-12-18
libgo原始碼分析之多執行緒協程管理和排程
2020-12-05
Go原始碼執行緒
Go語言排程器之排程main goroutine（14）
2019-05-09
GoAI

haipproxy核心校驗和排程策略

校驗器

客戶端

相關文章