新手爬蟲使用http代理有哪些方式?

yifanwu發表於2021-09-11

 image.png

如果不使用代理ip,爬蟲業務肯定是不可行的,所以大部分爬蟲工人都會使用安全穩定的代理ip。使用優質代理ip後,會不會沒有後顧之憂?沒那麼容易,需要改進方案,有效分配資源,提高工作效率。

1、每個過程從介面中隨機取出IP列表,重複使用。失敗後,呼叫API獲取。

一般邏輯如下:

(1)每個過程,從介面中隨機取回部分ip,反覆嘗試ip目錄以獲取資料;

(2)如果訪問成功,繼續抓住下一個。

(3)如果失敗,從介面取一批IP,繼續嘗試。

方案缺點:每個IP都有截止日期。如果提取100個,使用第20個,剩下的大部分可能無法使用。如果設定HTTP請求時連線時間超過3秒,讀取時間超過5秒,可能需要3-8秒,3-8秒內可能會抓取幾百次。

2、每個過程從介面隨機取一個IP使用。如果失敗,呼叫API獲取IP。

一般邏輯如下:

(1)每個過程,從介面隨機取回一個ip,使用它瀏覽資源,

(2)如果訪問成功,繼續抓住下一個。

(3)如果失敗,隨機從介面取一個IP,繼續嘗試。

方案缺點:呼叫API獲取IP非常頻繁,會對代理伺服器造成很大壓力,影響API介面的穩定性,可能會限制提取。這個方案不適合,不能長期穩定執行。

3、首先提取大量IP匯入本地資料庫,從資料庫中提取IP。

一般邏輯如下:

(1)在資料庫中建立一個表格,寫一個匯入指令碼,每分鐘需要多少個API(諮詢代理IP服務提供商的建議),並將IP列表匯入資料庫。

(2)記錄匯入時間、IP、Port、過期時間、IP可用狀態等欄位;

(3)寫一個抓取指令碼,從資料庫中讀取可用的IP,每個過程從資料庫中獲取一個IP供使用。

執行抓取、判斷結果、處理cookie等。,只要有驗證碼或失敗,就放棄ip,重新更換ip。

該方案有效避免了代理伺服器資源的消耗,有效分配了代理IP的使用,更加高效穩定,保證了爬蟲工作的永續性和穩定性。大家想嘗試使用代理ip,可以進入官網瞭解更多內容,提供高匿穩定代理ip,支援HTTP/HTTPS/SOCKS5代理協議,提供動態IP、靜態IP等服務。百兆頻寬,千萬ip資源,保證爬蟲資料傳輸安全性。快捷獲取網站資料,現在還有免費測試,贈送ip的活動!

(推薦作業系統:windows7系統、Internet Explorer 11,DELL G3電腦。)

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2157/viewspace-2828303/,如需轉載,請註明出處,否則將追究法律責任。

相關文章