分散式爬蟲有哪些使用代理IP的方法？

1、方法一，每個程式從介面API中隨機取一個IP來運用，失敗則再呼叫API獲取一個IP，大約邏輯如下：

（1）每個程式，從介面隨機取回一個IP來，用這個IP去訪問資源；

（2）假如訪問勝利，則繼續抓下一條；

（3）假如失敗，再從介面隨機取一個IP，繼續嘗試。

注意：呼叫API獲取IP的行為十分頻繁，會對代理效勞器形成十分大的壓力，影響API介面穩定，可能會被限制提取。這種計劃也不合適，不能耐久穩定的運轉。

2、方法二，每個程式從介面API中隨機取一個IP列表來迴圈運用，失敗則再呼叫API獲取，大約邏輯如下：

（1）每個程式，從介面隨機取回一批IP回來，迴圈嘗試IP列表去抓取資料；

（2）假如訪問勝利，則繼續抓取下一條；

（3）假如失敗了，再從介面取一批IP，繼續嘗試。

注意：每個IP都是有有效期的，假如提取了100個，當運用了第10個的時分，可能後面的大區域性都失效了。假如你設定HTTP懇求的時分銜接時間超時為3秒，讀取時間超時為5秒，那你將會有可能花費3-8秒的時間，說不定這3-8秒曾經能夠抓取幾十次了。

以上就是分散式爬蟲使用代理IP的方法，大家可以根據不同的情況進行方法的挑選。爬蟲時建議建議結合代理ip的使用，如果大家想測試使用下，可以嘗試，免費測試包含各種類ip資源，無限呼叫IP量！更多常見問題解決：

推薦操作環境：windows7系統、Python 3.9.1，DELL G3電腦。

分散式爬蟲有哪些使用代理IP的方法？

相關文章