爬蟲的代理ip怎麼用程式碼

wh7577發表於2021-09-11

py banner14(12).png

執行大規模雲叢集集輔助工具,顧名思義,就是從別人那裡借用技術成果。執行代理IP,透過執行大量保持穩定的代理IP,突破了目標網站內容IP的限制,以下介紹爬蟲的代理ip使用程式碼方法:

1、首先使用 git clone 將原始碼拉到你本地

2、接著在你 clone 下來的檔案目錄中安裝相關所需的 python 模組:

pip3 install -r requirements.txt

3、接著就可以執行 run.py 了:

代理池開始執行

 * Running on  (Press CTRL+C to quit)

4、開始抓取代理

獲取器開始執行

Crawling 
正在抓取 
抓取成功  200
成功獲取到代理 201.69.7.108:9000
成功獲取到代理 111.67.97.58:36251
成功獲取到代理 187.32.159.61:51936
成功獲取到代理 60.13.42.154:9999
成功獲取到代理 106.14.5.129:80
成功獲取到代理 222.92.112.66:8080
成功獲取到代理 125.26.99.84:60493
...

5、執行 run.py 

這時候就可以訪問你的代理池了,比如隨機獲取一個代理 ip 地址:

這樣訪問之後就會獲取到一個代理ip。

現在,爬蟲程式設計人員如何處理開發票的機制,可以說是非常常見的情況。在進行網路爬蟲時,通常需要代理IP的量比較大。因為在獲取網站資訊內容的過程中,很多網站都做了反爬蟲策略,可能對每個IP做頻率控制。因此,我們需要很多代理IP來爬取網站。推薦結合進行使用,首次註冊免費可以領取一萬ip使用,每日都可以領取免費ip,包含各種ip資源。

推薦操作環境:windows7系統、Python 3.9.1,DELL G3電腦。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2480/viewspace-2828131/,如需轉載,請註明出處,否則將追究法律責任。

相關文章