selenium+python設定爬蟲代理IP的方法

犀牛小牛發表於2019-04-17

1. 設定背景

在使用selenium瀏覽器渲染技術,當我們爬取某個網站的資訊的時候,在一般情況下速度都不是特別的快。而且需要利用selenium瀏覽器渲染技術爬取的網站,反爬蟲的應對技術都比較厲害,對IP訪問頻率有很高程度的限制。所以, 如果想提升selenium抓取資料的速度,可以從兩個方面出發:

第一方面, 抓取頻率要提高,破解出現的驗證資訊,一般都是驗證碼或者是使用者登陸 。

第二方面,使用多執行緒 + 代理IP, 這種方式,需要電腦有足夠的記憶體和充足穩定的代理IP。

2. 為chrome設定代理IP

注意事項: 

第一,選擇穩定的固定的代理IP。不要選擇動態代理IP。我們常用的爬蟲IP代理通常都是具有高度保密性質的高匿名動態IP,是透過 撥號動態產生的,時效性非常的短,一般都是在3分鐘左右。 對於scrapy這種併發度很高,又不需要登入的爬蟲來說,非常合適,但是在瀏覽器渲染類爬蟲中並不適用。

第二,選擇速度較快的代理IP。 因為selenium爬蟲採用的是瀏覽器渲染技術,這種 瀏覽器渲染技術 速度就本身就很慢。如果選擇的代理IP速度較慢,爬取的時間就會進一步增加。

第三,要有足夠大的電腦記憶體。因為chrome佔記憶體較大,在併發度很高的情況下,容易造成瀏覽器崩潰,也就是程式崩潰。

第四,在程式結束時,呼叫 browser.quit( ) 清除瀏覽器快取。

3. 需要使用者名稱密碼驗證的代理


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555707/viewspace-2641640/,如需轉載,請註明出處,否則將追究法律責任。

相關文章