1. 設定背景

在使用selenium瀏覽器渲染技術，當我們爬取某個網站的資訊的時候，在一般情況下速度都不是特別的快。而且需要利用selenium瀏覽器渲染技術爬取的網站，反爬蟲的應對技術都比較厲害，對IP訪問頻率有很高程度的限制。所以，如果想提升selenium抓取資料的速度，可以從兩個方面出發：

第一方面，抓取頻率要提高，破解出現的驗證資訊，一般都是驗證碼或者是使用者登陸。

第二方面，使用多執行緒 + 代理IP，這種方式，需要電腦有足夠的記憶體和充足穩定的代理IP。

2. 為chrome設定代理IP

注意事項：

第一，選擇穩定的固定的代理IP。不要選擇動態代理IP。我們常用的爬蟲IP代理通常都是具有高度保密性質的高匿名動態IP，是透過撥號動態產生的，時效性非常的短，一般都是在3分鐘左右。對於scrapy這種併發度很高，又不需要登入的爬蟲來說，非常合適，但是在瀏覽器渲染類爬蟲中並不適用。

第二，選擇速度較快的代理IP。因為selenium爬蟲採用的是瀏覽器渲染技術，這種瀏覽器渲染技術速度就本身就很慢。如果選擇的代理IP速度較慢，爬取的時間就會進一步增加。

第三，要有足夠大的電腦記憶體。因為chrome佔記憶體較大，在併發度很高的情況下，容易造成瀏覽器崩潰，也就是程式崩潰。

第四，在程式結束時，呼叫 browser.quit( ) 清除瀏覽器快取。

3. 需要使用者名稱密碼驗證的代理

selenium+python設定爬蟲代理IP的方法

相關文章