selenium+python設定爬蟲代理IP的方法
1. 設定背景
在使用selenium瀏覽器渲染技術,當我們爬取某個網站的資訊的時候,在一般情況下速度都不是特別的快。而且需要利用selenium瀏覽器渲染技術爬取的網站,反爬蟲的應對技術都比較厲害,對IP訪問頻率有很高程度的限制。所以, 如果想提升selenium抓取資料的速度,可以從兩個方面出發:
第一方面, 抓取頻率要提高,破解出現的驗證資訊,一般都是驗證碼或者是使用者登陸 。
第二方面,使用多執行緒 + 代理IP, 這種方式,需要電腦有足夠的記憶體和充足穩定的代理IP。
2. 為chrome設定代理IP
注意事項:
第一,選擇穩定的固定的代理IP。不要選擇動態代理IP。我們常用的爬蟲IP代理通常都是具有高度保密性質的高匿名動態IP,是透過 撥號動態產生的,時效性非常的短,一般都是在3分鐘左右。 對於scrapy這種併發度很高,又不需要登入的爬蟲來說,非常合適,但是在瀏覽器渲染類爬蟲中並不適用。
第二,選擇速度較快的代理IP。 因為selenium爬蟲採用的是瀏覽器渲染技術,這種 瀏覽器渲染技術 速度就本身就很慢。如果選擇的代理IP速度較慢,爬取的時間就會進一步增加。
第三,要有足夠大的電腦記憶體。因為chrome佔記憶體較大,在併發度很高的情況下,容易造成瀏覽器崩潰,也就是程式崩潰。
第四,在程式結束時,呼叫 browser.quit( ) 清除瀏覽器快取。
3. 需要使用者名稱密碼驗證的代理
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555707/viewspace-2641640/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python爬蟲技巧---設定代理IPPython爬蟲
- 如何用海外HTTP代理設定python爬蟲代理ip池?HTTPPython爬蟲
- 爬蟲代理IP的使用技巧爬蟲
- 分散式爬蟲有哪些使用代理IP的方法?分散式爬蟲
- 動態ip代理:反網路爬蟲之設定User-Agent的常規方法爬蟲
- Python爬蟲動態ip代理防止被封的方法Python爬蟲
- Python爬蟲怎麼設定動態IP代理,Python爬蟲要注意哪些事項?Python爬蟲
- 如何建立爬蟲代理ip池爬蟲
- 爬蟲使用代理防封IP爬蟲
- 爬蟲如何使用ip代理池爬蟲
- 代理IP如何突破反爬蟲?爬蟲
- 爬蟲代理怎麼選ip爬蟲
- 爬蟲中代理IP的常見方案爬蟲
- 爬蟲需要代理IP的基本要求爬蟲
- 爬蟲代理IP的三大作用爬蟲
- 實用爬蟲-02-爬蟲真正使用代理 ip爬蟲
- 爬蟲代理IP有哪些好處?爬蟲
- python爬蟲實戰:爬取西刺代理的代理ip(二)Python爬蟲
- Python代理IP爬蟲的簡單使用Python爬蟲
- 爬蟲的代理ip怎麼用程式碼爬蟲
- Python 爬蟲IP代理池的實現Python爬蟲
- 用Python爬蟲抓取代理IPPython爬蟲
- 網路爬蟲怎麼使用ip代理爬蟲
- 代理ip池對爬蟲有多重要爬蟲
- 爬蟲代理IP產品如何選擇爬蟲
- 爬蟲工作對於代理IP的三大需求爬蟲
- 手把手教你爬蟲代理ip池的建立爬蟲
- 如何利用代理ip提高爬蟲的工作效率爬蟲
- 爬蟲代理IP自動分配失敗的原因爬蟲
- 爬蟲為什麼要用IP代理更換IP地址爬蟲
- python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)Python爬蟲隨機
- 爬蟲工作使用代理IP有哪些優勢?爬蟲
- 優質爬蟲代理IP的四大特點爬蟲
- 導致爬蟲代理IP超時的四種原因爬蟲
- 爬蟲代理IP助力企業業務的三個方面爬蟲
- Python爬蟲需要了解的代理IP知識Python爬蟲
- 構建一個給爬蟲使用的代理IP池爬蟲
- 【PhpSelenium】3.定時爬蟲 + 多工爬蟲 + 代理池PHP爬蟲