Python爬蟲動態ip代理防止被封的方法

阿布多abu發表於2019-08-12

在爬取的過程中難免發生ip被封和403錯誤等等,這都是網站檢測出你是爬蟲而進行反爬措施,在這裡為大家總結一下怎麼用IP代理防止被封

首先,設定等待時間:

常見的設定等待時間有兩種,一種是顯性等待時間(強制停幾秒),一種是隱性等待時間(看具體情況,比如根據元素載入完成需要時間而等待)圖1是顯性等待時間設定,圖2是隱性

第二步,修改請求頭:

識別你是機器人還是人類瀏覽器瀏覽的重要依據就是User-Agent,比如人類用瀏覽器瀏覽就會使這個樣子的User-Agent:'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

第三步,採用代理ip/建代理ip池

直接看程式碼。利用動態ip代理,可以強有力地保障爬蟲不會被封,能夠正常執行。圖1為使用代理ip的情況,圖2是建ip代理池的程式碼,有沒有必要需要看自己的需求,大型專案是必須用大量ip的。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69903461/viewspace-2653404/,如需轉載,請註明出處,否則將追究法律責任。

相關文章