在爬取的過程中難免發生ip被封和403錯誤等等，這都是網站檢測出你是爬蟲而進行反爬措施，在這裡為大家總結一下怎麼用IP代理防止被封

首先，設定等待時間：

常見的設定等待時間有兩種，一種是顯性等待時間（強制停幾秒），一種是隱性等待時間（看具體情況，比如根據元素載入完成需要時間而等待）圖1是顯性等待時間設定，圖2是隱性

第二步，修改請求頭：

識別你是機器人還是人類瀏覽器瀏覽的重要依據就是User-Agent，比如人類用瀏覽器瀏覽就會使這個樣子的User-Agent：'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

第三步，採用代理ip/建代理ip池

直接看程式碼。利用動態ip代理，可以強有力地保障爬蟲不會被封，能夠正常執行。圖1為使用代理ip的情況，圖2是建ip代理池的程式碼，有沒有必要需要看自己的需求，大型專案是必須用大量ip的。

Python爬蟲動態ip代理防止被封的方法

相關文章