爬蟲使用代理防封IP

犀牛小牛發表於2019-04-17

在我們使用爬蟲進行資料爬取的時候,爬著爬著就經常會遇到這種情況出現“HTTP  Error 

403: Forbidden ”的提示,這是啥意思呢? 其實他是一種http狀態碼,表示你在請求一個資原始檔但是nginx不允許你檢視。 它不屬於技術上的錯誤,但是需要技術解決問題。


爬蟲使用代理防封IP


需要返回403狀態碼的是哪些場景?

第一個場景特定的使用者訪問被禁止訪問網站所有的內容,例如,某使用者頻繁的訪問A網站,被A網站遮蔽

第二個場景 訪問禁止目錄瀏覽的目錄 ,例:設定autoindex off後訪問目錄。

第三個場景 使用者訪問只能被內網訪問的檔案

以上三種都是常見的需要返回403  Forbidden的場景

 所以更換IP的目的就是為了防止返回403狀態碼,防止爬蟲被封鎖, 下面記錄一下python  使用代理爬取的過程。

直接上程式碼:

爬蟲使用代理防封IP

程式碼

爬蟲經驗說明:

代理IP可以使用免費的,但是實踐證明免費的代理IP不僅不穩定,而且可用率也不高,安全性也得不到保障,建議可以使用付費的,雖然需要花費一些費用,但是速度,安全性都可以得到一定的保障

網路上的爬蟲和反爬已經鬥爭了多年,大資料時代下,資料採整合為技術主流,但是大量的採集爬取受到了各種限制,其中最為常見的就是IP受限解決代理IP也成為一大關注點。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555707/viewspace-2641692/,如需轉載,請註明出處,否則將追究法律責任。

相關文章