在我們使用爬蟲進行資料爬取的時候，爬著爬著就經常會遇到這種情況出現“HTTP Error

403: Forbidden ”的提示，這是啥意思呢？其實他是一種http狀態碼，表示你在請求一個資原始檔但是nginx不允許你檢視。它不屬於技術上的錯誤，但是需要技術解決問題。

爬蟲使用代理防封IP

需要返回403狀態碼的是哪些場景？

第一個場景特定的使用者訪問被禁止訪問網站所有的內容，例如，某使用者頻繁的訪問A網站，被A網站遮蔽

第二個場景訪問禁止目錄瀏覽的目錄，例：設定autoindex off後訪問目錄。

第三個場景使用者訪問只能被內網訪問的檔案

以上三種都是常見的需要返回403 Forbidden的場景

所以更換IP的目的就是為了防止返回403狀態碼，防止爬蟲被封鎖，下面記錄一下python 使用代理爬取的過程。

直接上程式碼：

爬蟲使用代理防封IP

程式碼

爬蟲經驗說明：

代理IP可以使用免費的，但是實踐證明免費的代理IP不僅不穩定，而且可用率也不高，安全性也得不到保障，建議可以使用付費的，雖然需要花費一些費用，但是速度，安全性都可以得到一定的保障

網路上的爬蟲和反爬已經鬥爭了多年，大資料時代下，資料採整合為技術主流，但是大量的採集爬取受到了各種限制，其中最為常見的就是IP受限解決代理IP也成為一大關注點。

爬蟲使用代理防封IP

相關文章