爬蟲錯誤程式碼如何解決?

ipidea發表於2022-06-16

一些爬蟲工作者在爬蟲的過程中,雖然使用了代理IP 但是依舊出現了請求失敗的情況。這是因為如果爬蟲使用不當或者用了質量較低的代理 IP都可能會導致上述情況的發生。以下是一些使用代理 IP時常見的報錯及原因:


 

1 、錯誤程式碼 401

 

如果錯誤程式碼為401 ,那麼網頁會先請求身份驗證,這種錯誤一般是在需要登入賬號密碼來訪問網頁時會發生的。如果使用者在使用代理 IP 瀏覽器訪問時,會轉跳到一個有賬號密碼登入的視窗。發生這種錯誤是由於在使用代理 IP 前沒有授權白名單 IP ,或者是沒有繫結固定的 IP 授權,因此應該再次去繫結授權白名單 IP ,並且重新進入。

 

2 、錯誤程式碼 403

 

這個錯誤程式碼是爬蟲使用者遇見比較多的程式碼,它意味著伺服器拒絕了使用者的請求。一般是由於爬蟲抓取的頻率太大,在反覆高速訪問頁面時給目標伺服器帶來了過大的壓力,從而導致伺服器判定爬蟲使用者的IP 為非正常訪問,因此禁止了爬蟲使用者的 IP 。這種時候爬蟲使用者可以通過更換新的 IP 地址來解決。

 

IPIDEA 已向眾多網際網路知名企業提供服務,對提高爬蟲的抓取效率提供幫助,支援 API 批量使用,支援多執行緒高併發使用。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69980628/viewspace-2901046/,如需轉載,請註明出處,否則將追究法律責任。

相關文章