常見的四類HTTP狀態碼介紹

Cloud01發表於2022-06-23

在使用者日常使用爬蟲抓取資料的過程中,經常會接受到各種型別的 HTTP狀態碼,有些狀態碼意味著爬蟲程式正在平穩執行,而有些狀態碼就標註了目前爬蟲工作所遇到的各類問題。對於爬蟲工作者而言,瞭解HTTP狀態碼所代表的意義尤為關鍵。

2XX狀態碼

所有以2開頭的程式碼都表示 使用者 的請求已成功處理 如果 使用者 的爬蟲收到2XX程式碼,則 表明 一切正常 ,爬蟲正在平穩執行

3XX狀態碼

所有以3開頭的問題都表示重定向。300程式碼表示重定向是由於對 使用者 的請求的多個可能響應而發生的。例如,301錯誤表明某個頁面已被移動,這就是連線被重定向的原因。

此類程式碼是伺服器誤解 使用者 請求的結果。通常,大多數3XX錯誤可以通過指定代理的使用者代理來解決。

4XX狀態碼

4XX狀態碼是一組客戶端錯誤 ,往往 是因為伺服器無法理解 使用者 的請求或者 使用者許可權問題所導致的。

401錯誤表明使用者沒有檢視該頁面的許可權;403錯誤表明伺服器由於某種原因不允許使用者檢視該頁面;404錯誤表示未找到使用者請求的頁面;407是隧道連線失敗或使用者沒有提供足夠的授權資料;429錯誤表明爬蟲在短時間內使用一個IP地址傳送了太多請求。

5XX狀態碼

這組錯誤表明伺服器存在一些問題,其中502狀態碼是使用者平時遇到最多的,意味著閘道器錯誤或超時, 其中一臺伺服器從另一臺伺服器接收到無效響應。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70017425/viewspace-2902466/,如需轉載,請註明出處,否則將追究法律責任。

相關文章