網站如何判斷爬蟲在採集資料?

Cloud01發表於2022-06-06

我們在使用 Python爬蟲收集資訊時,經常會被封禁,有時會提示訪問過於頻繁,有時會返回一些錯誤程式碼等。導致這種情況出現的原因就是爬蟲IP被網站檢測出並進行了限制,那麼網站如何知道爬蟲在收集資訊呢?

1.IP檢測

網站 將檢測使用者IP訪問的速度 如果訪問速度達到設定的閾值,則開啟限制,IP被封,爬蟲停止腳步,無法再次獲取資料。對於ip檢測,可以使用代理ip,切換大量IP地址,可以突破限制。

2.驗證碼檢測

設定登入驗證碼限制,對訪問過快的設定驗證碼限制。如果您沒有輸入正確的驗證碼,您將無法再次獲取資訊。由於爬蟲可以使用其他工具識別驗證碼,網站不斷加深驗證碼的難度,從普通的純資料研究驗證碼到混合驗證碼,或者滑動驗證碼、圖片驗證碼等。

3.請求報頭檢測

爬蟲不是使用者,訪問時沒有其他特徵。網站可以通過檢測爬蟲的請求頭來檢測對方是使用者還是爬蟲。

4.cookie檢測

瀏覽器會儲存cookies,所以網站會通過檢測cookies來識別你是否是真實使用者。如果爬蟲偽裝得不好,就會觸發限制訪問。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70017425/viewspace-2898979/,如需轉載,請註明出處,否則將追究法律責任。

相關文章