我們在使用 Python爬蟲收集資訊時，經常會被封禁，有時會提示訪問過於頻繁，有時會返回一些錯誤程式碼等。導致這種情況出現的原因就是爬蟲IP被網站檢測出並進行了限制，那麼網站如何知道爬蟲在收集資訊呢？

1.IP檢測

網站將檢測使用者IP訪問的速度，如果訪問速度達到設定的閾值，則開啟限制，IP被封，爬蟲停止腳步，無法再次獲取資料。對於ip檢測，可以使用代理ip，切換大量IP地址，可以突破限制。

2.驗證碼檢測

設定登入驗證碼限制，對訪問過快的設定驗證碼限制。如果您沒有輸入正確的驗證碼，您將無法再次獲取資訊。由於爬蟲可以使用其他工具識別驗證碼，網站不斷加深驗證碼的難度，從普通的純資料研究驗證碼到混合驗證碼，或者滑動驗證碼、圖片驗證碼等。

3.請求報頭檢測

爬蟲不是使用者，訪問時沒有其他特徵。網站可以通過檢測爬蟲的請求頭來檢測對方是使用者還是爬蟲。

4.cookie檢測

瀏覽器會儲存cookies，所以網站會通過檢測cookies來識別你是否是真實使用者。如果爬蟲偽裝得不好，就會觸發限制訪問。

網站如何判斷爬蟲在採集資料？

相關文章