Python爬蟲是一種按照一定規則，自動抓取網路資料的程式或指令碼，它能夠快速實現抓取、整理任務，大大節省時間成本。因為Python爬蟲的頻繁抓取，會對伺服器造成巨大負載，伺服器為了保護自己，自然要作出一定的限制，也就是我們常說的反爬蟲策略，來阻止Python爬蟲的繼續採集。

1.對請求Headers進行限制

這應該是最常見的，最基本的反爬蟲手段，主要是初步判斷你是不是真實的瀏覽器在操作。這個一般很好處理，把瀏覽器中的Headers資訊複製上去就可以解決。

特別注意的是，很多網站只需要userAgent資訊就可以通過，但是有的網站還需要驗證一些其他的資訊，例如知乎，有一些頁面還需要authorization的資訊。所以需要加哪些Headers，還需要嘗試，可能還需要Referer、Accept-encoding等資訊。

2.對請求IP進行限制

有時我們的爬蟲在爬著，突然冒出頁面無法開啟、403禁止訪問錯誤，很有可能是IP地址被網站封禁，不再接受你的任何請求。

3.對請求cookie進行限制

當爬蟲遇到登入不了、沒法保持登入狀態情況，請檢查你的cookie。很有可能是你爬蟲的cookie被發現了。

常見的三種反爬蟲措施

相關文章