常見的三種反爬蟲措施

Cloud01發表於2022-05-31

Python爬蟲是一種按照一定規則,自動抓取網路資料的程式或指令碼,它能夠快速實現抓取、整理任務,大大節省時間成本。因為Python爬蟲的頻繁抓取,會對伺服器造成巨大負載,伺服器為了保護自己,自然要作出一定的限制,也就是我們常說的反爬蟲策略,來阻止Python爬蟲的繼續採集。

1.對請求Headers進行限制

這應該是最常見的,最基本的反爬蟲手段,主要是初步判斷你是不是真實的瀏覽器在操作。這個一般很好處理,把瀏覽器中的Headers資訊複製上去就可以解決。

特別注意的是,很多網站只需要userAgent資訊就可以通過,但是有的網站還需要驗證一些其他的資訊,例如知乎,有一些頁面還需要authorization的資訊。所以需要加哪些Headers,還需要嘗試,可能還需要Referer、Accept-encoding等資訊。

2.對請求IP進行限制

有時我們的爬蟲在爬著,突然冒出頁面無法開啟、403禁止訪問錯誤,很有可能是IP地址被網站封禁,不再接受你的任何請求。

3.對請求cookie進行限制

當爬蟲遇到登入不了、沒法保持登入狀態情況,請檢查你的cookie。很有可能是你爬蟲的cookie被發現了。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70017425/viewspace-2898211/,如需轉載,請註明出處,否則將追究法律責任。

相關文章