常見的反爬手段和解決思路

賈富程發表於2018-12-14
反爬策略1:通過UA限制或者其他頭資訊限制
解決方案:構建使用者代理池或其他頭資訊

反爬策略2:通過訪問者IP限制
解決方案:構建IP代理池

反爬策略3:通過驗證碼限制
解決方案:手工打碼、驗證碼介面自動識別或者通過機器學習自動識別

反爬策略4:通過資料的非同步載入限制
解決方案:抓包分析或者使用PhantomJS

反爬策略5:通過Cookie限制
解決方案:進行Cookie處理

反爬策略6:通過JS限制(如請求的資料通過JS隨機生成等)
解決方案:分析JS解密或者使用PhantomJS


當然,在使用爬蟲時,還是要遵循網站的robots約定,不要對網站造成影響。

相關文章