反爬策略1:通過UA限制或者其他頭資訊限制
解決方案:構建使用者代理池或其他頭資訊
反爬策略2:通過訪問者IP限制
解決方案:構建IP代理池
反爬策略3:通過驗證碼限制
解決方案:手工打碼、驗證碼介面自動識別或者通過機器學習自動識別
反爬策略4:通過資料的非同步載入限制
解決方案:抓包分析或者使用PhantomJS
反爬策略5:通過Cookie限制
解決方案:進行Cookie處理
反爬策略6:通過JS限制(如請求的資料通過JS隨機生成等)
解決方案:分析JS解密或者使用PhantomJS
當然,在使用爬蟲時,還是要遵循網站的robots約定,不要對網站造成影響。