北斗劍陣, 爬蟲IP破封不可阻擋
“人在江湖飄,哪能不挨刀。”話糙理不糙,在我們酣暢淋漓地使用爬蟲抓取 資料為我們所用的時候,卻也能難免遇到強敵,IP遭到封鎖,爬蟲被反。那麼萬一不行,IP被封了,有什麼方法來解呢?
當然有,還很多。
方法1.
之前由於公司專案需要,採集過google地圖資料,還有一些大型網站資料。
經驗如下:
IP必須有,可以直接使用成熟的代理IP服務商,類似像太陽HTTP代理這種。
好處:
1.程式邏輯變化小,只需要代理功能。
2.根據對方網站遮蔽規則不同,你只需要新增更多的代理就行了。
3.就算具體IP被遮蔽了,你可以直接把IP代理下線就OK,程式邏輯不需要變化。
方法2.
有小部分網站的防範措施比較弱,可以偽裝下IP,修改X-Forwarded-for,即可繞過。
大部分網站麼,如果要頻繁抓取,一般還是要多IP。我比較喜歡的解決方案是VPS再配多IP,透過預設閘道器切換來實現IP切換。
方法3.
ADSL + 指令碼,監測是否被封,然後不斷切換 ip
設定查詢頻率限制
正統的做法是呼叫該網站提供的服務介面。
方法4.
1 user agent 偽裝和輪換
2 使用代理 ip 和輪換
3 cookies 的處理,有的網站對登陸使用者政策寬鬆些
友情提示:考慮爬蟲給人家網站帶來的負擔,be a responsible crawler :)
方法5.
儘可能的模擬使用者行為:
1、UserAgent經常換一換;
2、訪問時間間隔設長一點,訪問時間設定為隨機數;
3、訪問頁面的順序也可以隨機著來
方法6.
網站封的依據一般是單位時間內特定IP的訪問次數.
我是將採集的任務按 目標站點的IP進行分組 透過控制每個IP 在單位時間內發出任務的個數,來避免被封.當然,這個前題是你採集很多網站.如果只是採集一個網站,那麼只能透過多外部IP的方式來實現了.
方法7.
1. 對爬蟲抓取進行壓力控制;
2. 可以考慮使用代理的方式訪問目標站點。
總結:
-降低抓取頻率,時間設定長一些,訪問時間採用隨機數
-頻繁切換UserAgent(模擬瀏覽器訪問)
-多頁面資料,隨機訪問然後抓取資料
-使用代理IP不間斷更換
太陽HTTP為您提供海量IP,高度隱匿真實IP。爬蟲行進暢通無阻!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561288/viewspace-2219622/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 爬蟲使用代理防封IP爬蟲
- 面對攻擊和爬蟲,封ip策略的不可靠之處爬蟲
- 爬蟲如何防網站封IP?防封有效措施爬蟲網站
- 展望2008:未來開源的趨勢不可阻擋
- 實用爬蟲-01-檢測爬蟲的 IP爬蟲
- 如何建立爬蟲IP池?爬蟲
- 實用爬蟲-02-爬蟲真正使用代理 ip爬蟲
- 如何建立爬蟲代理ip池爬蟲
- 爬蟲如何使用ip代理池爬蟲
- 代理IP如何突破反爬蟲?爬蟲
- 爬蟲代理怎麼選ip爬蟲
- 爬蟲代理IP的使用技巧爬蟲
- 人類阻擋不了谷歌翻譯了!谷歌
- 誰阻擋了Linux的步伐?(轉)Linux
- 爬蟲代理IP有哪些好處?爬蟲
- 教授下海,學生遭殃:不可阻擋的AI工業化已讓學界創新能力下降AI
- 世界已經無法阻擋Python入侵Python
- 爬蟲為什麼要用IP代理更換IP地址爬蟲
- python爬蟲從ip池獲取隨機IPPython爬蟲隨機
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 用Python爬蟲抓取代理IPPython爬蟲
- 爬蟲中代理IP的常見方案爬蟲
- 爬蟲需要代理IP的基本要求爬蟲
- 網路爬蟲怎麼使用ip代理爬蟲
- 代理ip池對爬蟲有多重要爬蟲
- 爬蟲代理IP產品如何選擇爬蟲
- Python爬蟲技巧---設定代理IPPython爬蟲
- 爬蟲代理IP的三大作用爬蟲
- Python爬蟲入門教程 61-100 寫個爬蟲碰到反爬了,動手破壞它!Python爬蟲
- 網路爬蟲技術手段有哪些?怎麼檢測是否為爬蟲IP?爬蟲
- 沒有什麼事情可以阻擋我學習
- python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)Python爬蟲隨機
- Python代理IP爬蟲的簡單使用Python爬蟲
- 爬蟲實現:根據IP地址反查域名爬蟲
- python爬蟲時ip被封如何解決Python爬蟲
- python爬蟲如何減少ip的限制Python爬蟲
- 爬蟲的代理ip怎麼用程式碼爬蟲
- Python 爬蟲IP代理池的實現Python爬蟲