太陽軟體帶你溫習:反爬手段有幾何?
因為SEO的流行,網路爬蟲技術已經成了很普及網路技術,除了專門做搜尋的Google,Yahoo,微軟,百度以外,幾乎每個大型門戶網路站點都有自己的SEO,大大小小叫得出來名字得就幾十種,還有各種不知名的幾千幾萬種,對於一個內容型驅動的網路站點來說,受到網路爬蟲技術的光顧是不可避免的。
一些智慧的SEO爬蟲技術的抓取頻率比較合理,對網路站點資源消耗比較少,但是很多糟糕的網路爬蟲技術,對網路站點頁面抓取能力很差,經常併發幾十上百個請求迴圈重複抓取,這種爬蟲技術對中小型網路站點往往是毀滅性打擊,特別是一些缺乏爬蟲技術編寫經驗的程式設計師寫出來的爬蟲技術破壞力極強,造成的網路站點訪問壓力會非常大,會導致網路站點訪問速度緩慢,甚至無法訪問。
一般網路站點從三個方面反爬蟲技術:一般使用者請求的Headers,一般使用者行為,網路站點目錄和資料載入方式。前兩種比較容易遇到,大多數網路站點都從這些角度來反爬蟲技術。第三種一些應用ajax的網路站點會採用,這樣增大了抓取的難度。
1 透過Headers反爬蟲技術
從一般使用者請求的Headers反爬蟲技術是最常見的反爬蟲技術策略。很多網路站點都會對Headers的User-Agent進行檢測,還有一部分網路站點會對Referer進行檢測(一些資源網路站點的防盜鏈就是檢測Referer)。如果遇到了這類反爬蟲技術機制,可以直接在爬蟲技術中新增Headers,將瀏覽器的User-Agent複製到爬蟲技術的Headers中;或者將Referer值修改為目標網路站點域名。對於檢測Headers的反爬蟲技術,在爬蟲技術中修改或者新增Headers就能很好的繞過。
[評論:往往容易被忽略,透過對請求的抓包分析,確定referer,在程式中模擬訪問請求頭中新增]
2 基於一般使用者行為反爬蟲技術
還有一部分網路站點是透過檢測一般使用者行為,例如同一IP短時間內多次訪問同一頁面,或者同一賬戶短時間內多次進行相同操作。
[評論:這種防爬,需要有足夠多的ip來應對]
大多數網路站點都是前一種情況,對於這種情況,使用IP代理就可以解決。可以專門寫一個爬蟲技術,抓取網上公開的代理ip,檢測後全部儲存起來。這樣的代理ip爬蟲技術經常會用到,最好自己準備一個。有了大量代理ip後可以每請求幾次更換一個ip,這在requests或者urllib2中很容易做到,這樣就能很容易的繞過第一種反爬蟲技術。
[評論:動態撥號也是一種解決方案]
對於第二種情況,可以在每次請求後隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網路站點,可以透過請求幾次,退出登入,重新登入,繼續請求來繞過同一賬號短時間內不能多次進行相同請求的限制。
[評論:對於賬戶做防爬限制,一般難以應對,隨機幾秒請求也往往可能被封,如果能有多個賬戶,切換使用,效果更佳]
3 動態頁面的反爬蟲技術
上述的幾種情況大多都是出現在靜態頁面,還有一部分網路站點,我們需要抓取的資料是透過ajax請求得到,或者透過Java生成的。首先用Firebug或者HttpFox對網路請求進行分析。如果能夠找到ajax請求,也能分析出具體的引數和響應的具體含義,我們就能採用上面的方法,直接利用requests或者urllib2模擬ajax請求,對響應的json進行分析得到需要的資料。
[評論:感覺google的、IE的網路請求分析使用也挺好]
能夠直接模擬ajax請求獲取資料固然是極好的,但是有些網路站點把ajax請求的所有引數全部加密了。我們根本沒辦法構造自己所需要的資料的請求。我這幾天爬的那個網路站點就是這樣,除了加密ajax引數,它還把一些基本的功能都封裝了,全部都是在呼叫自己的介面,而介面引數都是加密的。遇到這樣的網路站點,我們就不能用上面的方法了,我用的是selenium + phantomJS框架,呼叫瀏覽器核心,並利用phantomJS執行js來模擬人為操作以及觸發頁面中的js指令碼。從填寫表單到點選按鈕再到滾動頁面,全部都可以模擬,不考慮具體的請求和響應過程,只是完完整整的把人瀏覽頁面獲取資料的過程模擬一遍。
[評論:支援phantomJS]
用這套框架幾乎能繞過大多數的反爬蟲技術,因為它不是在偽裝成瀏覽器來獲取資料(上述的透過新增 Headers一定程度上就是為了偽裝成瀏覽器),它本身就是瀏覽器,phantomJS就是一個沒有介面的瀏覽器,只是操控這個瀏覽器的不是人。利用 selenium+phantomJS能幹很多事情,例如識別點觸式(12306)或者滑動式的驗證碼,對頁面表單進行暴力破解等等。它在自動化滲透中還 會大展身手,以後還會提到這個。
反爬和爬蟲相輔相生,爬蟲如果想要正常的執行還需要代理ip的輔助,同時讓爬蟲的行為充分模擬正常使用者的行為,這樣才是利人利己的好爬蟲。——太陽換ip軟體
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561288/viewspace-2624939/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【太陽軟體】動態換ip軟體:反爬蟲對抗對資料分析的影響爬蟲
- 太陽軟體站長:學爬蟲怎麼能不會這8個技巧?爬蟲
- 這種反爬蟲手段有點意思,看我破了它!爬蟲
- 常見的反爬手段和解決思路
- 帶你溫習一下webpack配置Web
- 【太陽軟體】動態ip代理為你詳解這些長得很像的代理模式模式
- 百分之八十的網站都是有反爬蟲的!只需五部就能帶你破解反爬!網站爬蟲
- 《流浪地球2》太陽風暴要來了?亞馬遜雲科技帶你看神秘宇宙!亞馬遜
- 什麼是勒索軟體?傳播手段有哪些?
- web伺服器軟體有哪些?帶你快速瞭解Web伺服器
- 動態換ip軟體帶你看:爬蟲常見的抓取策略爬蟲
- 防止爬蟲被反爬的幾個主要策略爬蟲
- 有這幾款軟體,快速提高辦公效率,讓你事半功倍
- canvas繪製太陽系Canvas
- 一個太陽系HTMLHTML
- 大資料帶你看撩妹神劇《太陽的後裔》背後的那些事兒大資料
- HTTP對爬蟲有何作用?HTTP爬蟲
- 學習Python常用的幾大軟體,你掌握了嗎?Python
- 好用的爬蟲軟體?動態ip軟體告訴你爬蟲
- 太陽(藍橋杯14屆)
- 軟體安全測試有哪些測試手段?軟體測試報告收費貴嗎?測試報告
- 庫克重陽節爬長城 今年二度來華意欲何為?
- 太陽軟體站長丨Python比動態ip代理更適合人工智慧Python人工智慧
- 軟體行業大牛告訴你何謂成功?行業
- ThreeJS學習6_幾何體相關(BufferGeometry)JS
- 流氓與反流氓:流氓軟體有多忙?(轉)
- Python爬蟲與Java爬蟲有何區別?Python爬蟲Java
- 論 DevOps 實踐有幾何?dev
- 【C#——溫習中體會你的三大結構】C#
- 何爹瀏陽蒸菜—解決你開店的煩惱
- 網路爬蟲技術手段有哪些?怎麼檢測是否為爬蟲IP?爬蟲
- 反爬蟲之字型反爬蟲爬蟲
- three.js 幾何體(二)JS
- three.js 幾何體(三)JS
- 5種常見的黑客攻擊手段,你知道幾個?黑客
- win10自帶溫度監控怎麼開啟 不用軟體怎麼檢視電腦硬體溫度Win10
- 反-反爬蟲:用幾行程式碼寫出和人類一樣的動態爬蟲爬蟲行程
- 反 反爬蟲:用幾行程式碼寫出和人類一樣的動態爬蟲爬蟲行程