太陽軟體帶你溫習:反爬手段有幾何?

太陽小諸葛發表於2019-02-12

  因為SEO的流行,網路爬蟲技術已經成了很普及網路技術,除了專門做搜尋的Google,Yahoo,微軟,百度以外,幾乎每個大型門戶網路站點都有自己的SEO,大大小小叫得出來名字得就幾十種,還有各種不知名的幾千幾萬種,對於一個內容型驅動的網路站點來說,受到網路爬蟲技術的光顧是不可避免的。

  一些智慧的SEO爬蟲技術的抓取頻率比較合理,對網路站點資源消耗比較少,但是很多糟糕的網路爬蟲技術,對網路站點頁面抓取能力很差,經常併發幾十上百個請求迴圈重複抓取,這種爬蟲技術對中小型網路站點往往是毀滅性打擊,特別是一些缺乏爬蟲技術編寫經驗的程式設計師寫出來的爬蟲技術破壞力極強,造成的網路站點訪問壓力會非常大,會導致網路站點訪問速度緩慢,甚至無法訪問。

  一般網路站點從三個方面反爬蟲技術:一般使用者請求的Headers,一般使用者行為,網路站點目錄和資料載入方式。前兩種比較容易遇到,大多數網路站點都從這些角度來反爬蟲技術。第三種一些應用ajax的網路站點會採用,這樣增大了抓取的難度。

   1 透過Headers反爬蟲技術

  從一般使用者請求的Headers反爬蟲技術是最常見的反爬蟲技術策略。很多網路站點都會對Headers的User-Agent進行檢測,還有一部分網路站點會對Referer進行檢測(一些資源網路站點的防盜鏈就是檢測Referer)。如果遇到了這類反爬蟲技術機制,可以直接在爬蟲技術中新增Headers,將瀏覽器的User-Agent複製到爬蟲技術的Headers中;或者將Referer值修改為目標網路站點域名。對於檢測Headers的反爬蟲技術,在爬蟲技術中修改或者新增Headers就能很好的繞過。

  [評論:往往容易被忽略,透過對請求的抓包分析,確定referer,在程式中模擬訪問請求頭中新增]

   2 基於一般使用者行為反爬蟲技術

  還有一部分網路站點是透過檢測一般使用者行為,例如同一IP短時間內多次訪問同一頁面,或者同一賬戶短時間內多次進行相同操作。

  [評論:這種防爬,需要有足夠多的ip來應對]

  大多數網路站點都是前一種情況,對於這種情況,使用IP代理就可以解決。可以專門寫一個爬蟲技術,抓取網上公開的代理ip,檢測後全部儲存起來。這樣的代理ip爬蟲技術經常會用到,最好自己準備一個。有了大量代理ip後可以每請求幾次更換一個ip,這在requests或者urllib2中很容易做到,這樣就能很容易的繞過第一種反爬蟲技術。

  [評論:動態撥號也是一種解決方案]

  對於第二種情況,可以在每次請求後隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網路站點,可以透過請求幾次,退出登入,重新登入,繼續請求來繞過同一賬號短時間內不能多次進行相同請求的限制。

  [評論:對於賬戶做防爬限制,一般難以應對,隨機幾秒請求也往往可能被封,如果能有多個賬戶,切換使用,效果更佳]

   3 動態頁面的反爬蟲技術

  上述的幾種情況大多都是出現在靜態頁面,還有一部分網路站點,我們需要抓取的資料是透過ajax請求得到,或者透過Java生成的。首先用Firebug或者HttpFox對網路請求進行分析。如果能夠找到ajax請求,也能分析出具體的引數和響應的具體含義,我們就能採用上面的方法,直接利用requests或者urllib2模擬ajax請求,對響應的json進行分析得到需要的資料。

  [評論:感覺google的、IE的網路請求分析使用也挺好]

  能夠直接模擬ajax請求獲取資料固然是極好的,但是有些網路站點把ajax請求的所有引數全部加密了。我們根本沒辦法構造自己所需要的資料的請求。我這幾天爬的那個網路站點就是這樣,除了加密ajax引數,它還把一些基本的功能都封裝了,全部都是在呼叫自己的介面,而介面引數都是加密的。遇到這樣的網路站點,我們就不能用上面的方法了,我用的是selenium + phantomJS框架,呼叫瀏覽器核心,並利用phantomJS執行js來模擬人為操作以及觸發頁面中的js指令碼。從填寫表單到點選按鈕再到滾動頁面,全部都可以模擬,不考慮具體的請求和響應過程,只是完完整整的把人瀏覽頁面獲取資料的過程模擬一遍。

  [評論:支援phantomJS]

  用這套框架幾乎能繞過大多數的反爬蟲技術,因為它不是在偽裝成瀏覽器來獲取資料(上述的透過新增 Headers一定程度上就是為了偽裝成瀏覽器),它本身就是瀏覽器,phantomJS就是一個沒有介面的瀏覽器,只是操控這個瀏覽器的不是人。利用 selenium+phantomJS能幹很多事情,例如識別點觸式(12306)或者滑動式的驗證碼,對頁面表單進行暴力破解等等。它在自動化滲透中還 會大展身手,以後還會提到這個。

  反爬和爬蟲相輔相生,爬蟲如果想要正常的執行還需要代理ip的輔助,同時讓爬蟲的行為充分模擬正常使用者的行為,這樣才是利人利己的好爬蟲。——太陽換ip軟體


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561288/viewspace-2624939/,如需轉載,請註明出處,否則將追究法律責任。

相關文章