常見的反爬蟲和應對方法
0x01 常見的反爬蟲
這幾天在爬一個網站,網站做了很多反爬蟲工作,爬起來有些艱難,花了一些時間才繞過反爬蟲。在這裡把我寫爬蟲以來遇到的各種反爬蟲策略和應對的方法總結一下。
從功能上來講,爬蟲一般分為資料採集,處理,儲存三個部分。這裡我們只討論資料採集部分。
一般網站從三個方面反爬蟲:使用者請求的Headers,使用者行為,網站目錄和資料載入方式。前兩種比較容易遇到,大多數網站都從這些角度來反爬蟲。第三種一些應用ajax的網站會採用,這樣增大了爬取的難度。
0x02 通過Headers反爬蟲
從使用者請求的Headers反爬蟲是最常見的反爬蟲策略。很多網站都會對Headers的User-Agent進行檢測,還有一部分網站會對Referer進行檢測(一些資源網站的防盜鏈就是檢測Referer)。如果遇到了這類反爬蟲機制,可以直接在爬蟲中新增Headers,將瀏覽器的User-Agent複製到爬蟲的Headers中;或者將Referer值修改為目標網站域名。對於檢測Headers的反爬蟲,在爬蟲中修改或者新增Headers就能很好的繞過。
0x03 基於使用者行為反爬蟲
還有一部分網站是通過檢測使用者行為,例如同一IP短時間內多次訪問同一頁面,或者同一賬戶短時間內多次進行相同操作。
大多數網站都是前一種情況,對於這種情況,使用IP代理就可以解決。可以專門寫一個爬蟲,爬取網上公開的代理ip,檢測後全部儲存起來。這樣的代理ip爬蟲經常會用到,最好自己準備一個。有了大量代理ip後可以每請求幾次更換一個ip,這在requests或者urllib2中很容易做到,這樣就能很容易的繞過第一種反爬蟲。
對於第二種情況,可以在每次請求後隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網站,可以通過請求幾次,退出登入,重新登入,繼續請求來繞過同一賬號短時間內不能多次進行相同請求的限制。
0x04 動態頁面的反爬蟲
上述的幾種情況大多都是出現在靜態頁面,還有一部分網站,我們需要爬取的資料是通過ajax請求得到,或者通過JavaScript生成的。首先用Firebug或者HttpFox對網路請求進行分析。如果能夠找到ajax請求,也能分析出具體的引數和響應的具體含義,我們就能採用上面的方法,直接利用requests或者urllib2模擬ajax請求,對響應的json進行分析得到需要的資料。
能夠直接模擬ajax請求獲取資料固然是極好的,但是有些網站把ajax請求的所有引數全部加密了。我們根本沒辦法構造自己所需要的資料的請求。我這幾天爬的那個網站就是這樣,除了加密ajax引數,它還把一些基本的功能都封裝了,全部都是在呼叫自己的介面,而介面引數都是加密的。遇到這樣的網站,我們就不能用上面的方法了,我用的是selenium+phantomJS框架,呼叫瀏覽器核心,並利用phantomJS執行js來模擬人為操作以及觸發頁面中的js指令碼。從填寫表單到點選按鈕再到滾動頁面,全部都可以模擬,不考慮具體的請求和響應過程,只是完完整整的把人瀏覽頁面獲取資料的過程模擬一遍。
用這套框架幾乎能繞過大多數的反爬蟲,因為它不是在偽裝成瀏覽器來獲取資料(上述的通過新增 Headers一定程度上就是為了偽裝成瀏覽器),它本身就是瀏覽器,phantomJS就是一個沒有介面的瀏覽器,只是操控這個瀏覽器的不是人。利用 selenium+phantomJS能幹很多事情,例如識別點觸式(12306)或者滑動式的驗證碼,對頁面表單進行暴力破解等等。它在自動化滲透中還 會大展身手,以後還會提到這個。
相關文章
- 常見的反爬蟲措施與應對方法介紹爬蟲
- 常見的三種反爬蟲措施爬蟲
- 反爬蟲的四種常見方式-JS逆向方法論爬蟲JS
- 反爬蟲的應對措施爬蟲
- 反爬蟲應對策略爬蟲
- 「資料分析」2種常見的反爬蟲策略,資訊驗證和動態反爬蟲爬蟲
- 常見網站反爬蟲的解決措施網站爬蟲
- 如何應對反爬蟲措施?爬蟲
- 網站常見反爬解決方法網站
- 你有自己寫過爬蟲的程式嗎?說說你對爬蟲和反爬蟲的理解?爬蟲
- 反爬蟲之字型反爬蟲爬蟲
- python解決反爬蟲方法的優缺點對比Python爬蟲
- 常見的反爬手段和解決思路
- 常見的6種應用層反反爬蟲的技術爬蟲
- 爬蟲中代理IP的常見方案爬蟲
- Python爬蟲程式設計常見問題解決方法Python爬蟲程式設計
- 網路爬蟲之關於爬蟲 http 代理的常見使用方式爬蟲HTTP
- 常見的爬蟲型別有什麼?爬蟲型別
- 導致Python爬蟲封禁的常見原因Python爬蟲
- python爬蟲常見的那點問題!Python爬蟲
- 對於反爬蟲偽裝瀏覽器進行爬蟲爬蟲瀏覽器
- 什麼是Python網路爬蟲?常見的網路爬蟲有哪些?Python爬蟲
- 日常爬蟲工作中一些常見的和不常見的偽裝技巧爬蟲
- 反-反爬蟲:用幾行程式碼寫出和人類一樣的動態爬蟲爬蟲行程
- 爬蟲常見問題及解決方式爬蟲
- 網路爬蟲編寫常見問題爬蟲
- 【彙總】Python爬蟲常見面試題!Python爬蟲面試題
- 爬蟲與反爬蟲技術簡介爬蟲
- 動態ip代理:反網路爬蟲之設定User-Agent的常規方法爬蟲
- Python爬蟲教程-10-UserAgent和常見瀏覽器UA值Python爬蟲瀏覽器
- 爬蟲使用海外HTTP代理時常見的錯誤程式碼及解決方法爬蟲HTTP
- 寫爬蟲時常見的五種字串編碼特徵爬蟲字串編碼特徵
- C#爬蟲與反爬蟲--字型加密篇C#爬蟲加密
- Python爬蟲的兩套解析方法和四種爬蟲實現Python爬蟲
- 爬蟲——網頁爬取方法和網頁解析方法爬蟲網頁
- 爬蟲常見錯誤程式碼及解決措施爬蟲
- 網路爬蟲常見問題(個人總結)爬蟲
- 防止爬蟲被反爬的幾個主要策略爬蟲
- 我去!爬蟲遇到字型反爬,哭了爬蟲