作者:
Manning
·
2015/04/03 9:21
0x00 前言
專案開源地址: https://github.com/manning23/MSpider
上篇文章《爬蟲技術淺析》介紹了爬蟲的基本技術,分享了一個動態爬蟲demo。這篇文章主要講解爬蟲技術的實戰效果。 本次介紹的結果如下:
1.爬蟲的URL聚焦與過濾
2.URL相似度演算法拋磚引玉
3.爬行策略詳解
4.Mspider工具使用說明及效果展示
5.Mspider的頭腦風暴
0x01 爬蟲的URL聚焦與過濾
為什麼爬蟲需要URL聚焦與過濾?因為我們需要控制預期結果!
舉個例子,如果爬行的目的是爬取烏雲已知漏洞列表,那麼一般型別的爬蟲是無法滿足的,一般爬蟲會進行如下形式的爬取。爬取的URL是雜亂的。
聚焦爬蟲爬取的URL是符合預期的。如下圖展示。
可以看出來,聚焦爬蟲和非聚焦爬蟲都是從www.wooyun.org開始爬取,聚焦爬蟲可以按照一定策略儘量控制URL爬取策略,而非聚焦爬蟲卻完成不了這種特定需求。
在爬蟲過濾模組中,我們需要理解什麼是過濾,什麼是聚焦。簡單的說,如果過濾關鍵字在url中,則返回False,否則返回True。如果聚焦關鍵字在url中,則返回True,否則返回False。具體可以檢視Mspider中的urlfilter.py檔案。
0x02 URL相似度演算法拋磚引玉
URL相似度演算法在爬蟲裡不言而喻,這個演算法直接決定著爬蟲的爬行效率,我將講解一下我的演算法,算是拋磚引玉。
這個演算法主要是依靠對URL的拆解與對拆解物件的HASH,這個演算法適用類似的需求常見。這個演算法是將一個URL拆解為三個維度,第一個維度是netloc,第二個維度是path的各項長度,第三個維度是query物件的引數排序後列表。透過一個資料結構對以上三個維度組合,構建一個可hash的物件。
利用集合資料結構進行去重,這個能大幅減小普通URL相似度演算法對於hash後結果衝突的問題。實際效果如下圖。
當爬取了875個連結時,實際相似頁面已達到了269849個,因此對於爬蟲效率來講,是個很好的提升。
這個演算法只是實際經驗值,實踐後得到良好的實際效果,希望大家也能思考更為優秀的相似度演算法。
0x03 爬行策略詳解
一般爬行策略為廣度優先、深度優先。深度優先搜尋透過棧來實現,而廣度優先搜尋透過佇列來實現。
下面圖中的數字顯示了深度優先搜尋頂點被訪問的順序。
下面圖中的數字顯示了廣度優先搜尋頂點被訪問的順序。
Mspider中實現爬行策略,這三種搜尋方式都是透過對URL佇列的排序方式進行調整,透過佇列中URL結點的深度引數進行調整,來達到需求目的,爬行策略根據不同需求設定,能更快的發現可疑URL連結。
上圖當爬行了810個連結時,實際爬行的深度已達到了15層。在實際測試過程中,深度優先爬行能更好的發現可疑連結。
0x04 Mspider工具使用說明及效果展示
Mspider是本人開發的一個以CLI方式執行的爬蟲工具。此爬蟲實現瞭如下功能。希望大家多多star和fork。也歡迎大家隨時給我郵箱傳送郵件提bug。
CLI下展示如下:
此爬蟲還可以透過檔案的config.py進行更詳細的配置,比如爬行間隔,忽略標籤列表,動靜分配比例,user-agent字典等。
提供幾個測試場景:
爬行烏雲白帽子列表
命令:
#!bash
python run.py -u "http://www.wooyun.org" -k "wooyun.org" --focus "whitehats" --similarity 1 --storage 3
效果:
深度優先爬行edu站點,進行url相似度過濾,爬行個數為500個
命令:
#!bash
python -u run.py "http://www.njtu.edu.cn/" -k "edu.cn" --policy 1 --storage 0 --count 500
效果:
爬行聯想域名內連線,域名過濾bbs關鍵字,動態爬行網頁,隨機優先策略
命令:
#!bash
python run.py -u "lenovo" -k "lenovo" --ignore "bbs" --model 1 --policy 2
效果:
0x05 Mspider的頭腦風暴
透過改寫Mspider的一些功能,比如頁面分析模組,URL過濾模組,資料儲存模組,可以獲得更深入更有意思的資訊。
舉個例子,想要獲取烏雲中sql注入型別漏洞的SQL隱碼攻擊payload。在聚焦爬蟲中,透過對改寫資料儲存模組,讓資料庫記錄獲取的dom樹,並儲存,接著對dom樹進行資料探勘,便可簡單實現。
0x06 參考文章
基於URL規則的聚焦爬蟲及其應用
圖的深度優先和廣度優先搜尋
本文章來源於烏雲知識庫,此映象為了方便大家學習研究,文章版權歸烏雲知識庫!