爬蟲技術實戰

wyzsk發表於2020-08-19
作者: Manning · 2015/04/03 9:21

0x00 前言


專案開源地址: https://github.com/manning23/MSpider

上篇文章《爬蟲技術淺析》介紹了爬蟲的基本技術,分享了一個動態爬蟲demo。這篇文章主要講解爬蟲技術的實戰效果。 本次介紹的結果如下:

  • 1.爬蟲的URL聚焦與過濾

  • 2.URL相似度演算法拋磚引玉

  • 3.爬行策略詳解

  • 4.Mspider工具使用說明及效果展示

  • 5.Mspider的頭腦風暴

0x01 爬蟲的URL聚焦與過濾


為什麼爬蟲需要URL聚焦與過濾?因為我們需要控制預期結果!

舉個例子,如果爬行的目的是爬取烏雲已知漏洞列表,那麼一般型別的爬蟲是無法滿足的,一般爬蟲會進行如下形式的爬取。爬取的URL是雜亂的。

enter image description here

聚焦爬蟲爬取的URL是符合預期的。如下圖展示。

enter image description here

可以看出來,聚焦爬蟲和非聚焦爬蟲都是從www.wooyun.org開始爬取,聚焦爬蟲可以按照一定策略儘量控制URL爬取策略,而非聚焦爬蟲卻完成不了這種特定需求。

在爬蟲過濾模組中,我們需要理解什麼是過濾,什麼是聚焦。簡單的說,如果過濾關鍵字在url中,則返回False,否則返回True。如果聚焦關鍵字在url中,則返回True,否則返回False。具體可以檢視Mspider中的urlfilter.py檔案。

0x02 URL相似度演算法拋磚引玉


URL相似度演算法在爬蟲裡不言而喻,這個演算法直接決定著爬蟲的爬行效率,我將講解一下我的演算法,算是拋磚引玉。

enter image description here

這個演算法主要是依靠對URL的拆解與對拆解物件的HASH,這個演算法適用類似的需求常見。這個演算法是將一個URL拆解為三個維度,第一個維度是netloc,第二個維度是path的各項長度,第三個維度是query物件的引數排序後列表。透過一個資料結構對以上三個維度組合,構建一個可hash的物件。

enter image description here

利用集合資料結構進行去重,這個能大幅減小普通URL相似度演算法對於hash後結果衝突的問題。實際效果如下圖。

enter image description here

當爬取了875個連結時,實際相似頁面已達到了269849個,因此對於爬蟲效率來講,是個很好的提升。

這個演算法只是實際經驗值,實踐後得到良好的實際效果,希望大家也能思考更為優秀的相似度演算法。

0x03 爬行策略詳解


一般爬行策略為廣度優先、深度優先。深度優先搜尋透過棧來實現,而廣度優先搜尋透過佇列來實現。

下面圖中的數字顯示了深度優先搜尋頂點被訪問的順序。  

enter image description here

下面圖中的數字顯示了廣度優先搜尋頂點被訪問的順序。

enter image description here

Mspider中實現爬行策略,這三種搜尋方式都是透過對URL佇列的排序方式進行調整,透過佇列中URL結點的深度引數進行調整,來達到需求目的,爬行策略根據不同需求設定,能更快的發現可疑URL連結。

enter image description here

上圖當爬行了810個連結時,實際爬行的深度已達到了15層。在實際測試過程中,深度優先爬行能更好的發現可疑連結。

0x04 Mspider工具使用說明及效果展示


Mspider是本人開發的一個以CLI方式執行的爬蟲工具。此爬蟲實現瞭如下功能。希望大家多多star和fork。也歡迎大家隨時給我郵箱傳送郵件提bug。

enter image description here

CLI下展示如下:

enter image description here

此爬蟲還可以透過檔案的config.py進行更詳細的配置,比如爬行間隔,忽略標籤列表,動靜分配比例,user-agent字典等。

enter image description here

提供幾個測試場景:

爬行烏雲白帽子列表

命令:

#!bash
python run.py -u "http://www.wooyun.org" -k "wooyun.org" --focus "whitehats" --similarity 1 --storage 3

效果:

enter image description here

深度優先爬行edu站點,進行url相似度過濾,爬行個數為500個

命令:

#!bash
python -u run.py "http://www.njtu.edu.cn/" -k "edu.cn" --policy 1 --storage 0 --count 500

效果:

enter image description here

爬行聯想域名內連線,域名過濾bbs關鍵字,動態爬行網頁,隨機優先策略

命令:

#!bash
python run.py -u "lenovo" -k "lenovo" --ignore "bbs" --model 1 --policy 2

效果:

enter image description here

0x05 Mspider的頭腦風暴


透過改寫Mspider的一些功能,比如頁面分析模組,URL過濾模組,資料儲存模組,可以獲得更深入更有意思的資訊。

舉個例子,想要獲取烏雲中sql注入型別漏洞的SQL隱碼攻擊payload。在聚焦爬蟲中,透過對改寫資料儲存模組,讓資料庫記錄獲取的dom樹,並儲存,接著對dom樹進行資料探勘,便可簡單實現。

0x06 參考文章


基於URL規則的聚焦爬蟲及其應用

圖的深度優先和廣度優先搜尋

本文章來源於烏雲知識庫,此映象為了方便大家學習研究,文章版權歸烏雲知識庫!

相關文章