VSCrawler爬蟲專案介紹

nudt_qxx發表於2017-06-28

VSCrawlervirjar大神寫的一個java爬蟲專案,VSCrawler接入了dungproxy作為網路層API,本身自帶代理服務。比起其他流行的webmagic,Scrapy等爬蟲框架,VSCrawler在處理諸如如多使用者登陸,IP代理,複雜流程抽取等爬蟲常見的棘手問題上,具有不小的優勢。VSCrawler的一個重要特性就是他把下載和解析放在了同一個元件裡面。
VSCrawler在部分實現上參考了webmagic,同時程式碼為了相容webmagic和方便使用者基於webmagic專案的遷移,VSCrawler提供了一個橋接模組,可以將webMagic的部分功能直接遷移到VSCrawler。
VSCrawler有三個基本元件,分別是 Processor、Pipeline和SessionPool,用來擴充套件解析頁面,儲存抓取結果和定製網路下載工具。

相關文章