開源爬蟲軟體彙總

PHP交流群:294088839,

Python交流群:652376983

PHP簡單的HTML DOM解析器：http://simplehtmldom.sourceforge.net/manual.htm

原網址：http://blog.chinaunix.net/uid-22414998-id-3774291.html

開發語言	軟體名稱	軟體介紹	許可證
Java	Arachnid	微型爬蟲框架，含有一個小型HTML解析器	GPL
	crawlzilla	安裝簡易，擁有中文分詞功能	Apache2
	Ex-Crawler	由守護程式執行，使用資料庫儲存網頁資訊	GPLv3
	Heritrix	嚴格遵照robots檔案的排除指示和META robots標籤	LGPL
	heyDr	輕量級開源多執行緒垂直檢索爬蟲框架	GPLv3
	ItSucks	提供swing GUI操作介面	不詳
	jcrawl	輕量、效能優良，可以從網頁抓取各種型別的檔案	Apache
	JSpider	功能強大，容易擴充套件	LGPL
	Leopdo	包括全文和分類垂直搜尋，以及分詞系統	Apache
	MetaSeeker	網頁抓取、資訊提取、資料抽取工具包，操作簡單	不詳
	Playfish	通過XML配置檔案實現高度可定製性與可擴充套件性	MIT
	Spiderman	靈活、擴充套件性強，微核心+外掛式架構，通過簡單的配置就可以完成資料抓取，無需編寫一句程式碼	Apache
	webmagic	功能覆蓋整個爬蟲生命週期，使用Xpath和正規表示式進行連結和內容的提取	Apache
	Web-Harvest	運用XSLT、XQuery、正規表示式等技術來實現對Text或XML的操作，具有視覺化的介面	BSD
	WebSPHINX	由兩部分組成：爬蟲工作平臺和WebSPHINX類包	Apache
	YaCy	基於P2P的分散式Web搜尋引擎	GPL
Python	QuickRecon	具有查詢子域名名稱、收集電子郵件地址並尋找人際關係等功能	GPLv3
	PyRailgun	簡潔、輕量、高效的網頁抓取框架	MIT
	Scrapy	基於Twisted的非同步處理框架，文件齊全	BSD
C++	hispider	支援多機分散式下載, 支援網站定向下載	BSD
	larbin	高效能的爬蟲軟體，只負責抓取不負責解析	GPL
	Methabot	經過速度優化、可抓取WEB、FTP及本地檔案系統	不詳
	Methanol	模組化、可定製的網頁爬蟲，速度快	不詳
C#	NWebCrawler	統計資訊、執行過程視覺化	GPLv2
	Sinawler	國內第一個針對微博資料的爬蟲程式，功能強大	GPLv3
	spidernet	以遞迴樹為模型的多執行緒web爬蟲程式，支援以GBK (gb2312)和utf8編碼的資源，使用sqlite儲存資料	MIT
	Web Crawler	多執行緒，支援抓取PDF/DOC/EXCEL等文件來源	LGPL
	網路礦工	功能豐富，毫不遜色於商業軟體	BSD
PHP	OpenWebSpider	開源多執行緒網路爬蟲，有許多有趣的功能	不詳
	PhpDig	適用於專業化強、層次更深的個性化搜尋引擎	GPL
	Snoopy	具有采集網頁內容、提交表單功能	GPL
	ThinkUp	採集推特、臉譜等社交網路資料的社會媒體視角引擎，可進行互動分析並將結果以視覺化形式展現	GPL
	微購	可採集淘寶、京東、噹噹等300多家電子商務資料	GPL
ErLang	Ebot	可伸縮的分散式網頁爬蟲	GPLv3
Ruby	Spidr	可將一個或多個網站、某個連結完全抓取到本地	MIT

開源爬蟲軟體彙總

相關文章