開源爬蟲軟體彙總

Json______發表於2017-11-08

 

PHP交流群:294088839,

Python交流群:652376983

 

PHP簡單的HTML DOM解析器:http://simplehtmldom.sourceforge.net/manual.htm

 

原網址:http://blog.chinaunix.net/uid-22414998-id-3774291.html

 

開發語言

軟體名稱

軟體介紹

許可證

Java

Arachnid

微型爬蟲框架,含有一個小型HTML解析器

GPL

crawlzilla

安裝簡易,擁有中文分詞功能

Apache2

Ex-Crawler

由守護程式執行,使用資料庫儲存網頁資訊

GPLv3

Heritrix

嚴格遵照robots檔案的排除指示和META robots標籤

LGPL

heyDr

輕量級開源多執行緒垂直檢索爬蟲框架

GPLv3

ItSucks

提供swing GUI操作介面

不詳

jcrawl

輕量、效能優良,可以從網頁抓取各種型別的檔案

Apache

JSpider

功能強大,容易擴充套件

LGPL

Leopdo

包括全文和分類垂直搜尋,以及分詞系統

Apache

MetaSeeker

網頁抓取、資訊提取、資料抽取工具包,操作簡單

不詳

Playfish

通過XML配置檔案實現高度可定製性與可擴充套件性

MIT

Spiderman

靈活、擴充套件性強,微核心+外掛式架構,通過簡單的配置就可以完成資料抓取,無需編寫一句程式碼

Apache

webmagic

功能覆蓋整個爬蟲生命週期,使用Xpath和正規表示式進行連結和內容的提取

Apache

Web-Harvest

運用XSLT、XQuery、正規表示式等技術來實現對Text或XML的操作,具有視覺化的介面

BSD

WebSPHINX

由兩部分組成:爬蟲工作平臺和WebSPHINX類包

Apache

YaCy

基於P2P的分散式Web搜尋引擎

GPL

Python

QuickRecon

具有查詢子域名名稱、收集電子郵件地址並尋找人際關係等功能

GPLv3

PyRailgun

簡潔、輕量、高效的網頁抓取框架

MIT

Scrapy

基於Twisted的非同步處理框架,文件齊全

BSD

C++

hispider

支援多機分散式下載, 支援網站定向下載

BSD

larbin

高效能的爬蟲軟體,只負責抓取不負責解析

GPL

Methabot

經過速度優化、可抓取WEB、FTP及本地檔案系統

不詳

Methanol

模組化、可定製的網頁爬蟲,速度快

不詳

C#

NWebCrawler

統計資訊、執行過程視覺化

GPLv2

Sinawler

國內第一個針對微博資料的爬蟲程式,功能強大

GPLv3

spidernet

以遞迴樹為模型的多執行緒web爬蟲程式,支援以GBK (gb2312)和utf8編碼的資源,使用sqlite儲存資料

MIT

Web Crawler

多執行緒,支援抓取PDF/DOC/EXCEL等文件來源

LGPL

網路礦工

功能豐富,毫不遜色於商業軟體

BSD

PHP

OpenWebSpider

開源多執行緒網路爬蟲,有許多有趣的功能

不詳

PhpDig

適用於專業化強、層次更深的個性化搜尋引擎

GPL

Snoopy

具有采集網頁內容、提交表單功能

GPL

ThinkUp

採集推特、臉譜等社交網路資料的社會媒體視角引擎,可進行互動分析並將結果以視覺化形式展現

GPL

微購

可採集淘寶、京東、噹噹等300多家電子商務資料

GPL

ErLang

Ebot

可伸縮的分散式網頁爬蟲

GPLv3

Ruby

Spidr

可將一個或多個網站、某個連結完全抓取到本地

MIT

 

 

相關文章