對於許多大企業來說,開源大資料分析已經成為日常業務中一個必不可少的組成部分。據New Vantage Partners公司對《財富》1000強公司的高層主管開展的調查顯示,如今62.5%的企業在生產環境中至少執行一種大資料工具或應用軟體。這比2013年給出同樣回覆的企業數量高出近一倍,只有5.4%的受訪企業沒有大資料計劃。
說到大資料分析,開源軟體是常態,而不是異數。許多企業使用的一些領先工具由Apache基金會管理,許多商業工具至少一部分基於這些開源解決方案。
我們在本文中介紹了市面上12款頂尖的開源資料分析解決方案,其中一些為大資料分析提供了全面的端到端平臺,另一些要與其他技術結合起來。它們都適合大企業使用,都是市面上領先的資料分析工具。
1. Hadoop
談到開源資料分析技術,就不可能不提到Hadoop。Apache基金會的這個專案已經幾乎成為大資料的同義詞,它讓企業能夠大規模分散式處理極其龐大的資料集。TDWI和SAS聯合開展的一項調查發現,近60%的企業預計在2016年年底之前會在生產環境中擁有Hadoop叢集。
然而值得一提的是,Hadoop本身無法實現資料分析。它通常是從大資料獲取洞察力的整個更龐大解決方案的一部分。
2. Spark
Spark也是Apache旗下的一個專案,它承諾可以迅速處理大資料。實際上,它聲稱“在記憶體中執行程式的速度比Hadoop MapReduce快100倍,在磁碟上執行程度的速度快10倍”。
由於這種出色效能,它常常用於分析流式資料或用於需要互動式分析功能的應用軟體中。許多公司經常把它與Hadoop或Mesos一起使用,不過它也能獨立執行。最近,它的人氣得到了急劇提升,Syncsort在2016年開展的一項調查發現,受訪的企業大資料工作人員中近70%對Spark有興趣。
3. Talend
不像前面兩個專案,Talend由一家營利公司管理,而不是由基金會管理。因而,提供收費支付服務。Talend既提供免費產品,又提供收費產品。它免費的開源解決方案名為Talend Open Studio,下載量已超過了200萬人次。
市場研究公司Gartner最近將Talend評為資料整合領域的“領導者”。這家公司聲稱,相比與之競爭的解決方案,它幫助企業分析大資料的速度快五倍,而成本卻只有五分之一。
4. Jaspersoft
與Talend一樣,Jaspersoft也有多個版本,有的版本免費,有的版本收費。社群版是免費、開源的,而Reporting版、AWS版、專業版和企業版需要收費,不過隨帶支援服務。
Jaspersoft是一款開源商業智慧工具,旨在讓企業使用者可以藉助自助服務,滿足自己的要求。該公司聲稱,它的技術支援130000多款應用軟體,提供嵌入式商業智慧功能。
5. Pentaho
Pentaho自詡為“全面的資料整合和商業智慧平臺。”該公司主要大力推銷它的商業版軟體,該軟體基於開源社群版。
許多公司將它與Hadoop和Spark之類的工具一起使用,以便能夠報告和顯示大資料。該軟體聲稱擁有一大批的知名客戶,包括英國電信(BT)、卡特皮勒、納斯達克、美國國土安全部、美國國家海洋和大氣局(NOAA)、《紐約時報》、EMC及其他許多企業組織。
6. RapidMiner
RapidMiner聲稱是“頭號開源資料科學平臺”,Gartner將它評為高階分析魔力象限報告中的領導者。它能夠實現自助式預測分析,承諾有望提升速度飛快的效能。
使用者包括寶馬、漢莎航空、達美樂比薩公司、索尼、福特、Salesforce、國際特赦組織和通用電氣公司。整個RadiMiner平臺包括三個獨立的元件:RapidMiner Studio、RapidMiner Server和RapidMiner Radoop。這三個元件都採用開源許可證或商業許可證,商業版價格取決於使用者數量。
7. Storm
Apache Storm被雅虎、推特、Spotify、Yelp、Flipboard和Groupon之類的公司所使用,它是一種實時大資料處理引擎。
它的官方網站解釋:“Storm讓使用者很容易可靠地處理無限制的資料流,它在實時處理方面的功能好比Hadoop在批處理方面的功能。”客戶可以將它與任何資料庫或任何程式語言一起使用。它具有可擴充套件、容錯、易於部分使用的優點。然而使用者要注意的是,Storm還沒有進入到1.0版本這個階段。
8. H2O
H2O被60000多個資料科學家和7000多家企業組織所使用,聲稱是“世界上領先的開源機器學習平臺。”由於它的記憶體技術,它提供了極其出色的效能。它還與Hadoop和Spark之類的其他許多開源資料分析工具整合起來,支援所有主要的流行資料庫,提供收費的支援服務。
除了標準版的H2O外,該公司還提供Sparkling Water,這個版本整合了Spark和Steam,後者是一種端到端人工智慧應用引擎。
9. Lumify
Lumify由一家名為Altamira 科技的公司開發,自稱是“開源大資料分析和視覺化平臺”。
它讓使用者易於建立二維或三維圖形,可顯示實體之間的關係,或在地圖上覆蓋資料。對於有興趣深入瞭解它的工作原理的那些人來說,官方網站提供了幾個視訊,顯示了Lumify的實際執行,上面還有一個演示網站,讓使用者可以上傳自己的資料,並試用軟體。
10. Drill
Apache Drill讓使用者得以使用SQL查詢用於非關係型資料儲存系統。它支援一系列NoSQL和基於雲的資料儲存系統。
Apache Drill包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、谷歌雲端儲存和Swift。它還讓使用者可以使用單一查詢,即可搜尋用不同技術儲存起來的多個資料集。此外,它支援許多流行的商業智慧工具。
11. MongoDB
作為最知名的NoSQL資料庫之一,MongoDB是一種開源非關係型資料儲存解決方案。客戶包括大都會人壽(MetLife)、芝加哥市、Expedia、谷歌、氣象頻道、BuzzFeed和Facebook。
除了免費開源版外,該公司還提供一款收費的企業版和雲託管的版本MongoDB Atlas。知名市場研究機構弗雷斯特研究公司將MongoDB評為大資料NoSQL領域的“領導者”。
12. SpagoBI
SpagoBI是一款開源商業智慧和大資料分析平臺。
該軟體完全免費,但還提供收費的使用者支援、維護、諮詢和培訓等服務。它包括了用於報告、多維分析(OLAP)、圖表、位置情報、資料探勘、ETL(抽取轉換和載入)及更多其他方面的工具。它還與流行的記憶體處理引擎整合起來,能夠實現實時處理。