大資料分析三大實用工具介紹!

候鳥之戀發表於2022-03-07

大資料是一個含義廣泛的術語,是指資料集,如此龐大而複雜的,他們需要專門設計的硬體和軟體工具進行處理。該資料集通常是萬億或EB的大小。

 

這些資料集收集自各種各樣的來源:感測器,氣候資訊,公開的資訊,如雜誌,報紙,文章。大資料產生的其他例子包括購買交易記錄,網路日誌,病歷,軍事監控,影片和影像檔案,及大型電子商務。

 

一、Hadoop

Hadoop 是一個能夠對大量資料進行分散式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和儲存會失敗,因此它維護多個工作資料副本,確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的,因為它以並行的方式工作,透過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級資料。此外,Hadoop 依賴於社群伺服器,因此它的成本比較低,任何人都可以使用。

 

二、Storm

Storm是自由的開源軟體,一個分散式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的資料流,用於處理Hadoop的批次資料。Storm很簡單,支援許多種程式語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。

Storm有許多應用領域:實時分析、線上機器學習、不停頓的計算、分散式RPC(遠過程呼叫協議,一種透過網路從遠端計算機程式上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫,即資料抽取、轉換和載入)等等。Storm的處理速度驚人:經測 試,每個節點每秒鐘可以處理100萬個資料元組。Storm是可擴充套件、容錯,很容易設定和操作。

 

三、Pentaho BI

Pentaho BI 平臺不同於傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等元件整合起來,方便商務智慧應用的開發。它的出現,使得一系列的面向商務智慧的獨立產品如Jfree、Quartz等等,能夠整合在一起,構成一項項複雜的、完整的商務智慧解決方案。gendan5.com/

Pentaho BI 平臺,Pentaho Open BI 套件的核心架構和基礎,是以流程為中心的,因為其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI 平臺上執行的商業智慧流程。流程可以很容易的被定製,也可以新增新的流程。BI 平臺包含元件和報表,用以分析這些流程的效能。目前,Pentaho的主要組成元素包括報表生成、分析、資料探勘和工作流管理等等。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014563/viewspace-2865624/,如需轉載,請註明出處,否則將追究法律責任。

相關文章