大資料分析三大實用工具介紹!
大資料是一個含義廣泛的術語,是指資料集,如此龐大而複雜的,他們需要專門設計的硬體和軟體工具進行處理。該資料集通常是萬億或EB的大小。
這些資料集收集自各種各樣的來源:感測器,氣候資訊,公開的資訊,如雜誌,報紙,文章。大資料產生的其他例子包括購買交易記錄,網路日誌,病歷,軍事監控,影片和影像檔案,及大型電子商務。
一、Hadoop
Hadoop 是一個能夠對大量資料進行分散式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和儲存會失敗,因此它維護多個工作資料副本,確保能夠針對失敗的節點重新分佈處理。Hadoop 是高效的,因為它以並行的方式工作,透過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級資料。此外,Hadoop 依賴於社群伺服器,因此它的成本比較低,任何人都可以使用。
二、Storm
Storm是自由的開源軟體,一個分散式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的資料流,用於處理Hadoop的批次資料。Storm很簡單,支援許多種程式語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。
Storm有許多應用領域:實時分析、線上機器學習、不停頓的計算、分散式RPC(遠過程呼叫協議,一種透過網路從遠端計算機程式上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫,即資料抽取、轉換和載入)等等。Storm的處理速度驚人:經測 試,每個節點每秒鐘可以處理100萬個資料元組。Storm是可擴充套件、容錯,很容易設定和操作。
三、Pentaho BI
Pentaho BI 平臺不同於傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等元件整合起來,方便商務智慧應用的開發。它的出現,使得一系列的面向商務智慧的獨立產品如Jfree、Quartz等等,能夠整合在一起,構成一項項複雜的、完整的商務智慧解決方案。gendan5.com/
Pentaho BI 平臺,Pentaho Open BI 套件的核心架構和基礎,是以流程為中心的,因為其中樞控制器是一個工作流引擎。工作流引擎使用流程定義來定義在BI 平臺上執行的商業智慧流程。流程可以很容易的被定製,也可以新增新的流程。BI 平臺包含元件和報表,用以分析這些流程的效能。目前,Pentaho的主要組成元素包括報表生成、分析、資料探勘和工作流管理等等。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014563/viewspace-2865624/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 四種大資料分析方法介紹!大資料
- 經典資料分析應用介紹
- Python資料分析--工具安裝及Numpy介紹(1)Python
- 資料字典生成工具及文件工具作用介紹
- 資料介面測試工具 Postman 介紹Postman
- 大資料崗位介紹-引子大資料
- Get職場新知識:做分析,用大資料分析工具大資料
- 《Hadoop+Spark大資料分析實戰》簡介HadoopSpark大資料
- 資料科學領域的幾個無程式碼分析工具介紹資料科學
- 大資料 Hadoop介紹、配置與使用大資料Hadoop
- 大資料和Hadoop平臺介紹大資料Hadoop
- mysql 資料庫效能分析工具簡介MySql資料庫
- wireshark、異常資料分析、常見RST介紹
- Python資料分析--Numpy常用函式介紹(3)Python函式
- Python資料分析--Numpy常用函式介紹(2)Python函式
- 不敢想象,會用大資料分析工具有多爽!大資料
- 大資料學習,大資料發展趨勢和Spark介紹大資料Spark
- 大資料分析工具有哪些特性大資料
- 《Hadoop大資料分析技術》簡介Hadoop大資料
- R資料分析:資料清洗的思路和核心函式介紹函式
- 資料庫介紹資料庫
- Java中大資料生態和4個工具介紹Java大資料
- 帶你入坑大資料(三) --- MapReduce介紹大資料
- NLPIR文字分析工具的功能和特色介紹
- 動態惡意軟體分析工具介紹
- 加班做報表被嘲低效!快用大資料分析工具大資料
- MySQL全面瓦解3:資料型別介紹與分析MySql資料型別
- 掌握資料思維+實用分析工具,網站運營小白也能做好資料分析!網站
- 最佳的7個大資料分析工具大資料
- 為你介紹4個超實用的Linux監控工具Linux
- 介紹幾個程式碼實際開發中很實用的工具
- 數字沙盤的四大應用場景分析介紹
- etcdctl工具介紹
- 變數以及八大資料型別介紹變數大資料資料型別
- MNIST資料集介紹
- nuPlan資料集介紹
- Cora 資料集介紹
- PG實用工具推薦和介紹