大資料常用分析工具介紹

chenfeng發表於2016-05-15
Hadoop: 一個分散式系統基礎架構,不僅執行在商用硬體系統,還可以輕鬆的整合結構化、半結構化資料集

MapReduce:是一種程式設計模型,用於大規模資料集(大於1TB)的並行運算。概念"Map(對映)"和"Reduce(歸約)",是它們的主要思想,
都是從函數語言程式設計語言裡借來的,還有從向量程式語言裡借來的特性。它極大地方便了程式設計人員在不會分散式並行程式設計的情況下,將自己的程式執行在分散式系統上。


Storm:用於處理高速大型資料流的分散式實時計算,為Apache Hadoop新增了可靠的實時處理功能,同時還增加了低延遲的儀表板和安全警報


Spark:最值得關注的大資料工具,是一個基於記憶體計算的開源的叢集計算系統,用Scala語言實現,構建在HDFS上,能與Hadoop很好的結合,而且執行速度比MapReduce快100倍


R:用於統計分析的R語言,透過擴充套件R+Hadoop,可以在Hadoop叢集上執行R程式碼


Mathout:將資料分析、分類以及篩選的演算法引入Hadoop叢集當中,輕鬆實現了大資料的分析挖掘工作


SAS:世界最老牌的資料分析和資料探勘軟體,憑藉Visaul Analytics軟體進入到大資料領域


SPSS:全球應用最廣泛的統計分析軟體,可用於統計學分析執行、資料探勘、預測分析和決策支援


RapidMiner:範圍廣泛,包括各種資料藝術,能簡化資料探勘過程的設計和評價


Apache Drill:實現了Google's Dremel,有助於Hadoop使用者實現更快的查詢海量資料集的目的

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/15498/viewspace-2100333/,如需轉載,請註明出處,否則將追究法律責任。

相關文章