Mapreduce chart

Hadoop工具生態系統生長迅速,以下是IT經理網整理的最新Hadoop工具資源,供IT經理日常參考,歡迎讀者來信或留言補充。

 

Hadoop

Apache hadoop專案負責開發可靠的、可擴充套件的分散式計算開源軟體。

網址:hadoop.apache.org

 

HDFS

分散式檔案系統提供高速的應用資料訪問。

網址:hadoop.apache.org/hdfs/

 

MapReduce

在計算機叢集上進行大資料分散式處理的軟體框架。

 

亞馬遜Elastic MapReduce

亞馬遜Elastic MapReduce是一種web服務,能讓企業、研究人員、資料分析師和開發者低成本快速處理海量資料。該服務是託管於亞馬遜彈性雲(EC2)和亞馬遜S3儲存雲上的web大規模基礎架構上的Hadoop框架。

網址:aws.amazon.com/elasticmapreduce/

 

Cloudera Hadoop發行版(CDH)

Cloudera的Hadoop發行版(CDH)為基於Hadoop的資料管理平臺樹立了新的標杆。

網址:cloudera.com/hadoop

 

ZooKeeper

針對分散式應用的高效能協調服務。ZooKeeper為配置資訊、命名提供集中化管理服務,支援分散式同步,並提供群組服務。

網址:hadoop.apache.org/zookeeper/

 

HBase

可擴充套件的分散式資料庫,支援大表(big table)的結構化資料儲存。

網址:hbase.apache.org

 

Avro

資料序列化系統。與ThriftProtocolbuffers類似。

avro.apache.org

 

Sqoop

Sqoop(SQL-to-Hadoop),是命令列工具,有以下功能:

    • ● 將單獨的表或者整個資料庫匯入HDFS檔案
    • ● 通用Java庫支援與匯入資料的互動
    • ● 支援將SQL資料庫直接匯入你的Hive資料倉儲

網址:cloudera.com/downloads/sqoop/

 

Flume

Flume是一個分散式高可靠的大資料傳輸服務。

網址:archive.cloudera.com/cdh/3/flume/

 

Hive

Hive是基於Hadoop的資料倉儲基礎架構,提供的工具能進行簡便的資料彙總、ad-hoc查詢,以及對儲存在Hadoop檔案中的大資料集的分析。Hive提供一種簡單易用的查詢語言——Hive QL,該語言基於SQL,這意味著那些對SQL熟悉的使用者可以像使用SQL資料庫一樣查詢大資料。Hive QL還雲尋傳統的map/reduce程式設計師插入他們自己的mappers和reducers,進行更為複雜的分析。

網址:hive.apache.org

 

Pig

Pig是一種高階資料流語言和平行計算的執行框架。Apache Pig是一個大資料集分析平臺,提供了一種表達資料分析程式的高階語言,以及評估這些程式的基礎架構。Pig程式的最大優點是其架構能為底層並行化進行調整,從而能處理非常大規模的資料集。

網址:pig.apache.org

 

Oozie

Oozie 是一個開源的工作流和協作服務引擎,為管理Apache hadoop資料處理任務提供工作流/協作服務。Oozie 是可擴充套件的、可伸縮的面向資料的服務,執行在Hadoop 平臺上,協調Hadoop上執行的不同任務(包括HDFS,Pig和MapReduce)。

Oozie 包括一個離線的Hadoop處理的工作流解決方案,以及一個查詢處理 API。

網址:yahoo.github.com/oozie

 

Cascading

Cascading是一個查詢API和查詢計劃器,被用於定義和執行Hadoop叢集上執行的複雜、可自由擴充套件、可容錯的資料處理工作流。

網址:cascading.org

 

Cascalog

Cascalog一種能使在Hadoop上使用Clojure處理資料變得簡單直觀的工具。Cascalog綜合了兩大頂尖技術:Clojure和Hadoop,同時讓Datalog煥發青春。Cascalog的特點是高效能、靈活和魯棒。

網址:github.com/nathanmarz/cascalog

 

HUE

Hue是運營和開發Hadoop應用的圖形化使用者介面。Hue程式被整合到一個類似桌面的環境,以web程式的形式釋出,對於單獨的使用者來說不需要額外的安裝。

網址:archive.cloudera.com/cdh3/hue   更多資訊:Cloudera blog

 

Chukwa

Chukwa是面向大型分散式系統的資料採集系統。Chukwa基於Hadoop HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴充套件性和容錯性。Chukwa還提供一個靈活而強大的工具包,用於顯示、監控和分析分析結果,更好地利用所收集的資料。

網址:incubator.apache.org/chukwa/

 

Mahout

一種可擴充套件的機器學習和數挖掘庫。

網址:mahout.apache.org

 

via:T經理網