Hadoop工具生態系統生長迅速,以下是IT經理網整理的最新Hadoop工具資源,供IT經理日常參考,歡迎讀者來信或留言補充。
Hadoop
Apache hadoop專案負責開發可靠的、可擴充套件的分散式計算開源軟體。
HDFS
分散式檔案系統提供高速的應用資料訪問。
MapReduce
在計算機叢集上進行大資料分散式處理的軟體框架。
亞馬遜Elastic MapReduce
亞馬遜Elastic MapReduce是一種web服務,能讓企業、研究人員、資料分析師和開發者低成本快速處理海量資料。該服務是託管於亞馬遜彈性雲(EC2)和亞馬遜S3儲存雲上的web大規模基礎架構上的Hadoop框架。
網址:aws.amazon.com/elasticmapreduce/
Cloudera Hadoop發行版(CDH)
Cloudera的Hadoop發行版(CDH)為基於Hadoop的資料管理平臺樹立了新的標杆。
ZooKeeper
針對分散式應用的高效能協調服務。ZooKeeper為配置資訊、命名提供集中化管理服務,支援分散式同步,並提供群組服務。
網址:hadoop.apache.org/zookeeper/
HBase
可擴充套件的分散式資料庫,支援大表(big table)的結構化資料儲存。
Avro
資料序列化系統。與Thrift和Protocolbuffers類似。
Sqoop
Sqoop(SQL-to-Hadoop),是命令列工具,有以下功能:
- ● 將單獨的表或者整個資料庫匯入HDFS檔案
- ● 通用Java庫支援與匯入資料的互動
- ● 支援將SQL資料庫直接匯入你的Hive資料倉儲
網址:cloudera.com/downloads/sqoop/
Flume
Flume是一個分散式高可靠的大資料傳輸服務。
網址:archive.cloudera.com/cdh/3/flume/
Hive
Hive是基於Hadoop的資料倉儲基礎架構,提供的工具能進行簡便的資料彙總、ad-hoc查詢,以及對儲存在Hadoop檔案中的大資料集的分析。Hive提供一種簡單易用的查詢語言——Hive QL,該語言基於SQL,這意味著那些對SQL熟悉的使用者可以像使用SQL資料庫一樣查詢大資料。Hive QL還雲尋傳統的map/reduce程式設計師插入他們自己的mappers和reducers,進行更為複雜的分析。
Pig
Pig是一種高階資料流語言和平行計算的執行框架。Apache Pig是一個大資料集分析平臺,提供了一種表達資料分析程式的高階語言,以及評估這些程式的基礎架構。Pig程式的最大優點是其架構能為底層並行化進行調整,從而能處理非常大規模的資料集。
Oozie
Oozie 是一個開源的工作流和協作服務引擎,為管理Apache hadoop資料處理任務提供工作流/協作服務。Oozie 是可擴充套件的、可伸縮的面向資料的服務,執行在Hadoop 平臺上,協調Hadoop上執行的不同任務(包括HDFS,Pig和MapReduce)。
Oozie 包括一個離線的Hadoop處理的工作流解決方案,以及一個查詢處理 API。
Cascading
Cascading是一個查詢API和查詢計劃器,被用於定義和執行Hadoop叢集上執行的複雜、可自由擴充套件、可容錯的資料處理工作流。
Cascalog
Cascalog一種能使在Hadoop上使用Clojure處理資料變得簡單直觀的工具。Cascalog綜合了兩大頂尖技術:Clojure和Hadoop,同時讓Datalog煥發青春。Cascalog的特點是高效能、靈活和魯棒。
網址:github.com/nathanmarz/cascalog
HUE
Hue是運營和開發Hadoop應用的圖形化使用者介面。Hue程式被整合到一個類似桌面的環境,以web程式的形式釋出,對於單獨的使用者來說不需要額外的安裝。
網址:archive.cloudera.com/cdh3/hue 更多資訊:Cloudera blog
Chukwa
Chukwa是面向大型分散式系統的資料採集系統。Chukwa基於Hadoop HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴充套件性和容錯性。Chukwa還提供一個靈活而強大的工具包,用於顯示、監控和分析分析結果,更好地利用所收集的資料。
網址:incubator.apache.org/chukwa/
Mahout
一種可擴充套件的機器學習和數挖掘庫。
via:T經理網