十八款Hadoop工具幫你馴服大資料

51cto發表於2013-12-12

　　Hadoop已經通過自身的蓬勃發展證明，它不僅僅是一套用於將工作內容傳播到計算機群組當中的小型堆疊--不，這與它的潛能相比簡直微不足道。這套核心的價值已經被廣泛證實，目前大量專案如雨後春筍般圍繞它建立起來。有些專案負責資料管理、有些負責流程監控、還有一些則提供先進的資料儲存機制。

　　Hadoop業界正在迅速發展，從業企業拿出的解決方案也多種多樣，其中包括提供技術支援、在託管叢集中提供按時租用服務、為這套開源核心開發先進的功能強化或者將自有工具新增到方案組合當中。

　　在今天的文章中，我們將一同瞭解當下Hadoop生態系統當中那些最為突出的傑作。總體而言，這是一套由眾多工具及程式碼構成的堅實基礎、共同聚集在"Hadoop"這面象徵著希望的大旗之下。

　　Hadoop

　　雖然很多人會把對映與規約工具廣義化稱為Hadoop，但從客觀角度講、其實只有一小部分核心程式碼算是真正的Hadoop。多個工作節點負責對儲存在本地的資料進行功能執行，而基於Java的程式碼則對其加以同步。這些工作節點得到的結果隨後經過彙總並整理為報告。第一個步驟被稱為"對映（即map）"，而第二步驟則被稱為"規約（reduce）"。

　　Hadoop為本地資料儲存與同步系統提供一套簡化抽象機制，從而保證程式設計師能夠將注意力集中在編寫程式碼以實現資料分析工作上，其它工作交給Hadoop處理即可。Hadoop會將任務加以拆分並設計執行規程。錯誤或者故障在意料之中，Hadoop的設計初衷就在於適應由單獨裝置所引發的錯誤。

　　專案程式碼遵循Apache許可機制。

　　官方網站：hadoop.apache.org

　　Ambari

　　Hadoop叢集的建立需要涉及大量重複性工作。Ambari提供一套基於Web的圖形使用者介面並配備引導指令碼，能夠利用大部分標準化元件實現叢集設定。在大家採納Ambari並將其付諸執行之後，它將幫助各位完成配置、管理以及監管等重要的Hadoop叢集相關任務。上圖顯示的就是叢集啟動後Ambari所顯示的資訊螢幕。

　　Ambari屬於Apache旗下的衍生專案，並由Hortonworks公司負責提供支援。

　　下載地址：http://incubator.apache.org/ambari/

　　HDFS (即Hadoop分散式檔案系統)

　　Hadoop分散式檔案系統提供一套基礎框架，專門用於拆分收集自不同節點之間的資料，並利用複製手段在節點故障時實現資料恢復。大型檔案會被拆分成資料塊，而多個節點能夠保留來自同一個檔案的所有資料塊。上圖來自Apache公佈的說明文件，旨在展示資料塊如何分佈至各個節點當中。

　　這套檔案系統的設計目的在於同時實現高容錯性與高資料吞吐能力的結合。載入資料塊能夠保持穩定的資訊流通，而低頻率快取處理則將延遲降至最小。預設模式假設的是需要處理大量本地儲存資料的長時間作業，這也吻合該專案所提出的"計算能力遷移比資料遷移成本更低"的座右銘。

　　HDFS同樣遵循Apache許可。

　　官方網站：hadoop.apache.org

　　HBase

　　當資料被彙總成一套規模龐大的列表時，HBase將負責對其進行儲存、搜尋並自動在不同節點之間共享該列表，從而保證MapReduce作業能夠以本地方式執行。即使列表中容納的資料行數量高達數十億，該作業的本地版本仍然能夠對其進行查詢。

　　該程式碼並不能提供其它全功能資料庫所遵循的ACID保證，但它仍然為我們帶來一部分關於本地變更的承諾。所有衍生版本的命運也都維繫在一起--要麼共同成功、要麼一起失敗。

　　這套系統通常被與谷歌的BigTable相提並論，上圖所示為來自HareDB（一套專為HBase打造的圖形使用者介面客戶端）的截圖。

　　官方網站：hbase.apache.org

大資料hadoop工具
2018-12-20
大資料Hadoop
Hadoop：你不得不瞭解的大資料工具
2012-12-10
Hadoop大資料
桀驁不馴的程式碼又搞事情？我找來 10 個開源專案幫你馴服它們！
2021-10-14
用斷路器馴服資料質量
2018-12-17
大資料hadoop資料
2018-08-03
大資料Hadoop
分享Hadoop處理大資料工具及優勢
2018-12-13
Hadoop大資料
執行緒的馴服
2002-11-18
執行緒
Hadoop大資料部署
2018-11-02
Hadoop大資料
大資料系統框架中hadoop服務角色介紹
2018-09-11
大資料框架Hadoop
資料清洗太難了？那是你沒有好工具，讓Smartbi來幫你！
2021-12-28
BDA：Hadoop生態大資料工具的漏洞掃描器
2021-12-28
Hadoop大資料
大資料分析系統Hadoop的13個開源工具！
2018-06-08
大資料Hadoop開源工具
大資料分析系統Hadoop的13個開源工具
2018-06-04
大資料Hadoop開源工具
**大資料hadoop瞭解**
2018-12-18
大資料Hadoop
hadoop 大資料精品視訊資料
2016-07-06
Hadoop大資料
收藏！一張圖幫你快速建立大資料知識體系
2020-06-11
大資料
大資料尋求幫助！
2019-04-02
大資料
大資料時代之hadoop(三)：hadoop資料流（生命週期）
2014-10-15
大資料Hadoop
Hadoop大資料存算分離，杉巖MOS知你所想
2021-08-20
Hadoop大資料
谷歌新聞實驗室：大資料幫你更好地講故事
2015-12-30
谷歌大資料
十種程式語言幫你讀懂大資料的“祕密”
2014-08-02
大資料
大資料時代之hadoop(一)：hadoop安裝
2014-10-13
大資料Hadoop
淺析大資料框架 Hadoop
2021-07-27
大資料框架Hadoop
八款卓越開源工具幫你搞定資料視覺化難題
2015-06-13
開源工具視覺化
大資料和Hadoop什麼關係？為什麼大資料要學習Hadoop？
2019-06-27
大資料Hadoop
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
十八款為設計師提供的免費工具
2019-02-16
大資料時代之hadoop(二)：hadoop指令碼解析
2014-10-14
大資料Hadoop指令碼
馴服定時器和執行緒
2018-08-08
定時器執行緒
大資料測試之hadoop初探
2019-08-07
大資料Hadoop
大資料7.1 - hadoop叢集搭建
2018-04-09
大資料Hadoop
Hadoop的大資料分析技術
2014-02-27
Hadoop大資料
大資料如何幫助人工智慧？
2019-06-03
大資料人工智慧
12個資料幫你搞定店鋪生意
2014-03-27
華為雲大資料，幫助企業搭好資料底座
2022-11-28
大資料
大資料技術之Hadoop（入門）第2章從Hadoop框架討論大資料生態
2018-08-08
大資料Hadoop框架
Hadoop大資料開發框架學習
2018-08-31
Hadoop大資料框架
大資料 Hadoop介紹、配置與使用
2018-09-15
大資料Hadoop

十八款Hadoop工具幫你馴服大資料

相關文章