hadoop不同版本有哪些

adnb34g發表於2018-09-18

一、 Hadoop 是什麼?

首次聽到 hadoop 這次單詞,相信很多人跟我當時是一樣,不免心中畫上一個大大的問號——這是什麼東西? Hadoop 是什麼?百度百科的解釋是: 是一個由 Apache 基金會所開發的 基礎架構 換句話說就是 hadoop 一個能夠對大量資料進行 框架

Hadoopd 之所謂會誕生,主要是由於進入到大資料時代,計算機需要處理的資料量太過龐大。這時就需要將這些龐大資料切割分配到 N 臺計算機進行處理。當大量資訊被分配到不同計算機進行處理時,要確保最終得到的結果正確就需要對這些分佈處理的資訊進行管理, hadoop 就是這樣的一套解決方案。

透過一個簡單通俗的例子說明: 假如說你有一個籃子水果,你想知道蘋果和梨的數量是多少,那麼只要一個一個數就可以知道有多少了。如果你有一個集裝箱水果,這時候就需要很多人同時幫你數了,這相當於多程式或多執行緒。如果你很多個集裝箱的水果,這時就需要分散式計算了,也就是 Hadoop

二、 hadoop 的版本

 

隨著這幾年大資料浪潮的興起, hadoop 的各種版本也快速在國內流傳和使用。當前主要的 hadoop 版本有以下幾種:

1、 Apache hadoop 2.0 版本,它的模組主要有以下幾個:

(1) hadoop 通用模組,支援其他 hadoop 模組的通用工具集;

(2) Hadoop 分散式檔案系統,支援對應資料高吞吐量訪問的分散式檔案系統;

(3) 用於作業排程和叢集資源管理的 Hadoop YANRN 框架;

(4) Hadoop MapReduce ,基於 YARN 的大資料並行處理系統

2 Cloudera hadoop Cloudera 版本層次更加清晰,且它提供了適用於各種作業系統的 Hadoop 安裝包,可直接使用 apt-get 或者 yum 命令進行安裝,更加省事。

3 Hortonworks Hortonworks  的主打產品是 Hortonworks Data Platform (HDP) ,也同樣是 100% 開源的產品, HDP 除了常見的專案外還包含了 Ambari ,一款開源的安裝和管理系統。 HCatalog ,一個後設資料管理系統, HCatalog 現已整合到 Facebook  開源的 Hive 中。 Hortonworks Stinger 開創性地極大地最佳化了 Hive 專案。 Hortonworks 為入門提供了一個非常好的,易於使用的沙盒。 Hortonworks 開發了很多增強特性並提交至核心主幹,這使得 Apache Hadoop 能夠在包括 Windows Server Windows Azure 在內的 Microsoft Windows 平臺上本地執行。

三、國產 hadoop 發行版有哪些

國內做 hadoop 發行版的像 華為 大快搜尋 都有推出自己的發行版。華為在硬體上有天然的有事, 華為的 FusionInsight Hadoop 版本基於 Apache Hadoop ,構建 NameNode JobTracker HiveServer HA 功能,程式故障後系統自動 Failover ,無需人工干預,這個也是對 Hadoop 的小修補,遠不如 MapR 解決的徹底。

大快搜尋推出的 DKhaoop , 是目前已知的國產發行版中唯一一個純原生態的開發, 整合了整個 HADOOP生態系統的全部元件,並深度最佳化,重新編譯為一個完整的更高效能的大資料通用計算平臺,實現了各部件的有機協調。因此DKH相比開源的大資料平臺,在計算效能上有了高達5倍(最大)的效能提升。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2214369/,如需轉載,請註明出處,否則將追究法律責任。

相關文章