Hadoop演進與Hadoop生態

lie發表於2020-09-20

1.瞭解對比Hadoop不同版本的特性,可以用圖表的形式呈現。

      

      

(1)0.20.0~0.20.2: Hadoop的0.20分支非常穩定,雖然看起來有些落後,但是經過生產環境考驗,是 Hadoop歷史上生命週期最長的一個分支,CDH3、CDH4雖然包含了0.21和0.22分支的新功能和補丁,但都是基於此分支。

(2)0.20- append:020- append支援HDFS追加,由於該功能被認為是一個不穩定的潛在因素,所以它被單獨新開了一個分支,並且沒有任何新的 Hadoop的正式版基於此分支釋出。

(3)0.20- ecurity:該分支基於020並支援 Kerberos認證。

(4)0.20.203~0.20.205:這些版本包括了 Security分支所帶功能,並且還包括錯誤修復和020分支的線上開發的改進。

(5)0.21.0:0.21是一個預研性質的版本,目的是強調那段時間開發的一些新功能,沒有Security功能,但有 Append功能,不建議部署在生產環境。

(6)0.22.0:0.22.0包括HDFS的安全功能,並且更新不大

(7)0.23.0:在2011年11月, Hadoop023釋出了,包括了 Append、 Security、YARN和HDFS Federation功能,該版本被認為是20.0的預覽版本。

(8)1.0.0:1.0.0版本是基於0.20.205版本釋出,包括了 Security功能,是一個值得部署的穩定版本。但是從上面可以看出,1.0.0並不是包含了所有分支

(9)2.0.0:2012年5月,基於0.23.0分支的20.0版本釋出,它包含了YARN,但移除了MRvl,相容了MRv1的API,但底層實現有明顯不同,需要經過大量測試才能被用於生產環境。CDH4是基於此版本,但CDH4還提供了MRv1的實現。

2.Hadoop生態的組成、每個元件的作用、元件之間的相互關係,以圖例加文字描述呈現。

    • Ambari™:基於Web的工具,用於供應,管理和監視Apache Hadoop叢集,其中包括對Hadoop HDFS,Hadoop MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop的支援。Ambari還提供了一個儀表板,用於檢視叢集健康狀況(例如熱圖)以及以可視方式檢視MapReduce,Pig和Hive應用程式的功能,以及以使用者友好的方式診斷其效能特徵的功能。
    • Avro™:資料序列化系統。
    • Cassandra™:可擴充套件的多主資料庫,沒有單點故障。
    • Chukwa™:一種用於管理大型分散式系統的資料收集系統。
    • HBase™:可擴充套件的分散式資料庫,支援大型表的結構化資料儲存。
    • Hive™:一種資料倉儲基礎結構,可提供資料彙總和即席查詢。
    • Mahout™:可擴充套件的機器學習和資料探勘庫。
    • Pig™:用於平行計算的高階資料流語言和執行框架。
    • Spark™:一種用於Hadoop資料的快速通用計算引擎。Spark提供了一種簡單而富有表現力的程式設計模型,該模型支援廣泛的應用程式,包括ETL,機器學習,流處理和圖形計算。
    • Submarine:一個統一的AI平臺,允許工程師和資料科學家在分散式叢集中執行機器學習和深度學習工作負載。
    • Tez™:基於Hadoop YARN的通用資料流程式設計框架,它提供了強大而靈活的引擎來執行任意DAG任務,以處理批處理和互動用例的資料。Hadoop生態系統中的Hive™,Pig™和其他框架以及其他商業軟體(例如ETL工具)都採用了Tez,以取代Hadoop™MapReduce作為基礎執行引擎。
    • ZooKeeper™:針對分散式應用程式的高效能協調服務。

 

3.官網學習Hadoop的安裝與使用,用文件的方式列出步驟與注意事項。http://www.apache.org/
    Hadoop安裝分兩個平臺,一個是Linux,一個是Windows。 下面以Windows為例:

      1.Hadoop 2.2及更高版本包括對Windows的本地支援。

      2.選擇Windows10安裝

      3.選擇Java版本並設定JAVA_HOME

        Oracle JDK 1.71.6版已經由Hadoop開發人員進行了測試,並且可以正常工作。

      4.獲取Hadoop源

      5.安裝依賴關係並設定構建環境

        BUILDING.txt源樹的根檔案有要求的列表以及如何安裝它們的詳細資訊。它還包括有關設定環境的資訊以及Windows特有的一些怪癖。強烈建議您在繼續之前閱讀並理解它。

      6.關於本機IO支援的幾句話

        Linux上的Hadoop包括可選的Native IO支援。但是,Native IO在Windows上是必需的,沒有它,您將無法使安裝正常工作。您必須按照BUILDING.txt中的所有說明進行操作,以確保正確構建了Native IO支援。

      7.生成並複製包檔案

要構建二進位制發行版,請從源樹的根目錄執行以下命令。mvn軟體包-Pdist,native-win -DskipTests -Dta

      8.安裝

      9.HDFS配置示例

      10.YARN配置示例

      11.初始化環境變數

        執行c:\ deploy \ etc \ hadoop \ hadoop-env.cmd來設定啟動指令碼和守護程式將使用的環境變數。

      12.格式化檔案系統

         %HADOOP_PREFIX%\ bin \ hdfs目的-format

      13.啟動HDFS守護程式

      

 

 

相關文章