好程式設計師大資料劃重點 hadoop常用四大模組檔案

好程式設計師IT發表於2019-05-16

1.core-site.xml( 工具模組 ) 。包括 Hadoop 常用的工具類,由原來的 Hadoopcore 部分更名而來。主要包括系統配置工具 Configuration 、遠端過程呼叫 RPC 、序列化機制和 Hadoop 抽象檔案系統 FileSystem 等。它們為在通用硬體上搭建雲端計算環境提供基本的服務,併為執行在該平臺上的軟體開發提供了所需的 API

     2.hdfs-site.xml( 資料儲存模組 ) 。分散式檔案系統,提供對應用程式資料的高吞吐量,高伸縮性,高容錯性的訪問。為 Hadoop 體系中資料儲存管理的基礎。它是一個高度容錯的系統,能檢測和應對硬體故障,用於在低成本的通用硬體上執行。 HDFS 簡化了檔案的一致性模型,透過流式資料訪問,提供高吞吐量應用程式資料訪問功能,適合帶有大型資料集的應用程式。

namenode+ datanode + secondarynode

      3.mapred-site.xml( 資料處理模組 ) ,基於 YARN 的大型資料集並行處理系統。是一種計算模型,用以進行大資料量的計算。 Hadoop MapReduce 實現,和 Common HDFS 一起,構成了 Hadoop 發展初期的三個元件。 MapReduce 將應用劃分為 Map Reduce 兩個步驟,其中 Map 對資料集上的獨立元素進行指定的操作,生成鍵 - 值對形式中間結果。 Reduce 則對中間結果中相同“鍵”的所有“值”進行規約,以得到最終結果。 MapReduce 這樣的功能劃分,非常適合在大量計算機組成的分散式並行環境裡進行資料處理。

     4.yarn-site.xml( 作業排程 + 資源管理平臺 ) ,任務排程和叢集資源管理 resourcemanager + nodemanager 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913892/viewspace-2644616/,如需轉載,請註明出處,否則將追究法律責任。

相關文章