Hadoop 叢集角色和節點數規劃建議

Memory_ss發表於2020-10-24

Hadoop 叢集角色和節點數規劃建議
2019-04-29 15:0431040轉載Hadoop
1、 CDH元件角色說明
  Hadoop 叢集伺服器按照節點任務的不同可以分為管理節點和工作節點。管理節點上部署各元件的管理角色,工作節點部署各角色的儲存、容器或計算角色。但因為Hadoop 不同元件之間相容性的問題,所以一般使用Cloudera 套件。 在CDH套件中就有如下角色。

2、 CDH 節點數量建議
2.1 小規模叢集
  一般來說,小於20個節點的都屬於小規模叢集,受限於叢集的儲存和處理能力,小規模叢集不太適合用於多業務的環境。可以部署成 HBase 的叢集,也可以部署成分析叢集,包含 YARN、Impala 。在小規模叢集中,為了最大化利用叢集的儲存和處理能力,節點的複用程度往往比較高。

2.2 中等規模叢集
  一箇中等規模的叢集,叢集的節點數一般在20到200左右,通常的資料儲存可以規劃到幾百TB,適用於一箇中型企業的資料平臺,或者大型企業的業務部門資料平臺。節點的複用程度可以降低,可以按照管理節點、主節點、工具節點和工作節點來劃分。

這些節點中包含:
1個CM管理節點:用來安裝 Cloudera Manager 和Cloudera Management Service,以對CDH進行管理。

3個主節點:用來安裝 CDH 服務以HA 的元件。如3個ZKServer、兩個 NameNode(主備)、兩個ResourceManager,3個HBase Master1個Hive Metastore 、1個spark History Server之類管理角色。角色分配可以參考下圖:

N個工具節點:用來部署HIVE Server2,、Hue Server、Oozie Server、Flum Agent 、Sqoop Client 、Gateway等。
N個工作節點:部署HDFS DataNode,YARN NodeManager,Implala Daemon,HBase Region Server。

3、 大規模叢集
  大規模叢集的節點數量一般會在 200 以上,儲存容量可以是幾百TB甚至是PB級別的資料,適用於大型企業搭建的資料平臺。大型叢集的架構和中型叢集的類似,只是主節點的數量從3個增加到5個,從而增加了主節點的可用性。剩下都是工作節點的增加。
  當主節點增加到5個後,HDFS JournalNode 也從3個增加到5個,ZooKeeper Server 和HBase Master 也從3個增加到5個,Hive Metastore 由1個增加到3個。

4、 CDH 節點推薦的硬體配置
業務型別不同,叢集具體配置也有區別。

(1)實時流處理服務叢集:
  由於效能的原因, Hadoop 實時流處理對節點記憶體和 CPU 有較高要求,基於 Spark Streaming 的流處理訊息吞吐量可隨節點數量增加而線性增長,配置可參考下圖:

(2)線上分析業務叢集:
  線上分析業務一般基於Impala等 MPP SQL 引擎,複雜的 SQL計算對記憶體容量有較高要求,因此需要128GB至更多的記憶體的硬體,推薦配置如下:

(3)雲端儲存業務叢集:
  儲存業務主要面向海量資料和檔案的儲存和計算,強調單節點儲存容量和成本,因此配置相對廉價的SATA 硬碟,滿足成本和容量的需求,推薦配置如下:

相關文章