Hadoop學習筆記—Yarn

西北偏北UP發表於2021-04-10

原文網址 : https://www.cnblogs.com/niceshot/p/14641054.html

Hadoop筆記Yarn

上一份工作主要負責大資料平臺的建設，在這個過程中積累了一些Hadoop生態元件的搭建和使用筆記，由於時間關係，不打算去修改其中的錯別字和排版問題，直接釋出原始筆記。

一些基本知識

ResourceManager 的恢復

當ResourceManager 掛掉重啟後，為了使之前的任務能夠繼續執行，而不是重新執行。勢必需要yarn記錄應用執行過程的狀態。

執行狀態可以儲存在

ZooKeeper
FileSystem 比如hdfs
LevelDB

使用zookeeper做為狀態儲存的典型配置為

<property>
   <description>Enable RM to recover state after starting. If true, then
   yarn.resourcemanager.store.class must be specified</description>
   <name>yarn.resourcemanager.recovery.enabled</name>
   <value>true</value>
 </property>

 <property>
   <description>The class to use as the persistent store.</description>
   <name>yarn.resourcemanager.store.class</name>
   <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
 </property>

 <property>
   <description>Comma separated list of Host:Port pairs. Each corresponds to a ZooKeeper server
   (e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002") to be used by the RM for storing RM state.
   This must be supplied when using org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
   as the value for yarn.resourcemanager.store.class</description>
   <name>hadoop.zk.address</name>
   <value>127.0.0.1:2181</value>
 </property>

Resource Manager的HA

基於zookeeper實現active 和standby 的多個ResourceManager之間的自動故障切換。 active Resource Manager只能有一個，而standby 可以有多個

file

為了防止故障自動轉移時的腦裂，推薦上面的ResourceManager recovery 狀態儲存使用也使用zk。
同時關閉zk的zookeeper.DigestAuthenticationProvider.superDigest配置，避免zk的管理員訪問到YARN application/user credential information

一個demo配置如下

<property>
  <name>yarn.resourcemanager.ha.enabled</name>
  <value>true</value>
</property>
<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>cluster1</value>
</property>
<property>
  <name>yarn.resourcemanager.ha.rm-ids</name>
  <value>rm1,rm2</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm1</name>
  <value>master1</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm2</name>
  <value>master2</value>
</property>
<property>
  <name>yarn.resourcemanager.webapp.address.rm1</name>
  <value>master1:8088</value>
</property>
<property>
  <name>yarn.resourcemanager.webapp.address.rm2</name>
  <value>master2:8088</value>
</property>
<property>
  <name>hadoop.zk.address</name>
  <value>zk1:2181,zk2:2181,zk3:2181</value>
</property>

文件：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html

YARN Node Labels

基於Label，將一個Yarn管理的叢集，劃分為多個分割槽。不同的queue可以使用不同的分割槽。

文件：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/NodeLabel.html

YARN Node Attributes

對Node Manager定義一組屬性值，使得應用程式能夠基於這些屬性值，來選擇Node Mananger，並將其應用的container部署到上面

文件：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/NodeAttributes.html

Web Application Proxy

叢集中執行應用的application master 需要提供一些web ui給ResourceManager，以便其統一管理。但叢集中可能有惡意應用，提供了具有安全風險的web ui. 為了降低安全風險，yarn 使用一個名為Web Application Proxy的應用。擁有接管Application Master提供給的web ui連結，將請求中的cookies 進行剝離，同時將不安全的連結標記出來。

預設情況下Web Application Proxy 是作為Resource Manager的一部分啟動。不需要單獨配置。如果要單獨部署，需要額外配置。
文件：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/WebApplicationProxy.html

YARN Timeline Server

能夠儲存和查詢當前、歷史的應用執行資訊。TimeLine Server中的儲存資料結構為

file

timeline Domain 對應一個使用者的應用列表
Time Entity 定義一個應用
Timeline Events定義該應用的執行事件，比如應用啟動，應用執行，應用結束等

Timeline Server分為V1和V2版本，V1版本將資料儲存在levelDb中，v2版將資料儲存在hbase中

文件：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/TimelineServer.html

基於yarn的API，編寫一個可以部署到yarn叢集執行的應用

https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/WritingYarnApplications.html

應用安全

yarn為了保證應用的執行安全，有一系列的機制先限制應用的許可權之類的

文件：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnApplicationSecurity.html

Node Manager

前面說了ResourceMananger 需要重啟後，能從原地繼續執行任務。Node Mananger在掛掉重啟後，也需要有相應的恢復特性。
其具體的配置，參見文件。

文件：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/NodeManager.html

Health Checker Service

Node Mananger的健康檢查服務，其提供兩種健康檢查器

Disk Checker 檢查node manager的磁碟健康狀況，並基於此上報給Resource Manager
External Health Script 管理員可以指定一些自定義的健康檢查指令碼，供Node Manager的 Health Checker Service呼叫

CGroups with YARN

yarn使用linux的CGroups實現資源隔離和控制，相關配置見文件：
https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html

Secure Containers

將各應用container 限制在提交他的使用者許可權下，不同使用者提交的應用container 不能訪問彼此的檔案、資料夾。具體配置
文件：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/SecureContainer.html

移除節點

有兩種方式：

normal 直接把要移除的節點從叢集中摘除
Gracefully 等待節點上的任務執行完畢後摘除
文件：https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/GracefulDecommission.html

Opportunistic Containers 機會主義容器

yarn一般只在對應的Node manager有資源時，才會將一個任務對應的container 分配到該NM. 但開啟Opportunistic Containers後，即便對應的node manager沒有資源，也會將contaienr 分配到NM，等到NM空閒時，馬上開始執行，是為機會主義者。這在一定程度能提高叢集的資源利用率。
文件：

配置部署

部署使用者。按照Hadoop官方的建議。yarn相關元件，使用yarn用來管理
file

基本部署方式

啟動RM

$HADOOP_HOME/bin/yarn --daemon start resourcemanager

啟動NM

$HADOOP_HOME/bin/yarn --daemon start nodemanager

啟動proxyServer

$HADOOP_HOME/bin/yarn --daemon start proxyserver

切換到mapred使用者下，啟動historyserver

$HADOOP_HOME/bin/mapred --daemon start historyserver

高效能部署

yarn本身由多個元件組成，且有些元件還有多個節點，比如nodemanager，一次啟動去到多個機器上執行是件很繁瑣的事情。hadoop髮型包，提供了sbin/start-yarn.sh 和 sbin/stop-yarn.sh兩個指令碼去啟停yarn相關的所有元件：比如nodemanager、resourcemanager、proxyserver 。

他實現的原理是，基於hadoop安裝包中的/opt/hadoop-3.2.1/etc/hadoop/workers檔案，去登入到相應的機器，完成元件的執行。workers中定義了所有datanode的機器host。登入方式是基於SSH的免密登入方式，具體配置參見：https://www.cnblogs.com/niceshot/p/13019823.html

如果發起指令碼執行的機器，本身也需要部署一個nodemanager。那麼他需要配置自己對自己的SSH免密登入

通yarn-site.xml ，指令碼已經可以知道resource manager的元件機器。所以workers檔案中，只需要設定所有的node manager的機器host

一般yarn的node manager會跟hdfs的 datanode部署在一起，所以hdfs的批量啟停，也是用的這個workers檔案。

但上面說的$HADOOP_HOME/bin/mapred --daemon start historyserver不屬於，只屬於mapreduce，所以還是要單獨啟停，通過yarn的相關指令碼是不能管理它的。之所以將這個historyserver放到yarn的文件中來寫，是為了偷懶，沒單獨搞一個mr的wend

一些錯誤

錯誤1

在yarn的管理介面，發現提交的sql，執行有以下錯誤

yarn錯誤
錯誤: 找不到或無法載入主類 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

問題原因是，yarn的類路徑有問題。通過hadoop官方的yarn-default.xml檔案得知，yarn載入的類路徑配置yarn.application.classpath的預設值為

$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/* For Windows: %HADOOP_CONF_DIR%, %HADOOP_COMMON_HOME%/share/hadoop/common/*, %HADOOP_COMMON_HOME%/share/hadoop/common/lib/*, %HADOOP_HDFS_HOME%/share/hadoop/hdfs/*, %HADOOP_HDFS_HOME%/share/hadoop/hdfs/lib/*, %HADOOP_YARN_HOME%/share/hadoop/yarn/*, %HADOOP_YARN_HOME%/share/hadoop/yarn/lib/*

路徑中的許多環境變數都沒有配置。解決辦法有2

將對應的環境變數配置上，以使yarn的預設配置能夠正常載入上。推薦這種
使用hadoop classpath命令，看下hadoop使用的類路徑都有哪些，將其拷貝出來，在yarn-site.xml中配置，舉例

yarn.application.classpath /opt/hadoop-3.2.1/etc/hadoop:/opt/hadoop-3.2.1/share/hadoop/common/lib/*:/opt/hadoop-3.2.1/share/hadoop/common/*:/opt/hadoop-3.2.1/share/hadoop/hdfs:/opt/hadoop-3.2.1/share/hadoop/hdfs/lib/*:/opt/hadoop-3.2.1/share/hadoop/hdfs/*:/opt/hadoop-3.2.1/share/hadoop/mapreduce/lib/*:/opt/hadoop-3.2.1/share/hadoop/mapreduce/*:/opt/hadoop-3.2.1/share/hadoop/yarn:/opt/hadoop-3.2.1/share/hadoop/yarn/lib/*:/opt/hadoop-3.2.1/share/hadoop/yarn/* ``` ### 錯誤2 通過historyserver，在Mapreduce階段，看到異常

org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at

原因，這是因為mr使用了mapreduce_shuffle輔助服務，但yarn沒有配置。
解決辦法，同樣是修改yarn-site.xml，在其中加入以下配置

<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
<property>
	<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
	<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

錯誤3

ontainer [pid=26153,containerID=container_e42_1594730232763_0121_02_000006] is running 598260224B beyond the 'VIRTUAL' memory limit. Current usage: 297.5 MB of 1 GB physical memory used; 2.7 GB of 2.1 GB virtual memory used. Killing container.
Dump of the process-tree for container_e42_1594730232763_0121_02_000006 :
        |- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS) SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES) FULL_CMD_LINE

錯誤的意思是，yarn分配給container的虛擬記憶體，超過了限制。原因是，一個container使用的記憶體，除了實體記憶體，還可以使用作業系統的虛擬記憶體，也即硬碟。

container分為兩種型別，map 和reduce。
決定map的container的實體記憶體大小為mapreduce.map.memory.mb
決定reduce的實體記憶體為mapreduce.reduce.memory.mb
決定map container所能申請的虛擬記憶體大小的公式是：mapreduce.map.memory.mb * yarn.nodemanager.vmem-pmem-ratio
決定reduce container所能申請的虛擬記憶體帶下是公式是：mapreduce.reduce.memory.mb * yarn.nodemanager.vmem-pmem-ratio。

所以要解決虛擬記憶體超限有兩個辦法：

增大container的實體記憶體大小。即增大mapreduce.map.memory.mb 或 mapreduce.reduce.memory.mb
增大虛擬記憶體申請的比率yarn.nodemanager.vmem-pmem-ratio

參考資料

https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.6.5/bk_yarn-resource-management/content/ref-c2ececdf-c68e-4095-99b5-15b4c31701ba.1.html

https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerRestart.html

https://web.archive.org/web/20170610145449/http://hortonworks.com/blog/how-to-plan-and-configure-yarn-in-hdp-2-0/

歡迎關注我的個人公眾號"西北偏北UP"，記錄程式碼人生，行業思考，科技評論

Apache Hadoop Yarn 學習（二）
2020-12-28
ApacheHadoopYarn
Hadoop學習筆記——————1、Hadoop概述
2018-07-16
Hadoop筆記
Hadoop 入門筆記—核心元件 YARN
2021-11-22
Hadoop筆記元件Yarn
Hadoop學習筆記—HDFS
2021-04-03
Hadoop筆記
Hadoop學習（二）——MapReduce\Yarn架構
2019-02-20
HadoopYarn架構
hadoop 偽分散式模式學習筆記
2018-10-16
Hadoop分散式模式筆記
大資料之 Hadoop學習筆記
2018-12-14
大資料Hadoop筆記
Hadoop 學習系列（三）之 YARN 詳細解析
2018-10-04
HadoopYarn
hadoop學習記錄
2024-07-20
Hadoop
Hadoop學習筆記（1）：概念和整體架構
2019-01-23
Hadoop筆記架構
hadoop_MapReduce yarn
2020-11-11
HadoopYarn
HADOOP-YARN-JDK
2020-10-01
HadoopYarnJDK
Hadoop YARN 架構
2021-12-26
HadoopYarn架構
numpy的學習筆記\pandas學習筆記
2018-03-18
筆記
Hadoop-Yarn架構
2020-10-01
HadoopYarn架構
大資料學習筆記之Hadoop安裝步驟詳解
2019-05-15
大資料筆記Hadoop
學習筆記
2024-04-14
筆記
Hadoop Yarn框架詳細解析
2019-01-07
HadoopYarn框架
hadoop之yarn（優化篇）
2020-11-13
HadoopYarn優化
Hadoop Yarn框架原理解析
2019-02-17
HadoopYarn框架
Hadoop面試題（四）——YARN
2021-10-24
Hadoop面試題Yarn
hadoop課堂筆記
2018-12-20
Hadoop筆記
Hadoop學習
2024-07-30
Hadoop
【學習筆記】數學
2024-07-15
筆記
前端工具使用筆記（yarn,cnpm,nrm)
2019-05-04
前端筆記YarnNPM
《JAVA學習指南》學習筆記
2019-03-24
Java筆記
機器學習學習筆記
2021-06-01
機器學習筆記
學習筆記-粉筆980
2024-10-14
筆記
學習筆記（3.29）
2019-03-31
筆記
學習筆記（4.1）
2019-04-01
筆記
學習筆記（3.25）
2019-03-25
筆記
學習筆記（3.26）
2019-03-26
筆記
JavaWeb 學習筆記
2018-10-28
JavaWeb筆記
golang 學習筆記
2019-03-26
Golang筆記
Nginx 學習筆記
2018-11-02
Nginx筆記
spring學習筆記
2019-01-05
Spring筆記
gPRC學習筆記
2018-11-25
筆記
GDB學習筆記
2018-12-08
筆記