Standalone模式下，通過Systemd管理Flink1.11.1的啟停及異常退出

靜若清池發表於2021-05-04

原文網址 : https://www.cnblogs.com/liugh/p/14729763.html

Flink以Standalone模式執行時，可能會發生jobmanager（以下簡稱jm）或taskmanager（以下簡稱tm）異常退出的情況，我們可以使用Linux自帶的Systemd方式管理jm以及tm的啟停，並在jm或tm出現故障時，及時將jm以及tm拉起來。

Flink在1.11版本後，從發行版中移除了對Hadoop的依賴包，如果需要使用Hadoop的一些特性，有兩種解決方案：

【注】以下假設java、flink、hadoop都安裝在/opt目錄下，並且都建立了軟連線：

1.設定HADOOP_CLASSPATH環境變數（推薦方案）

在安裝了Flink的所有節點上，在/etc/profile中進行如下設定：

# Hadoop Env
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CLASSPATH=`hadoop classpath`

然後通過以下命令使環境變數生效

sudo source /etc/profile

2.下載flink-shaded-hadoop-2-uber對應的jar包，並拷貝到Flink安裝路徑的lib目錄下

下載地址：https://flink.apache.org/downloads.html#additional-components

由於以systemd方式啟動時，系統設定的環境變數，在.service檔案中是不能使用的，所以需要在.service檔案中單獨顯式設定環境變數：

1./usr/lib/systemd/system/flink-jobmanager.service

[Unit]
Description=Flink Job Manager
After=syslog.target network.target remote-fs.target nss-lookup.target network-online.target
Requires=network-online.target

[Service]
User=teld
Group=teld
Type=forking
Environment=PATH=/opt/java/bin:/opt/flink/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin
Environment=JAVA_HOME=/opt/java
Environment=FLINK_HOME=/opt/flink
Environment=HADOOP_CLASSPATH=/opt/hadoop/etc/hadoop:/opt/hadoop/share/hadoop/common/lib/*:/opt/hadoop/share/hadoop/common/*:/opt/hadoop/
share/hadoop/hdfs:/opt/hadoop/share/hadoop/hdfs/lib/*:/opt/hadoop/share/hadoop/hdfs/*:/opt/hadoop/share/hadoop/yarn/lib/*:/opt/hadoop/sh
are/hadoop/yarn/*:/opt/hadoop/share/hadoop/mapreduce/lib/*:/opt/hadoop/share/hadoop/mapreduce/*:/opt/hadoop/contrib/capacity-scheduler/*
.jar
ExecStart=/opt/flink/bin/jobmanager.sh start
ExecStop=/opt/flink/bin/jobmanager.sh stop

Restart=on-failure

[Install]
WantedBy=multi-user.target

【注】HADOOP_CLASSPATH對應的值，是通過執行以下命令獲得到的：

hadoop classpath

2./usr/lib/systemd/system/flink-taskmanager.service

[Unit]
Description=Flink Task Manager
After=syslog.target network.target remote-fs.target nss-lookup.target network-online.target
Requires=network-online.target

[Service]
User=teld
Group=teld
Type=forking
Environment=PATH=/opt/java/bin:/opt/flink/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin
Environment=JAVA_HOME=/opt/java
Environment=FLINK_HOME=/opt/flink
Environment=HADOOP_CLASSPATH=/opt/hadoop/etc/hadoop:/opt/hadoop/share/hadoop/common/lib/*:/opt/hadoop/share/hadoop/common/*:/opt/hadoop/
share/hadoop/hdfs:/opt/hadoop/share/hadoop/hdfs/lib/*:/opt/hadoop/share/hadoop/hdfs/*:/opt/hadoop/share/hadoop/yarn/lib/*:/opt/hadoop/sh
are/hadoop/yarn/*:/opt/hadoop/share/hadoop/mapreduce/lib/*:/opt/hadoop/share/hadoop/mapreduce/*:/opt/hadoop/contrib/capacity-scheduler/*
.jar
ExecStart=/opt/flink/bin/taskmanager.sh start
ExecStop=/opt/flink/bin/taskmanager.sh stop

Restart=on-failure

[Install]
WantedBy=multi-user.target

【注】HADOOP_CLASSPATH對應的值，是通過執行以下命令獲得到的：

hadoop classpath

通過sudo systemctl daemon-reload命令來載入上面針對jm以及tm的配置後，就可以使用Systemd的方式來管理jm以及tm了，並且能夠在jm以及tm異常退出時，及時將它們拉起來：

sudo systemctl start flink-jobmanager.service
sudo systemctl stop flink-jobmanager.service
sudo systemctl status flink-jobmanager.service

sudo systemctl start flink-taskmanager.service
sudo systemctl stop flink-taskmanager.service
sudo systemctl status flink-taskmanager.service

遇到的坑：

1.如果Flink設定了啟用Checkpoint，但是沒有設定HADOOP_CLASSPATH環境變數，則提交job的時候，會報如下異常：

Caused by: org.apache.flink.util.FlinkRuntimeException: Failed to create checkpoint storage at checkpoint coordinator side.
at org.apache.flink.runtime.checkpoint.CheckpointCoordinator.<init>(CheckpointCoordinator.java:304)
at org.apache.flink.runtime.checkpoint.CheckpointCoordinator.<init>(CheckpointCoordinator.java:223)
at org.apache.flink.runtime.executiongraph.ExecutionGraph.enableCheckpointing(ExecutionGraph.java:483)
at org.apache.flink.runtime.executiongraph.ExecutionGraphBuilder.buildGraph(ExecutionGraphBuilder.java:338)
at org.apache.flink.runtime.scheduler.SchedulerBase.createExecutionGraph(SchedulerBase.java:269)
at org.apache.flink.runtime.scheduler.SchedulerBase.createAndRestoreExecutionGraph(SchedulerBase.java:242)
at org.apache.flink.runtime.scheduler.SchedulerBase.<init>(SchedulerBase.java:229)
at org.apache.flink.runtime.scheduler.DefaultScheduler.<init>(DefaultScheduler.java:119)
at org.apache.flink.runtime.scheduler.DefaultSchedulerFactory.createInstance(DefaultSchedulerFactory.java:103)
at org.apache.flink.runtime.jobmaster.JobMaster.createScheduler(JobMaster.java:284)
at org.apache.flink.runtime.jobmaster.JobMaster.<init>(JobMaster.java:272)
at org.apache.flink.runtime.jobmaster.factories.DefaultJobMasterServiceFactory.createJobMasterService(DefaultJobMasterServiceFac
tory.java:98)
at org.apache.flink.runtime.jobmaster.factories.DefaultJobMasterServiceFactory.createJobMasterService(DefaultJobMasterServiceFac
tory.java:40)
at org.apache.flink.runtime.jobmaster.JobManagerRunnerImpl.<init>(JobManagerRunnerImpl.java:140)
at org.apache.flink.runtime.dispatcher.DefaultJobManagerRunnerFactory.createJobManagerRunner(DefaultJobManagerRunnerFactory.java
:84)
at org.apache.flink.runtime.dispatcher.Dispatcher.lambda$createJobManagerRunner$6(Dispatcher.java:388)
... 7 more
Caused by: org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: Could not find a file system implementation for scheme 'hdfs'.
 The scheme is not directly supported by Flink and no Hadoop file system to support this scheme could be loaded. For a full list of supp

2.在為flink-jobmanager.service以及flink-taskmanager.service中的HADOOP_CLASSPATH環境變數賦值時，嘗試使用過反引號，期望將反引號內的Linux命令執行結果賦予變數，但實際上並不會執行反引號中的內容：

Environment=HADOOP_CLASSPATH=`/opt/hadoop/bin/hadoop classpath`

最後只得將直接執行hadoop classpath獲得的結果，貼上到.service檔案中

Environment=HADOOP_CLASSPATH=/opt/hadoop/etc/hadoop:/opt/hadoop/share/hadoop/common/lib/*:/opt/hadoop/share/hadoop/common/*:/opt/hadoop/
share/hadoop/hdfs:/opt/hadoop/share/hadoop/hdfs/lib/*:/opt/hadoop/share/hadoop/hdfs/*:/opt/hadoop/share/hadoop/yarn/lib/*:/opt/hadoop/sh
are/hadoop/yarn/*:/opt/hadoop/share/hadoop/mapreduce/lib/*:/opt/hadoop/share/hadoop/mapreduce/*:/opt/hadoop/contrib/capacity-scheduler/*
.jar

QPainter呼叫setBrush異常退出
2024-06-26
AI
通過 Systemd Journal 收集日誌
2019-03-11
Golang 啟停管理及後臺執行
2020-03-20
Golang
api模式下修改異常類Exception
2021-04-29
API模式Exception
standalone執行模式下應用模式作業部署
2024-05-11
模式
nodejs程式異常退出處理方法
2019-01-02
NodeJS
阿里雲異常流量及異常網路連線的安全解決過程
2022-09-01
阿里
WPF 通過程式實現異常隔離的客戶端
2021-09-17
客戶端
安卓MVP模式下的Rxjava+Retrofit統一異常處理與生命週期管理
2019-03-25
安卓MVP模式RxJava
restframework 異常處理及自定義異常
2018-07-09
RESTFramework
一次訊號量引發的tomcat異常退出
2019-06-28
Tomcat
Supervisor多程式管理異常自動重啟視覺化管理
2022-02-07
視覺化
Spark Standalone模式高可用部署
2020-11-12
Spark模式
異常及捕獲
2024-12-06
MVC使用異常過濾器處理異常
2020-10-22
MVC過濾器
聊天平臺原始碼，啟動異常進入recovery模式
2021-11-10
原始碼模式
通過 Org 模式管理 Chromium 和 Firefox 會話
2020-02-24
模式Firefox會話
Redis CVE-2020-14147導致例項異常退出
2022-11-28
Redis
Windows上搭建Standalone模式的Spark環境
2021-09-09
Windows模式Spark
spark 2.1.0 standalone模式配置&&打包jar包透過spark-submit提交
2018-10-08
Spark模式JARMIT
聊一聊容器暫停退出
2022-05-26
JAVA: 捕捉啟動時的異常
2024-03-09
Java
某客戶系統weblogic主備模式異常重啟事件
2020-09-22
Web模式事件
Ionic異常及解決
2018-03-09
儲存過程——異常捕獲&列印異常資訊
2020-05-13
儲存過程
前端JavaScript 常見的報錯及異常捕獲
2020-11-30
前端JavaScript
Linux：使用systemd管理程式
2021-03-06
Linux
部署spark2.2叢集(standalone模式)
2022-08-08
Spark模式
異常處理遇到過的那些坑
2019-01-31
MySQL：mysqldump 匯出資料異常重啟及drop棧幀
2018-09-13
MySql
win10 winform 異常退出 kernelbase.dll解決辦法
2020-05-14
Win10ORM
bug及異常處理1
2020-11-24
CentOS 常見異常及解決辦法
2020-11-15
CentOS
React Native Android 啟動異常
2018-12-12
React NativeAndroid
解密下經常讓新人抓狂的 ThrottleRequests::addHeaders () 異常
2019-10-22
解密Header
異常-異常的注意事項
2018-09-05
Linux守護程式及Systemd
2021-08-16
Linux
深入理解Spark 2.1 Core （五）：Standalone模式
2021-09-09
Spark模式

Standalone模式下，通過Systemd管理Flink1.11.1的啟停及異常退出

相關文章