Flink on Yarn三部曲之三：提交Flink任務

程式設計師欣宸發表於2022-12-04

原文網址 : http://blog.itpub.net/70017844/viewspace-2926613/

Yarn

歡迎訪問我的GitHub

https://github.com/zq2599/blog_demos

內容：所有原創文章分類彙總及配套原始碼，涉及Java、Docker、Kubernetes、DevOPS等；

本文是《Flink on Yarn三部曲》系列的終篇，先簡單回顧前面的內容：

《Flink on Yarn三部曲之一：準備工作》：準備好機器、指令碼、安裝包；
《Flink on Yarn三部曲之二：部署和設定》：完成CDH和Flink部署，並在管理頁面做好相關的設定；

現在Flink、Yarn、HDFS都就緒了，接下來實踐提交Flink任務到Yarn執行；

全文連結

兩種Flink on YARN模式

實踐之前，對Flink on YARN先簡單瞭解一下，如下圖所示，Flink on Yarn在使用的時候分為兩種模式，Job Mode和Session Mode：
在這裡插入圖片描述
Session Mode：在YARN中提前初始化一個Flink叢集，以後所有Flink任務都提交到這個叢集，如下圖：

Job Mode：每次提交Flink任務都會建立一個專用的Flink叢集，任務完成後資源釋放，如下圖：

接下來分別實戰這兩種模式；

準備實戰用的資料(CDH伺服器)

接下來提交的Flink任務是經典的WordCount，先在HDFS中準備一份文字檔案，後面提交的Flink任務都會讀取這個檔案，統計裡面每個單詞的數字，準備文字的步驟如下：

SSH登入CDH伺服器；
切換到hdfs賬號：su - hdfs
下載實戰用的txt檔案：

wget https://github.com/zq2599/blog_demos/blob/master/files/GoneWiththeWind.txt

建立hdfs資料夾：hdfs dfs -mkdir /input
將文字檔案上傳到/input目錄：hdfs dfs -put ./GoneWiththeWind.txt /input

準備工作完成，可以提交任務試試了。

Session Mode實戰

SSH登入CDH伺服器；
切換到hdfs賬號：su - hdfs
進入目錄：/opt/flink-1.7.2/
執行如下命令建立Flink叢集，-n參數列示TaskManager的數量，-jm表示JobManager的記憶體大小，-tm表示每個TaskManager的記憶體大小：

./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024

建立成功後，控制檯輸出如下圖，注意紅框中的提示，表明可以通過38301埠訪問Flink：
瀏覽器訪問CDH伺服器的38301埠，可見Flink服務已經啟動：
瀏覽器訪問CDH伺服器的8088埠，可見YARN的Application(即Flink叢集)建立成功，如下圖，紅框中是任務ID，稍後結束Application的時候會用到此ID：
再開啟一個終端，SSH登入CDH伺服器，切換到hdfs賬號，進入目錄：/opt/flink-1.7.2
執行以下命令，就會提交一個Flink任務（安裝包自帶的WordCount例子），並指明將結果輸出到HDFS的wordcount-result.txt檔案中：

bin/flink run ./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result.txt

執行完畢後，控制檯輸出如下：
flink的WordCount任務結果儲存在hdfs，我們將結果取出來看看：hdfs dfs -get /wordcount-result.txt
vi開啟wordcount-result.txt檔案，如下圖，可見任務執行成功，指定文字中的每個單詞數量都統計出來了：
瀏覽器訪問Flink頁面(CDH伺服器的38301埠)，也能看到任務的詳細情況：
銷燬這個Flink叢集的方法是在控制檯執行命令：yarn application -kill application_1580173588985_0002

Session Mode的實戰就完成了，接下來我們來嘗試Job Mode；

Job Mode

執行以下命令，建立一個Flink叢集，該叢集只用於執行引數中指定的任務(wordCount.jar)，結果輸出到hdfs的wordcount-result-1.txt檔案：

bin/flink run -m yarn-cluster \
-yn 2 \
-yjm 1024 \
-ytm 1024 \
./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result-1.txt

控制檯輸出如下，表明任務執行完成：
如果您的記憶體和CPU核數充裕，可以立即執行以下命令再建立一個Flink叢集，該叢集只用於執行引數中指定的任務(wordCount.jar)，結果輸出到hdfs的wordcount-result-2.txt檔案：

bin/flink run -m yarn-cluster \
-yn 2 \
-yjm 1024 \
-ytm 1024 \
./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result-2.txt

在YARN管理頁面可見任務已經結束：
執行命令hdfs dfs -ls /檢視結果檔案，已經成功生成：
執行命令hdfs dfs -get /wordcount-result-1.txt下載結果檔案到本地，檢查資料正常；
至此，Flink on Yarn的部署、設定、提交都實踐完成，《Flink on Yarn三部曲》系列也結束了，如果您也在學習Flink，希望本文能夠給您一些參考，也建議您根據自身情況和需求，修改ansible指令碼，搭建更適合自己的環境；

歡迎關注公眾號：程式設計師欣宸

微信搜尋「程式設計師欣宸」，我是欣宸，期待與您一同暢遊Java世界...
https://github.com/zq2599/blog_demos

Flink Yarn的2種任務提交方式
2021-10-24
Yarn
本地環境提交flink on yarn作業
2024-11-29
Yarn
Flink原始碼剖析：Jar包任務提交流程
2021-01-19
原始碼JAR
Flink on Yarn三部曲之一：準備工作
2022-12-02
Yarn
Flink的DataSource三部曲之三:自定義
2020-11-07
Flink on Yarn三部曲之二：部署和設定
2022-12-03
Yarn
【Flink】深入理解Flink-On-Yarn模式
2019-07-05
Yarn模式
《Flink SQL任務自動生成與提交》後續：修改flink原始碼實現kafka connector BatchMode
2022-01-12
SQL原始碼KafkaBAT
Flink On YARN 遠端 debug
2023-03-13
Yarn
IDEA上執行Flink任務
2022-12-10
Idea
Flink - Task 任務排程執行流程
2023-03-25
高可用Flink on YARN叢集快速配置
2020-11-09
Yarn
flink學習（加餐）——job任務狀態變化
2020-12-03
Flink啟動Yarn session模式的部署報錯
2022-12-11
YarnSession模式
Flink的sink實戰之三：cassandra3
2020-11-10
Flink 叢集執行原理兼部署及Yarn執行模式深入剖析-Flink牛刀小試
2019-03-04
Yarn模式
Flink On Yarn 作業啟動速度之最佳化
2022-12-26
Yarn
Flink處理函式實戰之三：KeyedProcessFunction類
2020-11-21
函式Function
Flink的DataSource三部曲之一：直接API
2020-11-05
API
如何遷移開源 Flink 任務到實時計算Flink版？實戰手冊來幫忙！
2021-10-08
沒有了可用Task slot，Flink新增任務會怎樣？
2022-07-19
Flink提交Job的方式以及引數設定
2023-09-28
flink1.10版local模式提交job流程分析
2020-11-19
模式
Flink的DataSource三部曲之二:內建connector
2020-11-06
Apache DolphinScheduler大規模任務排程系統對大資料實時Flink任務支援
2024-09-02
Apache大資料
記一次hadoop yarn環境無法提交任務的問題排查
2024-04-19
HadoopYarn
[Flink/FlinkCDC] 實踐總結：Flink 1.12.6 升級 Flink 1.15.4
2024-10-31
【Flink】Flink 底層RPC框架分析
2019-07-02
RPC框架
[Flink] Flink 版本特性的演進
2024-10-24
開源專案推薦 - 巨鯨任務排程平臺（Spark、Flink）
2020-07-26
Spark
flink實戰--讀寫Hive（Flink on Hive）
2019-08-28
Hive
flink快速入門（部署+flink-sql）
2020-12-26
SQL
Yarn任務優先順序配置
2023-11-22
Yarn
一張圖輕鬆掌握 Flink on YARN 應用啟動全流程（上）
2019-09-25
Yarn
分散式事務（二）之三階段提交
2021-11-02
分散式
Flink gelly
2018-09-21
Flink API
2024-06-15
API
Flink模式
2023-03-12
模式