用DolphinScheduler輕鬆實現Flume資料採集任務自動化!

海豚调度發表於2024-04-24

file

轉載自天地風雷水火山澤

目的

因為我們的數倉資料來源是Kafka,離線數倉需要用Flume採集Kafka中的資料到HDFS中。
在實際專案中,我們不可能一直在Xshell中啟動Flume任務,一是因為專案的Flume任務很多,二是一旦Xshell頁面關閉Flume任務就會停止,這樣非常不方便,因此必須在後臺啟動Flume任務。
所以經過測試後,我發現海豚排程器也可以啟動Flume任務。
file

海豚排程Flume任務配置

(一)Flume在Linux中的路徑
file

(二)Flume任務檔案在Linux中的位置以及任務檔名
file

(三)在海豚中配置執行指令碼
file

#!/bin/bash
source /etc/profile

/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意:/usr/local/hurys/dc_env/flume/flume190/為Flume在Linux中的安裝,根據自己安裝路徑進行調整
(四)海豚任務配置好後就可以啟動海豚任務
file

(五)在HDFS對應資料夾中驗證是否採集到資料
file
可以看到,Flume採集Kafka資料成功寫入到HDFS中,成功實現用Apache DolphinScheduler執行Flume任務的目的!
原文連結:
https://blog.csdn.net/tiantang2renjian/article/details/136399112

本文由 白鯨開源 提供釋出支援!

相關文章