保姆級教程!玩轉 ChunJun 詳細指南
是一款穩定、易用、高效、批流一體的資料整合框架,⽀持海量資料的同步與計算。 既可以採集靜態的資料,比如 MySQL,HDFS 等,也可以採集實時變化的資料,比如 binlog,Kafka 等。同時 也是一個支援原生 FlinkSQL 所有語法和特性的計算框架。
經過5年的迭代和開發,ChunJun 已經幫助很多公司快速進行資料整合,並解決資料開發人員需要過多進行繁瑣的資料抽取工作的問題,可以專注在企業業務場景的構建。
之前的內容當中,我們已經介紹過 ChunJun 的技術力、優勢,及如何提交 pr、Issue 的方法。作為「chunJun 新手入門」系列的第三篇,本文將為大家介紹如何配置一個 ChunJun 任務以及透過 ChunJun Client 端提交任務的流程等內容,教會大家更好地玩轉 ChunJun。
ChunJun 新手入門
ChunJun 地址
官網:
GitHub:
Gitee:
https://gitee.com/dtstack_dev_0/chunjun
配置一個 ChunJun 任務
ChunJun 的任務指令碼⽀持兩種模式:Sync(Json) 和 SQL,前者配置更加豐富,底層使⽤的是 StreamAPI,在同步場景使⽤的較多;後者藉助 Flink SQL 本身的能⼒,利⽤ SQL 實現對資料的聚合等計算操作,底層使⽤的是 TableAPI。
Sync
同步任務使⽤的 Json 格式的配置⽂件,透過配置 Source/Sink 來完成資料的 EL 流程。⼀個同步任務的基本結構如下:
{ "job": { "content": [ { "nameMapping": {}, "reader": { "parameter": {}, "name": "reader" }, "writer": { "parameter": {}, "name": "writer" }, "restoration": { "cache": { "properties": {} }, "workerMax": 3, "workerSize": 3, "workerNum": 2, "ddl": { "properties": {} } } } ], "setting": { "restore": {},
● Job 整個任務的引數配置
1)同步任務的算⼦配置,如 Reader/Writer/Restoration 等。
• nameMapping:表名對映配置,⽤在 CDC 場景
• reader:同步任務 reader 的配置
• writer:同步任務writer的配置
• restoration:資料還原相關配置
2)setting 系統的⼀些引數配置,如增量同步(restore)、流控(speed)等。
SQL
ChunJun 的 SQL 任務直接沿⽤了 FlinkSQL 的引擎。詳細⽂檔請看:
https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/dev/table/overview/
● DDL
CREATE TABLE xx(xxx) WITH(xxx); CREATE VIEW xxx
● DML
INSERT INTO xxx;
獲取 ChunJun
前置準備
· Java(JDK8);
· Maven(3.6.3,版本太低會找不到對應的 jar,另外,⾼版本的 Maven 對倉庫地址強制要求是 HTTPS,會存在倉庫地址訪問失敗的情況)
ChunJun 下載
● release 下載
ChunJun release 下載地址:
● 原始碼編譯
原始碼下載:
ChunJun 是透過 Maven 來進⾏程式碼依賴管理,對應的打包命令是:
mvn clean package -Dmaven.test.skip
ChunJun 使⽤的是 spotless 外掛來進⾏程式碼⻛格管理,在修改原始碼之後打包,需要對原始碼先執⾏下 mvn spotless:apply 命令來進⾏程式碼格式化,否則會出現格式化不合規問題。
● 目錄結構
chunjun-dist ├── chunjun-core.jar ├── connector ├── ddl ├── dirty-data-collector ├── docker-build ├── metrics └── restore-plugins
透過 ChunJun Client 端提交任務
透過 LocalTest、Standalone、Yarn Session、Yarn Perjob 四種模式為大家介紹如何透過ChunJun Client 端提交任務。
LocalTest 模式(適⽤於本地除錯)
Local Test 模式是針對開發者同學⽤來進行本地測試驗證的模組,只需要修改 main() 中的 jobPath 路徑即可,需要注意,同步任務的指令碼請以 json ⽂件結尾,計算任務的指令碼請以 sql ⽂件結尾。
Standalone 模式
● 環境準備
下載 Flink 並解壓
wget " tar -zxvf flink-<flink.version>-bin-scala_<scala.version>.tgz
● 配置 ChunJun
1)下載 ChunJun 並解壓
wget " tar -zxvf chunjun-dist.tar.gz
2)將 ChunJun-Dist 內容複製到 Flink Lib ⽬錄下並啟動 Flink Standalone 叢集
# copy the chunjun-dist to the flink_lib cp -r chunjun-dist $FLINK_HOME/lib # start flink standalone cluster sh $FLINK_HOME/bin/start-cluster.sh
3)在 Flink classpath 中可以看到 ChunJun 相關 jar,表示啟動成功;
● 提交任務
sh $CHUNJUN_DIST/bin/chunjun-standalone.sh <task-script path>
命令執⾏成功之後,即可在 Flink WEB UI 中看到對應的任務。
Yarn Session 模式
● 環境準備
1)下載 ChunJun 並解壓
wget " tar -zxvf chunjun-dist.tar.gz
2)下載 ChunJun 並提交到 Yarn Session 叢集中
sh $FLINK_HOME/bin?yarn-session.sh -t $CHUNJUN_DIST -d
· 執⾏命令成功之後,即可在Yarn Session ⽇志,對應Classpath 部分中看到 ChunJun 相關的jar, 表示啟動成功;
· 記錄當前 Yarn Session 的,並將任務提交到指定 Session中;
sh ./bin/chunjun-yarn-session.sh -job <task-script path> -confProp {\"yarn.application.id\":\"<ApplicationID>\"}
之後就可以在 Yarn Session 中看到對應的任務,注意以下兩點:
• 如果將 yarn.application.id 配置到 flink-conf.yaml,那麼使⽤這份配置⽂件的任務都會提交到這個 id 的 session 中;
• 如果將 yarn.application.id 配置到 confProp,那麼僅有當前任務會提交到這個 id 的 session 中。
Yarn Perjob 模式
後續會廢棄這種模式,改⽤ Application 模式。
● 環境準備
下載 Flink 並解壓
wget " tar -zxvf flink-<flink.version>-bin-scala_<scala.version>.tgz
● 配置 ChunJun
下載 ChunJun 並解壓
wget " tar -zxvf chunjun-dist.tar.gz
● 提交任務
sh ./bin/chunjun-yarn-perjob.sh -job <task-script path>
執⾏成功之後,可以在 Yarn Web UI 中看到相關任務。
除錯 ChunJun 程式碼
除錯程式碼能夠更好地定位問題,並解決問題。下⾯將為開發者介紹如何快速除錯 ChunJun 程式碼:
本地除錯
ChunJun 為開發者準備了⼀個 local-test 模組,替換 main ⽅法中的 jobPath 即可。需要提前將相關外掛配置在 local-test 模組的 pom 中,部分外掛相互存在依賴衝突,需要開發者關注下。
遠端除錯
在 flink-conf.yaml 中配置 debug 端⼝即可(端⼝號可以⾃⼰定義)。
# debug jobmanager env.java.opts.jobmanager: -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005 # debug taskmanager env.java.opts.taskmanager: -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5006
《資料治理行業實踐白皮書》下載地址:
想了解更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2941413/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 保姆級 | MySQL的安裝配置教程(非常詳細)MySql
- 《吐血整理》保姆級系列教程-玩轉Fiddler抓包教程(5)-Fiddler監控皮膚詳解
- 🔥《吐血整理》保姆級系列教程 - 玩轉 Fiddler 抓包教程 (6)-Fiddler 狀態皮膚詳解
- 《熬夜整理》保姆級系列教程-玩轉Wireshark抓包神器教程(1)-初識Wireshark
- 《爆肝整理》保姆級系列教程-玩轉Charles抓包神器教程(3)-再識Charles
- 《爆肝整理》保姆級系列教程-玩轉Charles抓包神器教程(15)-Charles如何配置反向代理
- 《吐血整理》保姆級系列教程-玩轉Fiddler抓包教程(7)-Fiddler狀態皮膚-QuickExec命令列UI命令列
- SpringCloud搭建保姆級教程SpringGCCloud
- 《爆肝整理》保姆級系列教程-玩轉Charles抓包神器教程(16)-Charles其他騷操作之大結局
- 《爆肝整理》保姆級系列教程-玩轉Charles抓包神器教程(14)-Charles過濾網路請求
- 轉 Git使用詳細教程Git
- 《熬夜整理》保姆級系列教程-玩轉Wireshark抓包神器教程(2)-Wireshark在Windows系統上安裝部署Windows
- 《爆肝整理》保姆級系列教程-玩轉Charles抓包神器教程(11)-Charles如何模擬弱網環境
- 《爆肝整理》保姆級系列教程-玩轉Charles抓包神器教程(8)-Charles如何進行斷點除錯斷點除錯
- 《爆肝整理》保姆級系列教程-玩轉Charles抓包神器教程(4)-Charles如何設定捕獲會話會話
- graspnet復現保姆級教程
- SeaweedFS + TiKV 部署保姆級教程
- 《爆肝整理》保姆級系列教程-玩轉Charles抓包神器教程(13)-Charles如何進行Mock和介面測試Mock
- 【轉】Python之Numpy詳細教程Python
- 🔥《吐血整理》保姆級系列教程 - 玩轉 Fiddler 抓包教程 (3)-再識 Fiddler 讓你感性認識一下
- 🔥《吐血整理》保姆級系列教程 - 玩轉 Fiddler 抓包教程 (2)-初識 Fiddler 讓你理性認識一下
- 分散式事務保姆級教程分散式
- RabbitMQ保姆級教程最佳實踐MQ
- VSCode安裝使用教程,保姆級!VSCode
- ROS通訊方式(保姆級教程)ROS
- Android Studio安裝教程(超級詳細)Android
- Hive視窗函式保姆級教程Hive函式
- 《爆肝整理》保姆級系列教程-玩轉Charles抓包神器教程(10)-Charles如何修改請求引數和響應資料-下篇
- 《爆肝整理》保姆級系列教程-玩轉Charles抓包神器教程(9)-Charles如何修改請求引數和響應資料-上篇
- Ctyun系統升級OpenSSH 9.3詳細教程
- 保姆級mysql安裝教程+下載教程-附視訊教程MySql
- 保姆級教程,透視分析真的不難
- 保姆教程系列:Git 實用命令詳解Git
- 埠轉發工具Rinetd詳細入門教程
- macos11正式版升級詳細教程Mac
- Dell Latitude 7300 安裝 Centos 7.6 保姆級教程CentOS
- 保姆級教程 | Merge Request 分支合併請求
- 用 Python 寫個貪吃蛇,保姆級教程!Python