開源共建 | Dinky 擴充套件批流統一資料整合框架 ChunJun 的實踐分享
一、前言
ChunJun(原 FlinkX)是一個基於 Flink 提供易用、穩定、高效的批流統一的資料整合工具,既可以採集靜態的資料,比如 MySQL,HDFS 等,也可以採集實時變化的資料,比如 binlog,Kafka 等。同時 ChunJun 也是一個支援原生 FlinkSql 所有語法和特性的計算框架。
ChunJun 具有豐富的外掛種類,多達 40 種,如常見的 mysql、binlog、logminer 等,大部分外掛都支援 source/reader、sink/writer 及維表功能。目前很多使用者在思考能否在 Dinky 上使用 ChunJun 的外掛以提供更全面的能力。那本文將帶來如何在 Dinky 上整合 ChunJun 豐富的外掛,其實簡單,那我們開始吧。
二、部署 Flink+ChunJun
編譯
注意,如果需要整合 Dinky,需要將 ChunJun 專案下的 chunjun-core 的 pom 檔案中的 logback-classic 和 logback-core 註釋掉,否則容易在 Dinky 執行 sql 任務的時候報錯。
然後執行:
部署
使用 ChunJun 需要先部署 Flink 叢集,其部署本文不再做指導。
值得注意的是,如果你需要呼叫 Flinkx 的 connect jar 的話,則需要將 classloader.resolve-order 改成 parent-first。修改完成配置以後,把 Flinkx 的 jar 包複製過來,主要是 chunjun-clients-master.jar(Flinkx 現在改名 ChunJun )以及 chunjun 的其它 connector 放到 flink/lib 目錄下,如圖所示。
異常處理
如果啟動叢集時出現異常,即 Flink standalone 叢集載入 flinkx-dist 裡 jar 包之後,叢集無法啟動,日誌報錯:Exception in thread "main" java.lang.NoSuchFieldError: EMPTY_BYTE_ARRAY.
Exception in thread"main"java.lang.NoSuchFieldError:EMPTY_BYTE_ARRAY at org.apache.logging.log4j.core.config.ConfigurationSource.<clinit>(ConfigurationSource.java:56) at org.apache.logging.log4j.core.config.NullConfiguration.< init>(NullConfiguration.java:32) at org.apache.logging.log4j.core.LoggerContext.< clinit>(LoggerContext.java:85) at java.lang.Class.forName0(Native Method) at java.lang.Class.forName(Class.java:264) at org.apache.log4j.LogManager.< clinit>(LogManager.java:72) at org.slf4j.impl.Log4jLoggerFactory.getLogger(Log4jLoggerFactory.java:73) at org.slf4j.LoggerFactory.getLogger(LoggerFactory.java:285) at org.slf4j.LoggerFactory.getLogger(LoggerFactory.java:305) at org.apache.flink.runtime.entrypoint.ClusterEntrypoint.< clinit>(ClusterEntrypoint.java:107)
原因:這個報錯是因為 log4j 版本不統一導致的,因為 flinkx-dist 中部分外掛引用的還是舊版本的 log4j 依賴,導致叢集啟動過程中,出現了類衝突問題;
方案:臨時方案是將 flink lib 中 log4j 相關的 jar 包名字前加上字元 ‘a‘,使得 flink standalone jvm 優先載入。
三、部署 Dinky
編譯
編譯完成後的壓縮包在 Dinky 根目錄下的 build 資料夾下。
部署
1、上傳 dlink 壓縮包到部署伺服器
2、解壓
3、資料庫初始化
4、把 flink 的 jar 放到 dlink 目錄下
切換 Dinky 的 Flink 版本
因為目前 flinkx 的穩定版本是 1.12.7,所以我們把 dlink 預設的 client 版本修改為 1.12
lib 下的目錄如圖:
注意:因為我沒有用上 dlink-connector-jdbc 的 jar 包,所以圖中的 dlink-connector-jdbc-1.13-0.6.4-SNAPSHOT.jar 沒有換成 1.12 版本的,可以去掉。
啟動
啟動命令
註冊叢集例項
在叢集例項中註冊已經啟動的 Flink 叢集。
四、示例分享
新增依賴
這裡演示 mysql->mysql 的同步作業,所以需要 Flinkx 的 mysql-connector.jar 以及核心 jar。
編寫作業
Mysql DDL:
CREATE TABLE
datasource_classify
(
id
int unsigned NOT NULL AUTO_INCREMENT COMMENT ' 自增 id',
classify_code
varchar (64) NOT NULL COMMENT ' 型別欄唯一編碼 ',
sorted
int NOT NULL DEFAULT '0' COMMENT ' 型別欄排序欄位 預設從 0 開始 ',
classify_name
varchar (64) NOT NULL COMMENT ' 型別名稱 包含全部和常用欄 ',
is_deleted
tinyint NOT NULL DEFAULT '0' COMMENT ' 是否刪除,1 刪除,0 未刪除 ',
gmt_create
datetime DEFAULT CURRENT_TIMESTAMP,
gmt_modified
datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY (
id
), UNIQUE KEY
classify_code
(
classify_code
) ) ENGINE=InnoDB AUTO_INCREMENT=12 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci COMMENT=' 資料來源分類表 ';
Flink Sql:
CREATE TABLE source ( id bigint, classify_code STRING, sorted int, classify_name STRING, is_deleted int, gmt_create timestamp(9), gmt_modified timestamp(9), PRIMARY KEY (id) NOT ENFORCED ) WITH ( 'connector' = 'mysql-x', 'url' = 'jdbc: mysql://192.168.31.101:3306/datasource?useSSL=false', 'table-name' = 'datasource_classify', 'username' = 'root', 'password' = 'root' ,'scan.fetch-size' = '2' ,'scan.query-timeout' = '10' );
CREATE TABLE sink ( id bigint, classify_code STRING, sorted int, classify_name STRING, is_deleted int, gmt_create timestamp(9), gmt_modified timestamp(9), PRIMARY KEY (id) NOT ENFORCED ) WITH ( 'connector' = 'mysql-x', 'url' = 'jdbc: mysql://192.168.31.106:3306/test?useSSL=false', 'table-name' = 'datasource_classify', 'username' = 'root', 'password' = 'root' ,'scan.fetch-size' = '2' ,'scan.query-timeout' = '10' );
insert into sink select * from source u;
執行任務
選中 Yarn Session 模式提交作業。 提交後可從執行歷史檢視作業提交狀況。 程式中可以看的 Flink 叢集上批作業執行完成。
對比資料
源庫: 目標庫: 同步成功,很絲滑。
五、總結
在整合 ChunJun 的時候遇到的問題大部分都是缺包以及包衝突,所以只需要注意一下這個問題就能比較好的進行整合。
在整合服務的時候建議是,先把 Flink 和 ChunJun 進行整合,確保服務能夠正常啟用以後再進行 Dinky 的整合,這樣有利於快速定位查詢問題,如果遇到文章之外的問題,也可以檢視 Dinky 官網 FAQ | Dinky (dlink.top) chunjun 的官網 QuickStart | ChunJun 純鈞 (dtstack.github.io/chunjun/),看看是否有類似問題的解決辦法作為參考。
六、使用者體驗
因為本人目前還是處於學習使用的過程中,所以很多功能沒有好好使用,待自己研究更加透徹後希望寫一篇文章,最佳化官網的使用者手冊。以下的優缺點以及建議都是目前我在使用學習的過程中遇到的問題。
優點
Dinky 最吸引我的地方應該就是 sql 編輯模版了,直接快捷鍵生成 sql 模版,在開發測試中屢試不爽。在整合了 ChunJun (Flinkx) 以後,能夠做到多源資料的離線跑批任務及日常小批次實時任務的同步。支援各種型別的任務執行方式。
缺點
ui 上適配還有點小問題,例如:開啟 F12 調整寬度後,再關閉,頁面 ui 不會自適應,需要重新整理。
期待改進點
1、更多的自定義異常、業務異常
2、增加新的嚮導模式,結合資料來源,透過 webUI 可以一鍵引入欄位或者勾選需要的欄位,生成 Flink Sql 的一大部分配置
CREATE TABLE 表名 (-- 頁面勾選欄位,欄位從後設資料直接拉取 id bigint, classify_code STRING, sorted int, classify_name STRING, is_deleted int, gmt_create timestamp (9), gmt_modified timestamp (9), PRIMARY KEY (id) NOT ENFORCED ) WITH ( -- 從選擇的資料中獲取 'connector' = 'mysql-x', 'url' = 'jdbc: mysql://192.168.31.106:3306/test?useSSL=false', 'table-name' = 'datasource_classify', 'username' = 'root', 'password' = 'root' , -- 其它非主要配置有使用者自己填寫 ); 3、sql 歷史版本管理,目前我已經提交 Feature 並被合併到 0.6.5 版本中。
想了解或諮詢更多有關袋鼠雲大資料產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szitpub
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2923976/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 開源交流丨批流一體資料整合框架ChunJun資料傳輸模組詳解分享框架
- 開源共建 | TIS整合資料同步工具ChunJun,攜手完善開源生態
- 可擴充套件的資料庫系統,請求批評套件資料庫
- [譯] 論資料流的擴充套件性套件
- 開源直播課丨大資料整合框架ChunJun類載入器隔離方案探索及實踐大資料框架
- 分享一些好用的資源(擴充套件、介面、網站)套件網站
- 開源技術交流丨批流一體資料同步引擎 ChunJun 資料還原 - DDL 功能模組解析
- ZenML:可擴充套件的開源機器學習MLOps框架套件機器學習框架
- 基於開源流批一體資料同步引擎 ChunJun 資料還原 —DDL 解析模組的實戰分享
- 數棧技術分享:開源·數棧-擴充套件FlinkSQL實現流與維表的join套件SQL
- .NET 開源 EF Core 批處理擴充套件工具,真好用套件
- 讀構建可擴充套件分散式系統:方法與實踐09可擴充套件資料庫基礎套件分散式資料庫
- 基於 Web 引擎擴充套件技術的 RTC 混合開發框架實踐Web套件框架
- 開源直播課丨高效穩定易用的資料整合框架 ——ChunJun 類載入原理與實現框架
- 快手流批一體資料湖構建實踐
- Visual Studio將深度整合GitHub,支援開源擴充套件Github套件
- PHP擴充套件開發就是一個自己的PHP擴充套件PHP套件
- solaris11怎麼擴充套件資源池?solaris11擴充套件資源池的方法套件
- 分享一些好用的 Chrome 擴充套件Chrome套件
- MOSN 多協議擴充套件開發實踐協議套件
- 開源 | FLUI : Flutter 的元件擴充套件集UIFlutter元件套件
- 開源 | SOFAMesh 的通用協議擴充套件協議套件
- INFORMIX表的預設初始擴充套件、下一個擴充套件資料塊以及一個表允許的最大擴充套件數。ORM套件
- 讀構建可擴充套件分散式系統:方法與實踐15可擴充套件系統的基本要素套件分散式
- 讀構建可擴充套件分散式系統:方法與實踐14流處理系統套件分散式
- 基於PostgreSQL各種擴充套件派生的開源資料庫名單SQL套件資料庫
- Chrome瀏覽器擴充套件開發系列之八:Chrome擴充套件的資料儲存Chrome瀏覽器套件
- iOS一個靈活可擴充套件的開源Log庫iOS套件
- 大資料——Scala擴充套件大資料套件
- Chrome 擴充套件的開發實戰Chrome套件
- 資料塊、資料擴充套件、段套件
- laravel 擴充套件分享 — 省市區資料表生成器Laravel套件
- Spring Boot中的Mongodb多資料來源擴充套件Spring BootMongoDB套件
- Chrome DevTools Inspector 擴充套件實踐Chromedev套件
- PHP的SPL擴充套件庫(一)資料結構PHP套件資料結構
- 開源 - Ideal庫 - 常用列舉擴充套件方法(一)Idea套件
- Solon詳解(六)- Solon的校驗擴充套件框架使用與擴充套件套件框架
- Flink SQL 在快手的擴充套件和實踐SQL套件