Flink CDC+Kafka 加速業務實時化
摘要:本文整理自阿里巴巴開發工程師、Apache Flink Committer 任慶盛,在 9 月 24 日 Apache Flink Meetup 的分享。主要內容包括:
Flink CDC 技術對比與分析
Flink + Kafka 實時資料整合方案
Demo:Flink+Kafka 實現 CDC 資料的實時整合和實時分析
01
Flink CDC 技術對比與分析
1.1 變更資料捕獲(CDC)技術
資料同步,透過 CDC 將資料同步到其他儲存位置來進行異地災備或備份。 資料分發,透過 CDC 將資料從一個資料來源抽取出來後分發給下游各個業務方做資料處理和變換。 數 據採集,使用 CDC 將源端資料庫中的資料讀取出來後,經過 ETL 寫入資料倉儲或資料湖。
按照實現機制,CDC 可以分為兩種型別:基於查詢和基於日誌的 CDC。基於查詢的 CDC 透過定時排程離線任務的方式實現,一般為批處理模式,無法保證資料的實時性,資料一致性也會受到影響。基於日誌的 CDC 透過實時消費資料庫裡的日誌變化實現,如透過聯結器直接讀取 MySQL 的 binlog 捕獲變更。這種流處理模式可以做到低延遲,因此更好地保障了資料的實時性和一致性。
1.2 Flink CDC 的技術優勢
在實現機制方面,Flink CDC 透過直接讀取資料庫日誌捕獲資料變更,保障了資料實時性和一致性。 在同步能力方面,Flink CDC 支援全量和增量兩種讀取模式,並且可以做到無縫切換。 在資料連續性方面,Flink CDC 充分利用了 Apache Flink 的 checkpoint 機制,提供了斷點續傳功能,當作業出現故障重啟後可以從中斷的位置直接啟動恢復。 在架構方面,Flink CDC 的分散式設計使得使用者可以啟動多個併發來消費源庫中的資料。 在資料變換方面,Flink CDC 將從資料庫中讀取出來後,可以透過 DataStream、SQL 等進行各種複雜計算和資料處理。 在生態方面,Flink CDC 依託於強大的 Flink 生態和眾多的 connector 種類,可以將實時資料對接至多種外部系統。
1.3 Flink CDC 全增量一體化框架
1.4. Flink CDC 社群發展
02
Flink + Kafka 實時資料整合方案
只需要一條 SQL(CTAS、CDAS)即可完成單表或整庫同步,無需反覆配置作業引數來啟動多個作業。 自動建立目標端 Kafka topic 和 partition,使用者無需在 Kafka 叢集中進行手動配置。 原生支援了新增可空列、刪除可空列以及重新命名列等表結構變更同步的策略,能夠支援更多資料同步的場景。
03
Demo:Flink+Kafka 實現 CDC 資料的
實時整合和實時分析
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024924/viewspace-2936636/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 6.Flink實時專案之業務資料分流
- 5.Flink實時專案之業務資料準備
- Flink + 強化學習 搭建實時推薦系統強化學習
- Flink CEP 在抖音電商的業務實踐
- 如何遷移開源 Flink 任務到實時計算Flink版?實戰手冊來幫忙!
- 快手基於 Flink 構建實時數倉場景化實踐
- 知乎利用 JuiceFS 給 Flink 容器啟動加速實踐UI
- 【Flink】基於 Flink 的流式資料實時去重
- 基於 Flink CDC 打造企業級實時資料整合方案
- BIGO 使用 Flink 做 OLAP 分析及實時數倉的實踐和優化Go優化
- 實時計算Flink效能調優
- 實時計算Flink——產品安全
- flink-cdc實時同步(oracle to mysql)OracleMySql
- Flink實時計算topN熱榜
- 基於 Apache Flink 的實時計算資料流業務引擎在京東零售的實踐和落地Apache
- Flink 在有贊實時計算的實踐
- Doris和Flink在實時數倉實踐
- Flink實戰:消費Wikipedia實時訊息
- Veeam和Nutanix加速數字化轉型,致力企業級業務永續
- 軟通動力:深耕雲業務,加速企業數智化轉型程式
- 物流運輸商業採購管理系統簡化業務流程,加速企業數字化轉型
- AI產業化加速時代,中國大學生何以勇攀時代高峰?AI產業
- OMS遷移服務釋出,產品化加速OceanBase商業落地!
- 實時計算Flink——快速入門概述
- 實時資料處理:Kafka 和 FlinkKafka
- flink sql 實時同步及離線同步SQL
- Apache DolphinScheduler大規模任務排程系統對大資料實時Flink任務支援Apache大資料
- 加速國產化替代,跑出信創產業“加速度”產業
- flink學習(加餐)——job任務狀態變化
- 基於 Flink 的實時數倉生產實踐
- Flink 在風控場景實時特徵落地實戰特徵
- 詳解 Flink 實時應用的確定性
- Flink基礎:實時處理管道與ETL
- 基於 Flink CDC 的實時同步系統
- 數商雲:物流運輸行業數字化採購管理系統簡化業務流程,加速企業數字化轉型行業
- Flink 在眾安保險金融業務的應用
- 達觀智慧財務RPA自動納稅申報,加速企業財務數字化程式
- 加速金融業數字化轉型程式