構建企業CDC資料湖解決方案 -DZone
CDC(Change Data Capture) 是一個軟體過程,它捕獲源資料庫中所做的更改(DDL 和 DML)以同步另一個資料儲存庫,例如資料庫、記憶體快取、資料倉儲或資料湖。CDC 用於本文不會討論的其他有趣且免費的用例,例如:
- CQRS 模式: 其中一種實現涉及具有單獨的寫入(命令)和讀取(查詢)資料庫和資料模型。寫層支援插入、更新和刪除操作,讀層支援查詢資料操作。CDC 允許我們將命令操作從寫資料庫複製到讀資料庫。
- 分析微服務:提供更改事件流以跟蹤何時以及發生哪些更改並分析行為模式。
CDC 是一個很好的解決方案,有四種常見的場景:
- OLAP資料庫 遷移:在我們將所有或部分工作負載從當前資料倉儲遷移到新的 OLAP 解決方案的情況下。CDC 允許我們將相同的資料複製到兩個系統並使遷移更容易。如今,許多公司正在將工作負載從 OnPremise 資料倉儲遷移到資料雲解決方案。
- 將資訊從OLTP 資料庫複製 到 OLAP資料庫:將資料從我們的運算元據庫複製到資料倉儲或資料湖。
- 資料庫即服務: 為分析沙箱或預生產沙箱提供我們資料庫的副本。
- 從單體到微服務的遷移:應用扼殺者模式將我們的單體應用程式逐步遷移到微服務。在第一階段複製兩個應用程式共存所需的一些資料集。
企業CDC解決方案
基於此,我們提出以下解決方案架構:
- Debezium 作為 Source聯結器:這一塊將是負責讀取從我們的源資料庫引擎的變化,並將它們傳送到通道。它將作為聯結器部署在我們的Kafka Connect Cluster 中。
- 卡夫卡 作為 Channel:它提供了可以在被部署用於事件的生產/消耗和大的生態系統的聯結器廣泛的API沿著中間儲存卡夫卡連線或在另一平臺上。
- Kafka Sink JDBC(透過Confluent)與 Event flattering SMT (by Debezium)作為Sink Connector:該聯結器允許我們在目標資料庫上執行復制,有幾個配置引數。作為用於全球目的的通用解決方案,它是一個不錯的選擇。在其他情況下,例如 Snowflake 或其他雲服務,JDBC 聯結器的成本效益和效能比供應商本身提供的其他策略更差。評估切換到供應商本身提供的聯結器而不是使用通用 JDBC 的成本收益是很重要的。
- Kafka Connect 作為聯結器平臺:它提供了一個框架,可以基於簡單的配置將聯結器部署為外掛,並與我們的 Kafka 完全整合。這是一個非常好的選擇,因為它允許我們標準化接收器/源聯結器管理,例如 Debezium 複製操作和 JDBC 接收器聯結器。
在資料量大、技術多樣的複雜環境中,向新的資料平臺提供資料是一個很大的挑戰。但真正的挑戰是在提供這些資料的同時確保組織做出有價值的決策所需的質量。
準確性、一致性、唯一性或及時性是衡量我們資料質量的一些指標。在我們看來,CDC 而不是其他解決方案,可以讓我們以一種相對簡單的方式來規範 資料攝取並確保資料質量。
更多#CDC
相關文章
- Apache Hudi:雲資料湖解決方案Apache
- 阿里雲:已有10000家企業在雲上構建資料湖阿里
- Flink CDC 系列 - 同步 MySQL 分庫分表,構建 Iceberg 實時資料湖MySql
- 企業如何資料整合?資料整合解決方案
- 基於Apache Hudi和Debezium構建CDC入湖管道Apache
- 什麼是資料湖屋Lakehouse? -DZone大資料大資料
- 基於 Flink CDC 打造企業級實時資料整合方案
- [Flink/CDC/資料整合] 資料增量整合方案:Flink CDC
- 華為雲FusionInsight MRS:助力企業構建“一企一湖,一城一湖”
- 建築施工企業智慧防疫平臺解決方案
- Sentry 企業級資料安全解決方案 - Relay 入門
- 杉巖資料企業雲端儲存解決方案
- Sentry 企業級資料安全解決方案 - Relay 操作指南
- Sentry 企業級資料安全解決方案 - Relay PII 和資料清理
- 銀行大資料新玩法,構建“一湖兩庫”金融資料湖大資料
- 杉巖資料企業級私有云儲存解決方案
- Sentry 企業級資料安全解決方案 - Relay 專案配置
- Sentry 企業級資料安全解決方案 - Relay 執行模式模式
- Sentry 企業級資料安全解決方案 - Relay 配置選項
- DKH企業級大資料解決方案的優勢分析大資料
- 基於Apache Hudi + MinIO 構建流式資料湖Apache
- 使用 Flink Hudi 構建流式資料湖平臺
- 專訪科傑科技CEO於洋:湖倉一體資料底座,企業構建資料能力的“最優解” | 愛分析訪談
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 解決方案架構、系統架構和企業架構區別架構
- 融合資料庫生態:利用 EventBridge 構建 CDC 應用資料庫
- hbase構建二級索引解決方案索引
- 快手流批一體資料湖構建實踐
- 使用Apache Spark和Apache Hudi構建分析資料湖ApacheSpark
- 2020-09-23【學習筆記】【企業資料湖】三、Lambda架構:一種資料湖實現模式(1)筆記架構模式
- 企業大資料傳輸方式,鐳速提供大資料傳輸解決方案大資料
- 工業物聯網系統下製造業資料建設解決方案
- 資料倉儲、資料集市、資料湖,你的企業更適合哪種資料管理架構?架構
- Sentry 企業級資料安全解決方案 - Relay 監控 & 指標收集指標
- 這款軟體提供極速企業資料傳輸解決方案!
- 阿里雲實時大資料解決方案,助力企業實時分析與決策阿里大資料
- 杉巖資料企業內容管理解決方案
- 構建真“智慧”的智慧社群解決方案