Apache Kafka不是資料庫：資料庫+Kafka=完整ACID - fivetran

banq發表於2020-12-09

瞭解流式資料基礎結構的使用和濫用很重要。Apache Kafka是一個訊息代理，在過去幾年中迅速普及。訊息代理中介軟體已經存在了很長時間。它們是一種資料儲存，專門用於在生產者和使用者系統之間“緩衝”訊息。Kafka之所以流行，是因為它是開源的並且能夠擴充套件到大量訊息。

訊息代理通常用於使資料的生產者和消費者分離。例如，在Fivetran中，我們使用類似於Kafka的訊息代理來快取客戶生成的Webhook，然後將它們批量載入到您的資料倉儲中：

在這種情況下，訊息代理將提供持久的事件儲存，這些事件是客戶傳送的事件，然後Fivetran將事件加、載到資料倉儲。

但是，Kafka偶爾被描述為不僅僅是一個更好的訊息代理。支援該觀點的人將Kafka定位為一種全新的資料管理方式，其中Kafka取代了關聯式資料庫作為已發生事件的確定記錄。無需讀寫傳統資料庫，而是將事件追加到Kafka，然後從代表當前狀態的下游檢視中讀取。這種體系結構已被描述為“將資料庫從內向外轉換”。

原則上，能夠用同時支援讀取和寫入的方式來實現這種類似資料庫的體系結構。但是，在此過程中，您最終將面臨資料庫管理系統數十年來所面臨的每一個難題。您將或多或少必須在應用程式程式碼中編寫完整的DBMS。而且您可能做得不好，因為資料庫需要花費數年的時間才能正確完成。您將不得不處理草率讀取，幻像讀取，寫入歪斜以及倉促實現的資料庫的所有其他症狀。

ACID

使用Kafka作為主要資料儲存的根本問題是它沒有提供隔離（ACID中的I代表隔離）。

隔離意味著，在全域性範圍內，所有事務（讀和寫）都沿著某個一致的歷史記錄發生。Jepsen 提供了隔離級別的指南（隔離意味著該系統將不會遇到某些異常）。

讓我們考慮一個為什麼隔離很重要的簡單示例。假設我們正在執行一個線上商店。使用者結帳時，我們要確保他們所有的物品實際上都在庫存中。這樣做的方法是：

檢查使用者購物車中每個專案的庫存水平。
如果商品不再可用，請中止結帳。
如果所有專案都可用，請從庫存中減去它們並確認結帳。

假設我們正在使用Kafka來管理此過程。我們的架構可能看起來像這樣：

Apache Kafka不是資料庫：資料庫+Kafka=完整ACID - fivetran

Web伺服器從Kafka下游的檢視讀取庫存（Inventory Level），但是它只能向上游Kafka的checkouts Topic提交結賬事務。問題是併發控制之一：如果有兩個使用者競相購買庫存最後一件商品，則只能有一個成功。我們需要檢查庫存檢視，並立即在某個時間點確認結賬。但是，在當前這種體系結構中無法做到這一點。

我們現在遇到的問題稱為寫偏斜write skew。在處理結帳事件時，我們從庫存檢視中讀取的資料可能已過期。如果兩個使用者幾乎同時嘗試購買同一商品，那麼他們都會成功，而我們將沒有足夠的庫存來滿足他們的需求。

像這樣的事件溯源架構受到許多的這種隔離異常影響，需要使用者使用者小心不斷提供“時間旅行”的旅行檢查。更糟的是，研究表明，這種異常允許這種架構建立徹底的安全漏洞，允許黑客竊取資料，覆蓋這個優秀的部落格文章對這一研究論文。

與資料庫一起使用Kafka

如果將Kafka用作傳統資料庫的補充，則可以避免這些問題：

Apache Kafka不是資料庫：資料庫+Kafka=完整ACID - fivetran

OLTP資料庫可以實現一項訊息代理不太適合的關鍵任務：事件的准入控制。相比訊息代理作為“傳送並忘記”事件機制，OLTP資料庫將事件模式強制為“意圖模式”，資料庫可以拒絕發生衝突的事件，從而確保僅發出一致的事件流。OLTP資料庫確實擅長於此核心併發控制任務：每秒擴充套件到數百萬個事務。

使用資料庫作為寫入的入口點，從資料庫提取事件的最佳方法是通過流式傳輸change-data-capture。有許多很棒的開放式CDC框架，例如Debezium和Maxwell，以及現代 SQL 資料庫中的本機CDC 。變更資料捕獲還建立了一個優雅的操作案例。在恢復方案中，所有內容都可以在下游清除，並從（非常持久的）OLTP資料庫中重建。

請勿誤建資料庫

數十年來，資料庫社群已經學習（並重新學習了）一些重要的經驗教訓。這些課程中的每一個都是以資料損壞、資料丟失和大量面向使用者的異常情況的高昂代價獲得的。您要做的最後一件事是發現自己在重新學習這些課程，因為您不小心誤建了一個資料庫。

實時流訊息代理是管理高速資料的絕佳工具。但是您仍然需要傳統的DBMS來隔離事務。最好的參考架構是使用OLTP資料庫進行事件的准入控制，使用CDC進行事件生成，並將資料的下游副本建模為例項化檢視。

Apache Kafka資料模型概念簡介 - Baeldung
2021-01-05
ApacheKafka模型
資料庫　　資料庫的完整性
2018-09-15
資料庫
kafka資料地址
2018-08-15
Kafka
Clickhouse Engine kafka 將kafka資料同步clickhouse
2020-12-03
Kafka
Kafka資料遷移
2019-03-18
Kafka
資料庫第五章資料庫完整性
2018-11-05
資料庫
資料庫也可以像電腦一樣組裝：使用Kafka建立關聯式資料庫 – Robert Yokota
2019-09-24
資料庫Kafka
kafka connect，將資料批量寫到hdfs完整過程
2018-03-23
Kafka
如何克服 Apache Kafka中的資料順序問題 - DATAVERSITY
2021-10-14
ApacheKafka
alpakka-kafka(8)-kafka資料消費模式實現
2021-08-15
Kafka模式
資料庫事務 ACID屬性、資料庫併發問題和四種隔離級別
2021-03-06
資料庫
選擇Apache Pulsar而不是Kafka的理由 - Kafkaesque
2020-01-03
ApacheKafka
資料庫應用系統中的資料庫完整性（上）KP
2022-03-22
資料庫
Apache Kafka教程--Kafka新手入門
2023-03-14
ApacheKafka
SQLSERVER完整資料庫還原（完整恢復模式）
2020-01-07
SQLServer資料庫模式
帶你瞭解資料庫中事務的ACID特性
2019-04-09
資料庫
Debezium zookeeper kafka mysql資料處理
2019-03-19
KafkaMySql
kafka和websocket實時資料推送
2018-06-13
KafkaWeb
ETLCloud結合kafka的資料整合
2024-04-10
CloudKafka
Kafka聯結器建立資料管道
2021-11-28
Kafka
資料庫完整性+T-SQL
2019-04-15
資料庫SQL
kafka 測試遇到掉資料的問題 nmred/kafka-PHP
2019-12-17
KafkaPHP
資料庫PostrageSQL-管理資料庫
2020-12-11
資料庫SQL
Apache HBase 1.7.1 釋出，分散式資料庫
2021-07-25
Apache分散式資料庫
DistSQL：像資料庫一樣使用 Apache ShardingSphere
2021-07-20
SQL資料庫Apache
【資料庫資料恢復】SAP資料庫資料恢復案例
2022-05-05
資料庫資料恢復
實時資料處理：Kafka 和 Flink
2024-03-18
Kafka
Kafka 叢集如何實現資料同步？
2023-11-16
Kafka
spark streaming執行kafka資料來源
2020-11-14
SparkKafka
Kafka零資料丟失的配置方案
2020-06-12
Kafka
pyspark 解析kafka陣列結構資料
2024-11-07
SparkKafka陣列
Hadoop大資料平臺之Kafka部署
2020-11-24
Hadoop大資料Kafka
【資料庫資料恢復】MS SQL資料庫附加資料庫出錯怎麼恢復資料？
2022-12-08
資料庫資料恢復SQL
為什麼在Apache Druid中的實時資料使用Kafka索引 ? -Kartik Khare
2019-12-25
ApacheUIKafka索引
Honeycomb使用Apache Kafka為資料攝取提供高可用性緩衝管道
2021-12-04
ApacheKafka
資料庫介紹--初識資料庫
2018-07-15
資料庫
資料湖 vs 倉庫 vs 資料庫
2022-01-16
資料庫
資料庫概論（一）資料庫概念
2021-01-14
資料庫

Apache Kafka不是資料庫：資料庫+Kafka=完整ACID - fivetran

相關文章