小專案不想引入 MQ?試試 Debezium!

Java技术栈發表於2024-03-06

作者:是奉壹呀
連結:https://juejin.cn/post/7264791359839223823

奧卡姆剃刀原理,“如無必要,勿增實體"。

在一些小型專案當中,沒有引入訊息中介軟體,也不想引入,但有一些業務邏輯想要解耦非同步,那怎麼辦呢?

我們的web專案,單獨內網部署,由於大資料背景,公司訊息中介軟體統一使用的kafka,在一些小專案上kafka就顯得很笨重。 引入rocketmq或rabittmq也沒必要。 事件或多執行緒也不適合。

具體一點的,之前對接的一個系統,一張記錄表有10+以上的型別狀態,新的需求是,針對每種狀態做出對應的不同的操作。

之前寫入這張記錄表的時候,方式也是五花八門,有的是單條記錄寫入,有的是批次寫入,有的呼叫了統一的service,有的呢直接呼叫了DAO層mapper直接寫入。

所以想找到一個統一入口進行切入處理,就不行了。

這個時候就算引入訊息佇列,也需要在不同的業務方法裡進行寫入訊息的操作。業務方也不太願意配合改。

可以使用觸發器,但它是屬於上個時代的產物,槽點太多。(這裡並不是完全不主張使用觸發器,技術永遠是為業務服務的,只要評估覺得可行,就可以使用)那麼這個時候,CDC技術就可以粉墨登場了。

CDC(change data capture)資料更改捕獲。

常見的資料更改捕獲都是透過資料庫比如mysql的binlog來達到目的。

我們可以監控mysql binlog日誌,當寫入一條資料的時候,接收到資料變更日誌,做出相應的操作。這樣的好處是,只需匯入依賴,不額外引入元件,同時無需改動之前的程式碼。 兩邊完全解耦,互不干擾。

常見的CDC框架,比如,canal (非Camel)

  • canal [kə'næl],譯意為水道/管道/溝渠,主要用途是基於 MySQL 資料庫增量日誌解析,提供增量資料訂閱和消費 早期阿里巴巴因為杭州和美國雙機房部署,存在跨機房同步的業務需求,實現方式主要是基於業務 trigger 獲取增量變更。 從 2010 年開始,業務逐步嘗試資料庫日誌解析獲取增量變更進行同步,由此衍生出了大量的資料庫增量訂閱和消費業務。
  • 它是基於日誌增量訂閱和消費的業務,包括

資料庫映象

資料庫實時備份

索引構建和實時維護(拆分異構索引、倒排索引等)

業務 cache 重新整理

帶業務邏輯的增量資料處理

它的原理:

  • canal 模擬 MySQL slave 的互動協議,偽裝自己為 MySQL slave ,向 MySQL master 傳送dump 協議
  • MySQL master 收到 dump 請求,開始推送 binary log 給 slave (即 canal )
  • canal 解析 binary log 物件(原始為 byte 流)

再比如,debezium(音同 dbzm 滴BZ姆)很多人可能不太瞭解. 包括databus,maxwell,flink cdc(大資料領域)等等,它們同屬CDC捕獲資料更改(change data capture)類的技術。

為什麼是debezium

這麼多技術框架,為什麼選debezium?

看起來很多。但一一排除下來就debezium和canal。

sqoop,kettle,datax之類的工具,屬於前大資料時代的產物,地位類似於web領域的structs2。而且,它們基於查詢而非binlog日誌,其實不屬於CDC。首先排除。

flink cdc是大資料領域的框架,一般web專案的資料量屬於大材小用了。

同時databus,maxwell相對比較冷門,用得比較少。

最後不用canal的原因有以下幾點。

  1. canal需要安裝,這違背了“如非必要,勿增實體”的原則。
  2. canal只能對MYSQL進行CDC監控。有很大的侷限性。
  3. 大資料領域非常流行的flink cdc(阿里團隊主導)底層使用的也是debezium,而非同是阿里出品的canal。
  4. debezium可藉助kafka元件,將變動的資料發到kafka topic,後續的讀取操作只需讀取kafka,可有效減少資料庫的讀取壓力。可保證一次語義,至少一次語義。
    同時,也可基於內嵌部署模式,無需我們手動部署kafka叢集,可滿足”如非必要,勿增實體“的原則。

Debezium是一個捕獲資料更改(CDC)平臺,並且利用Kafka和Kafka Connect實現了自己的永續性、可靠性和容錯性。

每一個部署在Kafka Connect分散式的、可擴充套件的、容錯性的服務中的connector監控一個上游資料庫伺服器,捕獲所有的資料庫更改,然後記錄到一個或者多個Kafka topic(通常一個資料庫表對應一個kafka topic)。

Kafka確保所有這些資料更改事件都能夠多副本並且總體上有序(Kafka只能保證一個topic的單個分割槽內有序),這樣,更多的客戶端可以獨立消費同樣的資料更改事件而對上游資料庫系統造成的影響降到很小(如果N個應用都直接去監控資料庫更改,對資料庫的壓力為N,而用debezium彙報資料庫更改事件到kafka,所有的應用都去消費kafka中的訊息,可以把對資料庫的壓力降到1)。

另外,客戶端可以隨時停止消費,然後重啟,從上次停止消費的地方接著消費。每個客戶端可以自行決定他們是否需要exactly-once或者at-least-once訊息交付語義保證,並且所有的資料庫或者表的更改事件是按照上游資料庫發生的順序被交付的。

對於不需要或者不想要這種容錯級別、效能、可擴充套件性、可靠性的應用,他們可以使用內嵌的Debezium connector引擎來直接在應用內部執行connector。

這種應用仍需要消費資料庫更改事件,但更希望connector直接傳遞給它,而不是持久化到Kafka裡。

簡介

Debezium是一個開源專案,為捕獲資料更改(change data capture,CDC)提供了一個低延遲的流式處理平臺。你可以安裝並且配置Debezium去監控你的資料庫,然後你的應用就可以消費對資料庫的每一個行級別(row-level)的更改。只有已提交的更改才是可見的,所以你的應用不用擔心事務(transaction)或者更改被回滾(roll back)。Debezium為所有的資料庫更改事件提供了一個統一的模型,所以你的應用不用擔心每一種資料庫管理系統的錯綜複雜性。另外,由於Debezium用持久化的、有副本備份的日誌來記錄資料庫資料變化的歷史,因此,你的應用可以隨時停止再重啟,而不會錯過它停止執行時發生的事件,保證了所有的事件都能被正確地、完全地處理掉。

監控資料庫,並且在資料變動的時候獲得通知一直是很複雜的事情。關係型資料庫的觸發器可以做到,但是隻對特定的資料庫有效,而且通常只能更新資料庫內的狀態(無法和外部的程序通訊)。一些資料庫提供了監控資料變動的API或者框架,但是沒有一個標準,每種資料庫的實現方式都是不同的,並且需要大量特定的知識和理解特定的程式碼才能運用。確保以相同的順序檢視和處理所有更改,同時最小化影響資料庫仍然非常具有挑戰性。

Debezium提供了模組為你做這些複雜的工作。一些模組是通用的,並且能夠適用多種資料庫管理系統,但在功能和效能方面仍有一些限制。另一些模組是為特定的資料庫管理系統定製的,所以他們通常可以更多地利用資料庫系統本身的特性來提供更多功能。

github官網上羅列的一些

典型應用場景

  • 快取失效(Cache invalidation)
    經典問題 Redis與MySQL雙寫一致性如何保證?Debezium利用kafka單分割槽的有序性(忽略mysql binlog本身可能的延遲和亂序),可完全解決此問題。
    在快取中快取的條目(entry)在源頭被更改或者被刪除的時候立即讓快取中的條目失效。 如果快取在一個獨立的程序中執行(例如Redis,Memcache,Infinispan或者其他的),那麼簡單的快取失效邏輯可以放在獨立的程序或服務中, 從而簡化主應用的邏輯。在一些場景中,快取失效邏輯可以更復雜一點,讓它利用更改事件中的更新資料去更新快取中受影響的條目。

  • 簡化單體應用(Simplifying monolithic applications) 許多應用更新資料庫,然後在資料庫中的更改被提交後,做一些額外的工作:更新搜尋索引,更新快取,傳送通知,執行業務邏輯,等等。 這種情況通常稱為雙寫(dual-writes),因為應用沒有在一個事務內寫多個系統。這樣不僅應用邏輯複雜難以維護, 而且雙寫容易丟失資料或者在一些系統更新成功而另一些系統沒有更新成功的時候造成不同系統之間的狀態不一致。使用捕獲更改資料技術(change data capture,CDC), 在源資料庫的資料更改提交後,這些額外的工作可以被放在獨立的執行緒或者程序(服務)中完成。這種實現方式的容錯性更好,不會丟失事件,容易擴充套件,並且更容易支援升級。

  • 共享資料庫(Sharing databases) 當多個應用共用同一個資料庫的時候,一個應用提交的更改通常要被另一個應用感知到。一種實現方式是使用訊息匯流排, 儘管非事務性(non-transactional)的訊息匯流排總會受上面提到的雙寫(dual-writes)影響。但是,另一種實現方式,即Debezium,變得很直接:每個應用可以直接監控資料庫的更改,並且響應更改。

  • 資料整合(Data integration) 資料通常被儲存在多個地方,尤其是當資料被用於不同的目的的時候,會有不同的形式。保持多系統的同步是很有挑戰性的, 但是可以透過使用Debezium加上簡單的事件處理邏輯來實現簡單的ETL型別的解決方案。

  • 命令查詢職責分離(CQRS) 在命令查詢職責分離 Command Query Responsibility Separation (CQRS) 架構模式中,更新資料使用了一種資料模型, 讀資料使用了一種或者多種資料模型。由於資料更改被記錄在更新側(update-side),這些更改將被處理以更新各種讀展示。 所以CQRS應用通常更復雜,尤其是他們需要保證可靠性和全序(totally-ordered)處理。Debezium和CDC可以使這種方式更可行: 寫操作被正常記錄,但是Debezium捕獲資料更改,並且持久化到全序流裡,然後供那些需要非同步更新只讀檢視的服務消費。 寫側(write-side)表可以表示面向領域的實體(domain-oriented entities),或者當CQRS和 Event Sourcing 結合的時候,寫側表僅僅用做追加操作命令事件的日誌。

springboot 整合 Debezium

推薦一個開源免費的 Spring Boot 實戰專案:

https://github.com/javastacks/spring-boot-best-practice

依賴

<debezium.version>1.7.0.Final</debezium.version>
 <mysql.connector.version>8.0.26</mysql.connector.version>

 <dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>${mysql.connector.version}</version>
    <scope>runtime</scope>
</dependency>
<dependency>
    <groupId>io.debezium</groupId>
    <artifactId>debezium-api</artifactId>
    <version>${debezium.version}</version>
</dependency>
<dependency>
    <groupId>io.debezium</groupId>
    <artifactId>debezium-embedded</artifactId>
    <version>${debezium.version}</version>
</dependency>
<dependency>
    <groupId>io.debezium</groupId>
    <artifactId>debezium-connector-mysql</artifactId>
    <version>${debezium.version}</version>
    <exclusions>
	<exclusion>
	    <groupId>mysql</groupId>
	    <artifactId>mysql-connector-java</artifactId>
	</exclusion>
    </exclusions>
</dependency>

注意debezium版本為1.7.0.Final,對應mysql驅動為8.0.26,低於這個版本會報相容錯誤。

配置

相應的配置

debezium.datasource.hostname = localhost
debezium.datasource.port = 3306
debezium.datasource.user = root
debezium.datasource.password = 123456
debezium.datasource.tableWhitelist = test.test
debezium.datasource.storageFile = E:/debezium/test/offsets/offset.dat
debezium.datasource.historyFile = E:/debezium/test/history/custom-file-db-history.dat
debezium.datasource.flushInterval = 10000
debezium.datasource.serverId = 1
debezium.datasource.serverName = name-1

然後進行配置初始化。

主要的配置項:

connector.class
  • 監控的資料庫型別,這裡選mysql。
offset.storage
  • 選擇FileOffsetBackingStore時,意思把讀取進度存到本地檔案,因為我們不用kafka,當使用kafka時,選KafkaOffsetBackingStore
offset.storage.file.filename
  • 存放讀取進度的本地檔案地址。
offset.flush.interval.ms
  • 讀取進度重新整理儲存頻率,預設1分鐘。如果不依賴kafka的話,應該就沒有exactly once只讀取一次語義,應該是至少讀取一次。意味著可能重複讀取。如果web容器掛了,最新的讀取進度沒有重新整理到檔案裡,下次重啟時,就會重複讀取binlog。
table.whitelist
  • 監控的表名白名單,建議設定此值,只監控這些表的binlog。
database.whitelist
  • 監控的資料庫白名單,如果選此值,會忽略table.whitelist,然後監控此db下所有表的binlog。
import io.debezium.connector.mysql.MySqlConnector;
import io.debezium.relational.history.FileDatabaseHistory;
import lombok.Data;
import org.apache.kafka.connect.storage.FileOffsetBackingStore;
import org.springframework.boot.context.properties.ConfigurationProperties;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

import java.io.File;
import java.io.IOException;

/**
 * @className: MysqlConfig
 * @author: nyp
 * @description: TODO
 * @date: 2023/8/7 13:53
 * @version: 1.0
 */
@Configuration
@ConfigurationProperties(prefix ="debezium.datasource")
@Data
public class MysqlBinlogConfig {

    private String hostname;
    private String port;
    private String user;
    private String password;
    private String tableWhitelist;
    private String storageFile;
    private String historyFile;
    private Long flushInterval;
    private String serverId;
    private String serverName;

    @Bean
    public io.debezium.config.Configuration MysqlBinlogConfig () throws Exception {
        checkFile();
        io.debezium.config.Configuration configuration = io.debezium.config.Configuration.create()
                .with("name", "mysql_connector")
                .with("connector.class", MySqlConnector.class)
                // .with("offset.storage", KafkaOffsetBackingStore.class)
                .with("offset.storage", FileOffsetBackingStore.class)
                .with("offset.storage.file.filename", storageFile)
                .with("offset.flush.interval.ms", flushInterval)
                .with("database.history", FileDatabaseHistory.class.getName())
                .with("database.history.file.filename", historyFile)
                .with("snapshot.mode", "Schema_only")
                .with("database.server.id", serverId)
                .with("database.server.name", serverName)
                .with("database.hostname", hostname)
//                .with("database.dbname", dbname)
                .with("database.port", port)
                .with("database.user", user)
                .with("database.password", password)
//                .with("database.whitelist", "test")
                .with("table.whitelist", tableWhitelist)
                .build();
        return configuration;

    }

    private void checkFile() throws IOException {
        String dir = storageFile.substring(0, storageFile.lastIndexOf("/"));
        File dirFile = new File(dir);
        if(!dirFile.exists()){
            dirFile.mkdirs();
        }
        File file = new File(storageFile);
        if(!file.exists()){
            file.createNewFile();
        }
    }
}

snapshot.mode 快照模式,指定聯結器啟動時執行快照的條件。可能的設定有:

  • initial 只有在沒有為邏輯伺服器名記錄偏移量時,聯結器才執行快照。
  • When_needed 當聯結器認為有必要時,它會在啟動時執行快照。也就是說,當沒有可用的偏移量時,或者當先前記錄的偏移量指定了伺服器中不可用的binlog位置或GTID時。
  • Never 聯結器從不使用快照。在第一次使用邏輯伺服器名啟動時,聯結器從binlog的開頭讀取。謹慎配置此行為。只有當binlog保證包含資料庫的整個歷史記錄時,它才有效。
  • Schema_only 聯結器執行模式而不是資料的快照。當您不需要主題包含資料的一致快照,而只需要主題包含自聯結器啟動以來的更改時,此設定非常有用。
  • Schema_only_recovery 這是已經捕獲更改的聯結器的恢復設定。當您重新啟動聯結器時,此設定允許恢復損壞或丟失的資料庫歷史主題。您可以定期將其設定為“清理”意外增長的資料庫歷史主題。資料庫歷史主題需要無限保留。
database.server.id
  • 偽裝成slave的Debezium服務的id,自定義,有多個Debezium服務不能重複,如果重複的話會報以下異常。
io.debezium.DebeziumException: A slave with the same server_uuid/server_id as this slave has connected to the master; the first event 'binlog.000013' at 46647257, the last event read from './binlog.000013' at 125, the last byte read from './binlog.000013' at 46647257. Error code: 1236; SQLSTATE: HY000.
	at io.debezium.connector.mysql.MySqlStreamingChangeEventSource.wrap(MySqlStreamingChangeEventSource.java:1167)
	at io.debezium.connector.mysql.MySqlStreamingChangeEventSource$ReaderThreadLifecycleListener.onCommunicationFailure(MySqlStreamingChangeEventSource.java:1212)
	at com.github.shyiko.mysql.binlog.BinaryLogClient.listenForEventPackets(BinaryLogClient.java:980)
	at com.github.shyiko.mysql.binlog.BinaryLogClient.connect(BinaryLogClient.java:599)
	at com.github.shyiko.mysql.binlog.BinaryLogClient$7.run(BinaryLogClient.java:857)
	at java.lang.Thread.run(Thread.java:750)
Caused by: com.github.shyiko.mysql.binlog.network.ServerException: A slave with the same server_uuid/server_id as this slave has connected to the master; the first event 'binlog.000013' at 46647257, the last event read from './binlog.000013' at 125, the last byte read from './binlog.000013' at 46647257.
	at com.github.shyiko.mysql.binlog.BinaryLogClient.listenForEventPackets(BinaryLogClient.java:944)
	... 3 common frames omitted

監聽

配置監聽服務

import com.alibaba.fastjson.JSON;
import io.debezium.config.Configuration;
import io.debezium.data.Envelope;
import io.debezium.engine.ChangeEvent;
import io.debezium.engine.DebeziumEngine;
import io.debezium.engine.format.Json;
import lombok.Builder;
import lombok.Data;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.lang3.StringUtils;
import org.springframework.beans.factory.annotation.Qualifier;
import org.springframework.stereotype.Component;

import javax.annotation.PostConstruct;
import javax.annotation.PreDestroy;
import javax.annotation.Resource;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.Objects;
import java.util.concurrent.Executor;

/**
 * @projectName: test
 * @package: com.test.config
 * @className: MysqlBinlogListener
 * @author: nyp
 * @description: TODO
 * @date: 2023/8/7 13:56
 * @version: 1.0
 */
@Component
@Slf4j
public class MysqlBinlogListener {

    @Resource
    private Executor taskExecutor;

    private final List<DebeziumEngine<ChangeEvent<String, String>>> engineList = new ArrayList<>();

    private MysqlBinlogListener (@Qualifier("mysqlConnector") Configuration configuration) {
            this.engineList.add(DebeziumEngine.create(Json.class)
                    .using(configuration.asProperties())
                    .notifying(record -> receiveChangeEvent(record.value()))
                    .build());
    }

    private void receiveChangeEvent(String value) {
        if (Objects.nonNull(value)) {
            Map<String, Object> payload = getPayload(value);
            String op = JSON.parseObject(JSON.toJSONString(payload.get("op")), String.class);
            if (!(StringUtils.isBlank(op) || Envelope.Operation.READ.equals(op))) {
                ChangeData changeData = getChangeData(payload);
               // 這裡丟擲異常會導致後面的日誌監聽失敗
                try {
                    mysqlBinlogService.service(changeData);
                }catch (Exception e){
                    log.error("binlog處理異常,原資料: " + changeData, e);
                }

            }
        }
    }

    @PostConstruct
    private void start() {
        for (DebeziumEngine<ChangeEvent<String, String>> engine : engineList) {
            taskExecutor.execute(engine);
        }
    }

    @PreDestroy
    private void stop() {
        for (DebeziumEngine<ChangeEvent<String, String>> engine : engineList) {
            if (engine != null) {
                try {
                    engine.close();
                } catch (IOException e) {
                    log.error("", e);
                }
            }
        }
    }

    public static Map<String, Object> getPayload(String value) {
        Map<String, Object> map = JSON.parseObject(value, Map.class);
        Map<String, Object> payload = JSON.parseObject(JSON.toJSONString(map.get("payload")), Map.class);
        return payload;
    }

    public static ChangeData getChangeData(Map<String, Object> payload) {
        Map<String, Object> source = JSON.parseObject(JSON.toJSONString(payload.get("source")), Map.class);
        return ChangeData.builder()
                .op(payload.get("op").toString())
                .table(source.get("table").toString())
                .after(JSON.parseObject(JSON.toJSONString(payload.get("after")), Map.class))
                .source(JSON.parseObject(JSON.toJSONString(payload.get("source")), Map.class))
                .before(JSON.parseObject(JSON.toJSONString(payload.get("before")), Map.class))
                .build();
    }

    @Data
    @Builder
    public static class ChangeData {
        /**
         * 更改前資料
         */
        private Map<String, Object> after;
        private Map<String, Object> source;
        /**
         * 更改後資料
         */
        private Map<String, Object> before;
        /**
         * 更改的表名
         */
        private String table;
        /**
         * 操作型別, 列舉 Envelope.Operation
         */
        private String op;
    }

}

將監聽到的binlog日誌封裝為ChangeData物件,包括表名,更改前後的資料,

以及操作型別

READ("r"),
CREATE("c"),
UPDATE("u"),
DELETE("d"),
TRUNCATE("t");

測試

update操作輸出

MysqlListener.ChangeData(after = {
	name = Suzuki Mio2,
	id = 1
}, source = {
	file = binlog .000013,
	connector = mysql,
	pos = 42587833,
	name = test - 1,
	row = 0,
	server_id = 1,
	version = 1.7 .0.Final,
	ts_ms = 1691458956000,
	snapshot = false,
	db = test
	table = test
}, before = {
	name = Suzuki Mio,
	id = 1
}, table = test, op = u)
data = {
	name = Suzuki Mio2,
	id = 1
}

新增操作輸出

MysqlListener.ChangeData(after = {
	name = 王五,
	id = 0
}, source = {
	file = binlog .000013,
	connector = mysql,
	pos = 42588175,
	name = test - 1,
	row = 0,
	server_id = 1,
	version = 1.7 .0.Final,
	ts_ms = 1691459066000,
	snapshot = false,
	db = test,
	table = test
}, before = null, table = test, op = c)

刪除操作輸出

MysqlListener.ChangeData(after = null, source = {
	file = binlog .000013,
	connector = mysql,
	pos = 42588959,
	name = test - 1,
	row = 0,
	server_id = 1,
	version = 1.7 .0.Final,
	ts_ms = 1691459104000,
	snapshot = false,
	db = test
	table = test
}, before = {
	name = 王五,
	id = 0
}, table = test, op = d)

我們之前配置的儲存讀取進度的檔案storageFile,類似於kafka的偏移量,記錄的內容如下:

停止服務,對資料庫進行操作,再次重啟,會根據進度重新讀取。

小結

本文介紹了debezium,更多的時候,我們一談到CDC,第一想到的是大量資料同步的工具。 但其實也可以利用其資料變更捕獲的特性,來達到一部份訊息佇列的作用。

但其畢竟不能完全替代訊息佇列。大家理性看待與選擇。

本文的重點在介紹一種思路,具體的某項技術反而不那麼重要。

更多文章推薦:

1.Spring Boot 3.x 教程,太全了!

2.2,000+ 道 Java面試題及答案整理(2024最新版)

3.免費獲取 IDEA 啟用碼的 7 種方式(2024最新版)

覺得不錯,別忘了隨手點贊+轉發哦!

相關文章