MySQL事務還沒提交，Canal就能讀到訊息了？

攜程DBA發表於2023-03-28

原文網址 : https://www.cnblogs.com/CtripDBA/p/17265902.html

【問題描述】

開發有天碰到一個很奇怪的問題，他的場景是這樣子的：
透過Canal來訂閱MySQL的binlog, 當捕獲到有資料變化時，回到資料庫，反查該資料的明細，然後做進一步處理。
有一次，他碰到一個詭異的現象：

1.  Canal收到訊息，有一條主鍵id=31019319的資料插入
2.  11:19:51.081, 應用程式去反查資料庫，11:19:51.084查詢完畢，發現id=31019319的資料為空
3.  過幾分鐘後，開發去手工查資料庫，發現id=31010319的資料是存在的，每次插入的時候，我們會在資料庫記錄插入時間，發現插入的時間是11:19:51.059。

讓開發感到困惑的是11:19:51.059寫入的資料，11:19:51.081去查詢，應該是能查到資料的呀。我們首先排除了讀寫分離，主從分離等場景，Canal訂閱和資料庫查詢都是在Master上，所以這個問題就變得非常詭異了。

【問題分析】

因為中間夾雜著Canal, 而Canal是透過binlog讀取的，這個問題我們可以簡化為：當我們在master插入一條資料，該資料在master還沒落庫，但是在Slave卻能查到。我們嘗試重現這種場景。因為我們是採用GTID模式，GTID也就是全域性事務編號，我們透過跟蹤GTID來除錯問題。

我們建立一個測試表如下：

CREATE TABLE `gtid_debug` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(10) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

此時，在Master和Slave上，分別收集到的GTID資訊如下：

角色	@@global_gtid_executed	@@port
Master	be7945f1-3613-11ec-8353-98039ba5775a:1-16	3306
Slave	be7945f1-3613-11ec-8353-98039ba5775a:1-16	3307

我們在Master上開啟gdb除錯，在函式ReplSemiSyncMaster::commitTrx上設定斷點。

步驟1：

在Master上，開啟Session1, 插入一條資料：

insert into gtid_debug(name)values('test1');

此時會hit到斷點。

步驟2：

在Slave上，開啟Session2, 檢視GTID:

角色	@@global_gtid_executed	@@port
Slave	be7945f1-3613-11ec-8353-98039ba5775a:1-17	3307

也就是說，事務在Slave上，開始走字了。
我們進行如下查詢：可以看到，在Slave這條記錄能被查詢到。

slave>select * from test.gtid_debug;
| ID   | NAME  |
| ---- | ----- |
| 1    | test1 |

步驟3：

在Master上，我們開啟Session3, 檢視GTID, 這個session也會被斷點中斷，我們繼續執行下一步，直到查詢結果返回。注意，此時Session1還停留在斷點上，未提交成功。

角色	@@global_gtid_executed	@@port
Master	be7945f1-3613-11ec-8353-98039ba5775a:1-16	3306

並進行如下查詢，返回結果為空：

master>select * from test.gtid_debug;
Empty set

所以我們重現了問題，也就是說，在Master插入資料，事務還沒有提交，但在Slave就能查到了。 Slave跑的比Master還快。

【原因分析】

重現了問題後，我們對問題進行分析，並檢視了相應程式碼，發現是半同步複製的模式導致，半同步複製有兩種模式: After_Sync(5.7版本預設)模式和After_Commit（5.6版本預設）模式。我們線上的版本是5.7，所以採用的是After_Sync模式。

從上圖可以看到，一個事務在半同步模式下提交，無論是after_sync還是after_commit，都要經歷4個階段：

1. InnoDB Redo File Prepare Write
2. Binlog File Flush & Sync
3. InnoDB Redo File Commit (同時釋放事務持有的鎖)
4. Send binlog to Slave

After_Commit模式的四個階段順序為: 1->2->3->4, 而after_sync模式的順序為1->2->4->3.

在5.7預設的after_sync模式下，確實存在先傳送binlog到Slave, 然後再進行事務提交的場景。這時候大家會問了，為啥5.7把半同步複製改為after_sync模式了？這主要是因為after_commit機制存在資料丟失的風險。我們可以設想一下，在3->4的T1時間段，新資料對其它Session已經可見，突然Master掛了，MySQL進行主從切換，這時事務在Master上完成，如在Slave上不存在，切換後，業務會發現之前能查到的資料又沒了。

而在after_sync模式下，其執行的順序為1->2->4->3. 也就是說Master在收到Slave的應答之後，才Commit事務。在3->4的T1時間段內，因事務還未Commit，新資料對其它Session還不可見，所以看上去像比Slave跑的更慢。具體可以參考網上關於這兩種模式的討論。

【解決建議】

我們分析清楚問題之後，解決的方法就比較簡單了。不建議改為after_commit模式，雖然改為after_commit模式，可以保證事務在Master落地後，Canal才會讀到訊息，但存在主從切換事務丟失的風險。我們的解決方法，是在Canal訊息處理時，延後1秒再處理。這樣解決方法比較合理。因為一般來講，業務對訊息的實時性不是特別高。

RocketMQ與MYSQL事務訊息整合
2019-07-09
MQMySql
MySQL事務兩段式提交
2020-07-06
MySql
解析 RocketMQ 業務訊息——“事務訊息”
2022-08-11
MQ
MySQl事務建立，開始以及提交
2022-06-02
MySql
RocketMQ 分散式事務訊息
2020-08-28
MQ分散式
RocketMQ訊息丟失解決方案：事務訊息
2020-10-13
MQ
MySQL 核心模組揭秘 | 06 期 | 事務提交之前，binlog 寫到哪裡？
2024-02-28
MySql
MySQL：begin後事務為什麼不提交
2019-05-23
MySql
MySQL實現事務的提交和回滾
2020-12-02
MySql
使用canal增量同步mysql資料庫資訊到ElasticSearch
2019-06-22
MySql資料庫Elasticsearch
深入理解 RocketMQ -事務訊息
2020-11-18
MQ
分散式事務利器——RocketMQ事務訊息的啟示
2019-07-01
分散式MQ
go2.0怎麼沒訊息了
2019-05-23
Go
MySQL事務提交的三個階段介紹
2018-08-24
MySql
mysql隱式提交事務transaction一點筆記
2019-11-25
MySql筆記
分散式訊息佇列RocketMQ--事務訊息--解決分散式事務的最佳實踐
2019-01-10
分散式佇列MQ
分散式事務：訊息可靠傳送
2019-02-22
分散式
rocketmq事務訊息入門介紹
2018-07-30
MQ
以事務方式傳送 Kafka 訊息
2022-07-21
Kafka
分散式事務：基於可靠訊息服務
2018-12-07
分散式
十五：MySQL層事務提交流程簡析（筆記）
2019-07-09
MySql筆記
第15節：MySQL層事務提交流程簡析
2019-07-17
MySql
PostgreSQL 原始碼解讀（123）- MVCC#8(提交事務-實際提交過程)
2019-01-18
SQL原始碼MVCC#
KafkaConsumer對於事務訊息的處理
2018-08-30
Kafka
詳談：Redis事務和訊息訂閱
2019-06-28
Redis
事務單獨提交和
2022-06-24
一文帶你深度解析MySQL 8.0事務提交原理
2024-08-13
MySql
RabbitMQ系列（四）RabbitMQ事務和Confirm傳送方訊息確認——深入解讀
2018-07-22
MQ
OceanBase 原始碼解讀（八）：事務日誌的提交和回放
2022-03-21
原始碼
MySQL事務，這篇文章就夠了
2019-10-30
MySql
基於可靠訊息方案的分散式事務（二）：Java中的事務
2018-05-31
分散式Java
RocketMQ的事務訊息處理【half-message】
2020-11-22
MQ
關於 RocketMQ 事務訊息的正確開啟方式 → 你學廢了嗎
2021-11-15
MQ
【Mysql】資料庫事務，髒讀、幻讀、不可重複讀
2021-05-24
MySql資料庫
MySQL事務(4種事務隔離級別、髒寫、髒讀、不可重複讀、幻讀、當前讀、快照讀、MVCC、事務指標監控)
2024-03-10
MySqlMVC指標
Spring中的事務提交事件
2024-10-18
Spring事件
vitess兩階段提交事務
2021-09-09
Vite
搞懂分散式技術19：使用RocketMQ事務訊息解決分散式事務
2019-11-20
分散式MQ