從一個線上問題分析binlog與內部XA事務提交過程

京东發表於2018-12-05

原文網址 : https://www.jiqizhixin.com/articles/2018-12-05-14

1. 問題

業務上新增一條訂單記錄，使用者接收到BinLake拉取的MySQL從庫資料訊息後，馬上根據訊息內的訂單號去查詢同一個MySQL從庫，發現有些時候無法查到該條資料，等待大約500ms～1000ms後再去查詢資料庫，可以查詢到該條資料。

注: BinLake為京東商城資料庫技術部自研的一套訂閱和消費MySQL資料庫binlog的元件，本例所描述的問題是業務方希望根據訂閱的binlog來獲取實時訂單等業務訊息。

2. Binlog與內部XA

2.1 XA的概念

XA(分散式事務)規範主要定義了(全域性)事務管理器(TM: Transaction Manager)和(區域性)資源管理器(RM: Resource Manager)之間的介面。XA為了實現分散式事務，將事務的提交分成了兩個階段：也就是2PC (tow phase commit)，XA協議就是通過將事務的提交分為兩個階段來實現分散式事務。

兩階段

1）prepare 階段

事務管理器向所有涉及到的資料庫伺服器發出prepare"準備提交"請求，資料庫收到請求後執行資料修改和日誌記錄等處理，處理完成後只是把事務的狀態改成"可以提交",然後把結果返回給事務管理器。即：為prepare階段，TM向RM發出prepare指令，RM進行操作，然後返回成功與否的資訊給TM。

2）commit 階段

事務管理器收到回應後進入第二階段，如果在第一階段內有任何一個資料庫的操作發生了錯誤，或者事務管理器收不到某個資料庫的回應，則認為事務失敗，回撤所有資料庫的事務。資料庫伺服器收不到第二階段的確認提交請求，也會把"可以提交"的事務回撤。如果第一階段中所有資料庫都提交成功，那麼事務管理器向資料庫伺服器發出"確認提交"請求，資料庫伺服器把事務的"可以提交"狀態改為"提交完成"狀態，然後返回應答。即：為事務提交或者回滾階段，如果TM收到所有RM的成功訊息，則TM向RM發出提交指令；不然則發出回滾指令。

外部與內部XA

MySQL中的XA實現分為：外部XA和內部XA。前者是指我們通常意義上的分散式事務實現；後者是指單臺MySQL伺服器中，Server層作為TM(事務協調者，通常由binlog模組擔當)，而伺服器中的多個資料庫例項作為RM，而進行的一種分散式事務，也就是MySQL跨庫事務；也就是一個事務涉及到同一條MySQL伺服器中的兩個innodb資料庫(目前似乎只有innodb支援XA)。內部XA也可以用來保證redo和binlog的一致性問題。

2.2. redo與binlog的一致性問題

我們MySQL為了相容其它非事務引擎的複製，在server層面引入了 binlog, 它可以記錄所有引擎中的修改操作，因而可以對所有的引擎使用複製功能；然而這種情況會導致redo log與binlog的一致性問題；MySQL通過內部XA機制解決這種一致性的問題。

第一階段：InnoDB prepare， write/sync redo log；binlog不作任何操作；

第二階段：包含兩步，1> write/sync Binlog； 2> InnoDB commit (commit in memory)；

當然在5.6之後引入了組提交的概念，可以在IO效能上進行一些提升，但總體的執行順序不會改變。

當第二階段的第1步執行完成之後，binlog已經寫入，MySQL會認為事務已經提交併持久化了(在這一步binlog就已經ready並且可以傳送給訂閱者了)。在這個時刻，就算資料庫發生了崩潰，那麼重啟MySQL之後依然能正確恢復該事務。在這一步之前包含這一步任何操作的失敗都會引起事務的rollback。

第二階段的第2步大部分都是記憶體操作，比如釋放鎖，釋放mvcc相關的read view等等。MySQL認為這一步不會發生任何錯誤，一旦發生了錯誤那就是資料庫的崩潰，MySQL自身無法處理。這個階段沒有任何導致事務rollback的邏輯。在程式執行層面，只有這一步完成之後，事務導致變更才能通過API或者客戶端查詢體現出來。

下面的一張圖，說明了MySQL在何時會將binlog傳送給訂閱者。

從一個線上問題分析binlog與內部XA事務提交過程理論上來說，也可以在commit階段完成之後再將binlog傳送給訂閱者，但這樣會增大主從延遲的風險。

3. 相關程式碼

4. int MYSQL_BIN_LOG::ordered_commit(THD *thd, bool all, bool skip_commit) {

5. .....

6. //進入flush stage，

7. change_stage(thd, Stage_manager::FLUSH_STAGE, thd, NULL, &LOCK_log);

8. ....

9. //通知底層儲存引擎日誌刷盤

10. process_flush_stage_queue(&total_bytes, &do_rotate, &wait_queue);

11. .....

12. //將各個執行緒的binlog從cache寫到檔案中

13. flush_cache_to_file(&flush_end_pos);

14. ....

15. //進入到Sync stage

16. change_stage(thd, Stage_manager::SYNC_STAGE, wait_queue, &LOCK_log,

17. &LOCK_sync));

18. //binlog fsync落盤

19. sync_binlog_file(false)

20. //通知binlog傳送執行緒，有新的binlog落盤可以傳送到訂閱者了

21. update_binlog_end_pos(tmp_thd->get_trans_pos());

22. //進入commit state

23. change_stage(thd, Stage_manager::COMMIT_STAGE, final_queue,

24. leave_mutex_before_commit_stage, &LOCK_commit);

25.

26. ....

27. //事務狀態提交

28. process_commit_stage_queue(thd, commit_queue);

29. ....

30.

31. }

其中，在update_binlog_end_pos之後，binlog傳送執行緒就已經可以讀取最新的binlog傳送給訂閱者了。當訂閱者收到這些binlog之後如果process_commit_stage_queue因為系統排程等原因還未執行完成，那麼訂閱者碰巧在此時發起問題中所描述的查詢，就會發生查詢不到的情況。

下面我們看一下process_commit_stage_queue都做了什麼。

在process_commit_stage_queue會分別呼叫到binlog的commit方法binlog_commit和innodb的commit函式trx_commit_in_memory。

1. static int binlog_commit(handlerton *, THD *, bool) {

2. DBUG_ENTER("binlog_commit");

3. /*

4. Nothing to do (any more) on commit.

5. */

6. DBUG_RETURN(0);

7. }

在binlog_commit中什麼也不做，因為跟binlog有關的操作前面都已經做完了。

最後看一下儲存引擎innodb的trx_commit_in_memory都幹了什麼。

1. static void trx_commit_in_memory(

2. trx_t *trx, /*!< in/out: transaction */

3. const mtr_t *mtr, /*!< in: mini-transaction of

4. trx_write_serialisation_history(), or NULL if

5. the transaction did not modify anything */

6. bool serialised)

7. /*!< in: true if serialisation log was

8. written */

9. {

10. ....

11. //釋放鎖

12. lock_trx_release_locks(trx);

13.

14. ut_ad(trx_state_eq(trx, TRX_STATE_COMMITTED_IN_MEMORY));

15.

16. .....

17. //釋放mvcc相關的read view

18. if (trx->read_only || trx->rsegs.m_redo.rseg == NULL) {

19. MONITOR_INC(MONITOR_TRX_RO_COMMIT);

20. if (trx->read_view != NULL) {

21. trx_sys->mvcc->view_close(trx->read_view, false);

22. }

23.

24. } else {

25. ut_ad(trx->id > 0);

26. MONITOR_INC(MONITOR_TRX_RW_COMMIT);

27. }

28. }

29. ....

30. //清理insert操作相關的undo log(注意，此時只有insert的undo需要清理)

31. if (mtr != NULL) {

32. if (trx->rsegs.m_redo.insert_undo != NULL) {

33. trx_undo_insert_cleanup(&trx->rsegs.m_redo, false);

34. }

35.

36. if (trx->rsegs.m_noredo.insert_undo != NULL) {

37. trx_undo_insert_cleanup(&trx->rsegs.m_noredo, true);

38. }

39. }

這一步完成之後，在執行時刻事務的變更才能被查詢到。但需要記住，MySQL在binlog落盤成功後就認為事務的持久化已經完成。

4.總結

在binlog落盤之後，MySQL就會認為事務的持久化已經完成(在這個時刻之後，就算資料庫發生了崩潰都可以在重啟後正確的恢復該事務)。但是該事務產生的資料變更被別的客戶端查詢出來還需要在commit全部完成之後。MySQL會在binlog落盤之後會立即將新增的binlog傳送給訂閱者以儘可能的降低主從延遲。但由於多執行緒時序等原因，當訂閱者在收到該binlog之後立即發起一個查詢操作，可能不會查詢到任何該事務產生的資料變更(因為此時該事務所處執行緒可能尚未完成最後的commit步驟)。

如果應用需要根據binlog作為一些業務邏輯的觸發點，還是需要考慮引入一些延時重試機制或者重新考慮合適的實現架構。

一次線上問題的排查解決過程
2019-02-24
一次線上問題處理過程記錄
2021-12-12
一次「找回」TraceId的問題分析與過程思考
2023-04-21
記一次線上崩潰問題的排查過程
2021-11-10
線上併發事務死鎖問題排查
2021-07-23
PostgreSQL 原始碼解讀（123）- MVCC#8(提交事務-實際提交過程)
2019-01-18
SQL原始碼MVCC#
記錄一次RPC服務有損上線的分析過程
2024-11-25
RPC
一次線上OOM問題分析
2023-02-28
OOM
深度剖析分散式事務之 AT 與 XA 對比
2022-04-11
分散式
MySQL：從庫binlog 使用mysqlbinlog stop-datetime過濾問題
2019-07-24
MySql
Linux一個服務被訪問的過程
2020-10-08
Linux
記錄開發過程一個路由問題
2020-10-28
路由
mysql同一個事務中update，insert導致死鎖問題分析解決
2021-09-09
MySql
mysql複製那點事(2)-binlog組提交原始碼分析和實現
2019-08-12
MySql原始碼
MySQL資料庫分散式事務XA的實現原理分析
2019-10-18
MySql資料庫分散式
MySQL 核心模組揭秘 | 06 期 | 事務提交之前，binlog 寫到哪裡？
2024-02-28
MySql
spark原始碼之任務提交過程
2018-10-15
Spark原始碼
Linux下MySQL主從複製(Binlog)的部署過程
2021-08-23
LinuxMySql
一次詭異的線上資料庫的死鎖問題排查過程
2019-04-09
資料庫
記錄一個HttpClient超時連線配置不生效的問題排查過程
2024-04-26
HTTPclient
上線後遇到一個很奇怪的問題
2020-02-11
Docker殺掉了容器？問題分析與解決過程全面覆盤
2022-08-31
Docker
1.3 OGG問題解決整理（中文亂碼、mysql端語法錯誤、XA事務問題等持續更新）
2019-11-13
MySql
## 【分散式事務】面試官問我：MySQL中的XA事務崩潰瞭如何恢復？？
2020-10-31
分散式面試MySql
記一次線上服務CPU 100%的處理過程
2020-07-10
Redis 事務不解決 SETNX DECR 過期問題
2020-01-23
Redis
線上定時指令碼執行慢，分析過程
2018-03-15
指令碼
避坑指南：關於SPDK問題分析過程
2020-06-10
[譯] Spring 的分散式事務實現 — 使用和不使用 XA — 第一部分
2019-05-05
Spring分散式
使用FlexyPool度量你的XA事務連線池合適大小 - Vlad Mihalcea
2019-07-02
Flex
程式碼提交過程
2020-09-30
線上的一次fullgc排查過程
2024-07-03
GC
[貝聊科技]一個頁面阻塞問題的排查過程
2019-03-02
Jackson JSON包在從物件對映到Json字串過程的迴圈依賴問題-分析與解決
2019-03-19
JSON物件字串
從一個死鎖問題分析最佳化器特性
2023-09-22
接入HMS Core應用內購買服務過程中一些常見問題總結
2023-03-26
為何Binlog中同一個事務的event時間點會亂序？
2019-01-16
一次線上OOM問題的個人覆盤
2023-04-01
OOM

從一個線上問題分析binlog與內部XA事務提交過程

相關文章