教你如何解決MySQL資料延遲跳動的問題

安全劍客發表於2020-09-12
今天分析了另外一個關於資料庫延遲跳動的問題,也算是比較典型,這個過程中也有一些分析問題的方法和技巧工參考。

首先在高可用檢測中,有一套環境的檢測時斷時續,經過排查發現是資料庫產生了延遲,在登入到從庫show slave status檢視,會發現Seconds_behind_master的值是不斷跳動的,即從0~39~0~39這樣的頻率不斷跳動,讓人很搓火。

檢視資料庫的相關日誌發現竟然沒有任何可以參考的日誌記錄,怎麼分析這個問題呢,我們先來複現,於是我按照節奏抓取了3次問題出現的日誌,即透過show slave status連續監測,抓取show slave status輸出的結果儲存下來,這樣我們就得到了一個問題發生過程中的偏移量變化,而這個變化則是在SQLThread在回放過程中產生的問題。

比如下面的一段輸出,我擷取的是Slave端的relay log進行分析,相應的欄位為Relay_Log_Pos

Slave_IO_State: Waiting for master to send event
         Master_Host: xxxx
         Master_User: dba_repl
         Master_Port: 4306
        Connect_Retry: 60
       Master_Log_File: mysqlbin.000044
     Read_Master_Log_Pos: 386125369
        Relay_Log_File: slave-relay-bin.000066
        Relay_Log_Pos: 386125580
    Relay_Master_Log_File: mysqlbin.000044

所以很快得到了偏移量的變化情況:385983806 ,386062813 ,386125580

接著我使用mysqlbinlog開始分析這些日誌過程中的明細,根據如下的 可以很快得到轉儲的日誌中相關的表有3張。

# grep INSERT relaylog_xxxx.dump |awk '{print $3 " " $4}'|sed 's/INTO//g'|sort|uniq
 act_action_exec_info
 act_join_desc
 dic_subsidy_marketing_querylog_202008

我逐步分析了每張表的資料操作情況,得到的資訊還是比較有限,繼續做更進一步的分析,比如我們分析一下整個日誌中的事務量大小:

# mysqlbinlog slave-relay-bin.000066 | grep "GTID$(printf '\t')last_committed" -B 1 \
>                   | grep -E '^# at' | awk '{print $3}' \
>                   | awk 'NR==1 {tmp=$1} NR>1 {print ($1-tmp);tmp=$1}' \
>                   | sort -n -r | head -n 100
mysqlbinlog: [Warning] unknown variable 'loose-default-character-set=utf8'
5278
5268
5268
5268
5253
5253
5253
5253
5253

可以看到是5K左右,算是比較大了,而這些額外的資訊從哪裡獲得呢,我在主庫開啟了general_log,這樣就能夠得到更細粒度的操作日誌了。

進一步分析發現,整個業務使用了顯示事務的方式:SET autocommit=0,整個事務中包含了幾個大SQL,裡面儲存了很多操作日誌明細,而且在事務操作過程中還基於Mybatis框架呼叫了多次select count(1) from xxx的操作。

經過和業務溝通也基本明確了以上問題。

以上就是MySQL資料延遲跳動的問題解決的詳細內容。

原文地址:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31559985/viewspace-2719035/,如需轉載,請註明出處,否則將追究法律責任。

相關文章