排查Mysql突然變慢的一次過程

嚴陣以待發表於2020-08-07

原文網址 : https://www.cnblogs.com/yanzhenyidai/p/13450965.html

MySql

排查Mysql突然變慢的一次過程

本文源地址：排查Mysql突然變慢的一次過程

上週客戶說系統突然變得很慢，而且時不時的蹦出一個 404 和 500，弄得真的是很沒面子，而恰巧出問題的時候正在深圳出差，所以一直沒有時間看問題，一直到今天，才算是把問題原因找到。

定位問題

剛開始得到是系統慢的反饋，沒有將問題點定位到資料庫上，查了半天服務是否正常（因為之前有一次Dubbo記憶體洩漏）。

在將應用服務日誌檢視了一遍後，沒有發現任何異常，只是打了幾個警告的日誌。

於是又檢視了業務執行時的日誌，看到日誌都提示了一個 Lock wait timeout exceeded; try restarting transaction 的異常。

這時還是沒有將重心放到資料庫上，認為是程式碼的原因，導致事務一直沒有提交。

重新將程式碼審閱了一遍，覺得應該不是程式碼邏輯的問題，而這個時候， Lock wait timeout exceeded; try restarting transaction 這個異常的日誌越來越多。

認為是資料庫層面出了問題，開始排查資料庫。

尋找原因

由於我們的資料庫不是用的 雲RDS版本，是在一臺8核32G的AWS上的安裝版本。

使用 top 命令，檢視到 Mysql 佔用的 CPU 使用率高達 90% 左右。

心裡一慌，感覺不妙，這樣子高負載的CPU使用率，搞不好伺服器都要宕掉。

於是拿出了僅有的一點Mysql基本知識，基本上這次只使用到了下面幾個語句：

檢視當前Mysql所有的程式

show processlist;

檢視Mysql的最大快取

show global variables like "global max_allowed_packet"

檢視當前正在進行的事務

select * from information_schema.INNODB_TRX

檢視當前Mysql的連線數

show status like 'thread%'

解決

按照上面的幾個語句，一步一步跟蹤定位下來。

show processlist; 下來，我們就可以檢視出當前所有的程式，並且得到最耗時的程式。

在當前資料庫中，看到處於 Sleep 狀態的SQL非常多，而這也是佔用CPU過高的重大原因，休眠執行緒太多，於是配置了一個 wait_time_out 為 600 秒的一個解決方案。

為什麼配置600秒，因為我們應用超時時間配置的最大時間就是 600秒，10分鐘，這裡的配置需要根據業務來具體配置。

select * from information_schema.INNODB_TRX

執行這個語句，看到Mysql中大部分處於 Lock 的SQL是一條 update 的SQL，而且還有一個單條件的SQL，查詢居然耗時4分鐘，很是驚訝。

於是檢視了這張表。

剛一開啟結構，差點沒忍住口吐芬芳，居然一個索引都沒有，資料量超過300W，沒有索引查詢基本上都要4分鐘往上走。

於是準備加上索引，在一陣漫長的等待中，索引終於加上去了。

show status like 'thread%'

索引加上去了之後，檢視了一下當前Mysql的連線數，似乎沒有之前那麼高了，估計是擠壓的太多。

然後又檢視了下伺服器的CPU佔用率，這次好了一點，從1%到80%來回跳動，沒有出現90&那麼高的頻率。

總結

Mysql作為使用頻率非常高的資料庫，對於它的SQL調優真的是一門技術活，而且專案中的一些SQL看的也是想吐，這種調優起來真的難上加難。

其實 information_schema 這個資料庫，裡面的Mysql日誌看起來比業務日誌順眼的很多。

解Bug之路-記一次中介軟體導致的慢SQL排查過程
2020-09-07
SQL
一次奇怪的的bug排查過程
2021-11-30
線上的一次fullgc排查過程
2024-07-03
GC
記一次FreeBSD系統中mysql服務異常的排查過程
2022-07-13
MySql
記一次OOM問題排查過程
2019-11-22
OOM
一次線上介面超時的排查過程
2019-09-28
一次JVM GC長暫停的排查過程！
2023-04-06
JVMGC
一次JVM GC長暫停的排查過程
2023-01-12
JVMGC
一次sqlldr匯入慢的解決過程
2019-03-06
SQL
解Bug之路-記一次線上請求偶爾變慢的排查
2020-10-12
一次線上問題的排查解決過程
2019-02-24
一次FGC導致CPU飆高的排查過程
2020-06-01
GC
一次ygc越來越慢的問題排查過程
2019-03-14
GC
記一次"記憶體洩露"排查過程
2019-10-15
記憶體洩露
一次IOS通知推送問題排查全過程
2022-05-04
iOS
記錄一次Flink作業異常的排查過程
2020-06-17
解Bug之路-記一次儲存故障的排查過程
2020-10-14
記一次線上崩潰問題的排查過程
2021-11-10
記一次排查Flutter中預期外rebuild的過程
2021-06-01
FlutterRebuild
原始碼解析丨一次慢SQL排查
2024-03-22
原始碼SQL
一次排查Java專案記憶體洩漏的過程
2018-08-17
Java記憶體
記一次使用windbg排查記憶體洩漏的過程
2020-05-31
記憶體
記錄一次排查解決伺服器卡死的過程
2024-07-12
伺服器
記錄一次資料庫CPU被打滿的排查過程
2022-08-31
資料庫
記錄一次線上OOM情況排查過程
2018-05-17
OOM
記錄一次記憶體洩漏排查過程
2023-11-06
記憶體
一次HIS系統卡頓原因排查過程分享
2022-10-18
tikv oom排查過程
2022-08-07
OOM
記錄一次K8s pod被殺的排查過程
2024-01-05
K8S
記一次堆外記憶體洩漏排查過程
2024-06-10
記憶體
記一次系統演變過程
2020-05-18
記一次開啟資料庫慢原因分析過程
2023-03-13
資料庫
Mysql之一次完成的sql執行過程
2024-07-21
MySql
QTableView和QStandardItemModel插入更新資料效能突然變慢
2024-08-14
QTView
MySQL 記一次 Bug發現過程
2018-04-04
MySql
【Ubuntu】記一次伺服器被礦工光顧的排查過程
2019-07-03
Ubuntu伺服器
一次 Java 記憶體洩漏排查過程，漲姿勢
2021-09-09
Java記憶體
記一次排查線上MySQL死鎖過程，不能只會curd，還要知道加鎖原理
2022-06-29
MySql

排查Mysql突然變慢的一次過程

排查Mysql突然變慢的一次過程

定位問題

尋找原因

解決

總結

相關文章