TiDB SQL調優案例之避免TiFlash幫倒忙

balahoho發表於2023-03-28

原文網址 : https://www.cnblogs.com/hohoa/p/17266326.html

背景

早上收到某系統的告警tidb節點掛掉無法訪問，情況十萬火急。登入中控機查了一下display資訊，4個TiDB、Prometheus、Grafana全掛了，某臺機器hang死無法連線，經過快速重啟後叢集恢復，經排查後是昨天上線的某個SQL導致頻繁OOM。

企業微信截圖_20230316113735.png

於是開始亡羊補牢，來一波近期慢SQL巡檢 #手動狗頭#。。。

隨便找了一個出現頻率比較高的慢SQL，經過最佳化後竟然效能提升了1500倍以上，感覺有點東西，分享給大家。

分析過程

該慢SQL邏輯非常簡單，就是一個單表聚合查詢，但是耗時達到8s以上，必有蹊蹺。

脫敏後的SQL如下：

SELECT
    cast( cast( CAST( SUM( num ) / COUNT( time ) AS CHAR ) AS DECIMAL ( 9, 2 )) AS signed ) speed,
    ... -- 此處省略n個欄位
FROM
    (
    SELECT 
        DATE_FORMAT( receive_time, '%Y-%m-%d %H:%i:00' ) AS time,
        COUNT(*) AS num 
    FROM
        db1.table 
    WHERE
        create_time > DATE_SUB( sysdate(), INTERVAL 20 MINUTE ) 
    GROUP BY
        time 
    ORDER BY
    time 
    ) speed;

碰到慢SQL不用多想，第一步先上執行計劃：

企業微信截圖_20230316150702.png

很明顯，這張900多萬行的表因為建立了TiFlash副本，在碰到聚合運算的時候最佳化器選擇了走列存查詢，最終結果就是在TiFlash完成暴力全表掃描、排序、分組、計算等一系列操作，返回給TiDB Server時基本已經加工完成，總共耗時8.02s。

咋一看好像沒啥最佳化空間，但仔細觀察會發現一個不合理的地方。執行計劃倒數第二排的Selection運算元，也就是SQL裡面子查詢的where過濾，實際有效資料1855行，卻掃描了整個表接近950W行，這是一個典型的適合索引加速的場景。但遺憾的是，在TiFlash裡面並沒有索引的概念，所以只能默默地走全表掃描。

那麼最佳化的第一步，先看過濾欄位是否有索引，通常來說create_time這種十有八九都建過索引，檢查後發現確實有。

第二步，嘗試讓最佳化器走TiKV查詢，這裡直接使用hint的方式：

SELECT /*+ READ_FROM_STORAGE(TIKV[db1.table]) */
    cast( cast( CAST( SUM( num ) / COUNT( time ) AS CHAR ) AS DECIMAL ( 9, 2 )) AS signed ) speed,
    ... -- 此處省略n個欄位
FROM
    (
    SELECT 
        DATE_FORMAT( receive_time, '%Y-%m-%d %H:%i:00' ) AS time,
        COUNT(*) AS num 
    FROM
        db1.table 
    WHERE
        create_time > DATE_SUB( sysdate(), INTERVAL 20 MINUTE ) 
    GROUP BY
        time 
    ORDER BY
    time 
    ) speed;

再次生成執行計劃，發現還是走了TiFlash查詢。這裡就引申出一個重要知識點，關於hint作用域的問題，也就是說hint只能在指定的查詢範圍內生效。具體到上面這個例子，雖然指定了db1.table走TiKV查詢，但是對於它所在的查詢塊來說，壓根不知道db1.table是誰直接就忽略掉了。所以正確的寫法是把hint寫到子查詢中：

SELECT
    cast( cast( CAST( SUM( num ) / COUNT( time ) AS CHAR ) AS DECIMAL ( 9, 2 )) AS signed ) speed,
    ... -- 此處省略n個欄位
FROM
    (
    SELECT  /*+ READ_FROM_STORAGE(TIKV[db1.table]) */
        DATE_FORMAT( receive_time, '%Y-%m-%d %H:%i:00' ) AS time,
        COUNT(*) AS num 
    FROM
        db1.table 
    WHERE
        create_time > DATE_SUB( sysdate(), INTERVAL 20 MINUTE ) 
    GROUP BY
        time 
    ORDER BY
    time 
    ) speed;

對應的執行計劃為：

企業微信截圖_20230316153949.png

小提示：

也可以透過set session tidb_isolation_read_engines = 'tidb,tikv';來讓最佳化器走tikv查詢。

發現這次雖然走了TiKV查詢，但還是用的TableFullScan運算元，整體時間不降反升，和我們預期的有差距。

沒走索引那肯定是和查詢欄位有關係，分析上面SQL的邏輯，開發是想查詢table表建立時間在最近20分鐘的資料，用了一個sysdate()函式獲取當前時間，問題就出在這。

獲取當前時間常用的函式有now()和sysdate()，但這兩者是有明顯區別的。引用自官網的解釋：

now()得到的是語句開始執行的時間，是一個固定值
sysdate()得到的是該函式實際執行的時間，是一個動態值

聽起來比較饒，來個栗子一看便知：

mysql> select now(),sysdate(),sleep(3),now(),sysdate();
+---------------------+---------------------+----------+---------------------+---------------------+
| now()               | sysdate()           | sleep(3) | now()               | sysdate()           |
+---------------------+---------------------+----------+---------------------+---------------------+
| 2023-03-16 15:55:18 | 2023-03-16 15:55:18 |        0 | 2023-03-16 15:55:18 | 2023-03-16 15:55:21 |
+---------------------+---------------------+----------+---------------------+---------------------+
1 row in set (3.06 sec)

這個動態時間就意味著TiDB最佳化器在估算的時候並不知道它是個什麼值，走索引和不走索引哪個成本更高，最終導致索引失效。

從業務上來看，這個SQL用now()和sysdate()都可以，那麼就嘗試改成now()看看效果：

SELECT
    cast( cast( CAST( SUM( num ) / COUNT( time ) AS CHAR ) AS DECIMAL ( 9, 2 )) AS signed ) speed,
    ... -- 此處省略n個欄位
FROM
    (
    SELECT  /*+ READ_FROM_STORAGE(TIKV[db1.table]) */
        DATE_FORMAT( receive_time, '%Y-%m-%d %H:%i:00' ) AS time,
        COUNT(*) AS num 
    FROM
        db1.table 
    WHERE
        create_time > DATE_SUB( now(), INTERVAL 20 MINUTE ) 
    GROUP BY
        time 
    ORDER BY
    time 
    ) speed;

企業微信截圖_20230316160428.png

最終結果4.43ms搞定，從8.02s到4.43ms，1800倍的提升。

濫用函式，屬於是開發給自己挖的坑了。

解決方案

經過以上分析，最佳化思路已經很清晰了，甚至都是常規最佳化不值得專門拿出來講，但前後效果差異太大，很適合作為一個反面教材來提醒大家認真寫SQL。

其實就兩點：

讓最佳化器不要走TiFlash查詢，改走TiKV，可透過hint或SQL binding解決
非必須不要使用動態時間，避免帶來索引失效的問題

深度思考

最佳化完成之後，我開始思考最佳化器走錯執行計劃的原因。

在最開始的執行計劃當中，最佳化器對Selection運算元的估算值estRows和實際值actRows相差非常大，再加上本身計算和聚合比較多，這可能是導致誤走TiFlash的原因之一。不清楚TiFlash的estRows計算原理是什麼，如果在估算準確的情況並且索引正常的情況下會不會走TiKV呢？

另外，我還懷疑過動態時間導致最佳化器判斷失誤（認為索引失效才選擇走TiFlash），但是在嘗試只修改sysdate()為now()的情況下，發現依然走了TiFlash，說明這個可能性不大。

在索引欄位沒問題的時候，按正常邏輯來說，我覺得一個成熟的最佳化器應該要能夠判斷出這種場景走TiKV更好。

總結

TiFlash雖然是個好東西，但是最佳化器還在進化當中，難免有判斷失誤的時候，那麼會導致適得其反的效果，我們要及時透過人工手段介入。再給TiDB最佳化器一些時間。

良好的SQL習慣至關重要，這也是老生常談的問題了，再好的資料庫也扛不住亂造的SQL。

作者介紹：hey-hoho，來自神州數碼鈦合金戰隊，是一支致力於為企業提供分散式資料庫TiDB整體解決方案的專業技術團隊。團隊成員擁有豐富的資料庫從業背景，全部擁有TiDB高階資格證書，並活躍於TiDB開源社群，是官方認證合作伙伴。目前已為10+客戶提供了專業的TiDB交付服務，涵蓋金融、證券、物流、電力、政府、零售等重點行業。

SQL Server一次SQL調優案例
2019-10-10
SQLServer
Oracle SQL調優系列之SQL Monitor Report
2020-06-19
OracleSQL
TiDB 查詢優化及調優系列（一）TiDB 優化器簡介
2022-04-14
TiDB優化
深入瞭解 TiDB SQL 優化器
2022-04-25
TiDBSQL優化
TiDB 效能分析&效能調優&優化實踐大全
2022-06-20
TiDB優化
TiDB 查詢優化及調優系列（二）TiDB 查詢計劃簡介
2022-04-27
TiDB優化
TiDB HTAP 上手指南丨新增 TiFlash 副本的工作原理
2021-11-05
TiDB
MySQL調優篇 | SQL調優實戰（5）
2024-02-05
MySql
SQL優化案例-分割槽索引之無字首索引（六）
2018-08-21
SQL優化索引
MySQL SQL優化案例(一)
2021-11-30
MySql優化
Oracle效能優化-SQL優化(案例一)
2020-02-17
Oracle優化SQL
Oracle效能優化-SQL優化(案例二)
2020-02-17
Oracle優化SQL
Oracle效能優化-SQL優化(案例三)
2020-02-18
Oracle優化SQL
Oracle效能優化-SQL優化(案例四)
2020-02-18
Oracle優化SQL
弱結構化日誌 Flink SQL 怎麼寫？SLS SPL 來幫忙
2024-02-27
SQL
畫江湖之SQL優化 -10大經典案例場景
2021-09-16
SQL優化
女性想健康，AI來幫忙
2019-03-08
AI
SQL優化案例-union代替or（九）
2018-11-28
SQL優化
SQL優化案例-使用with as優化Subquery Unnesting（七）
2018-11-28
SQL優化
TiDB 效能分析&效能調優&最佳化實踐大全
2022-06-20
TiDB
Oracle 效能調優工具：SQL Monitor
2024-03-11
OracleSQL
SQL 調優一般思路
2020-07-02
SQL
效能調優——SQL最佳化
2024-07-02
SQL
TiDB 查詢優化及調優系列（四）查詢執行計劃的調整及優化原理
2022-05-24
TiDB優化
效能調優學習之硬體調優
2024-05-19
記一次SQL Server刪除SQL調優
2019-10-15
SQLServer
大資料SQL優化之資料傾斜解決案例全集
2022-01-06
大資料SQL優化
MySQL調優之索引優化
2021-11-09
MySql索引優化
透過案例學調優之--和 SHARED POOL 相關的主要 Latch
2018-05-15
SQL調優13連問，收藏好！
2023-12-26
SQL
MySQL 索引和 SQL 調優總結
2019-10-02
MySql索引
Oracle SQL調優之分割槽表
2019-05-18
OracleSQL
Oracle SQL優化之sql tuning advisor
2021-01-31
OracleSQL優化
特性標記清理：GitHub Actions 來幫忙！
2024-12-01
Github
故障模型哪家強？PDR 模型來幫忙
2022-04-18
模型
大夥幫忙給點人生建議哈！
2020-12-30
Linux之效能調優
2024-11-30
Linux
Oracle某行系統SQL優化案例(三)
2021-08-13
OracleSQL優化

TiDB SQL調優案例之避免TiFlash幫倒忙

背景

分析過程

解決方案

深度思考

總結

相關文章