一個20秒SQL慢查詢優化的經歷與處理方案

發表於2016-11-01

背景

前幾天在專案上線過程中，發現有一個頁面無法正確獲取資料，經排查原來是介面呼叫超時，而最後發現是因為SQL查詢長達到20多秒而導致了問題的發生。

這裡，沒有高深的理論或技術，只是備忘一下經歷和解讀一些思想誤區。

複雜SQL語句的構成

這裡不過多對業務功能進行描述，但為了突出問題所在，會用類比的語句來描述當時的場景。複雜的SQL語句可以表達如下：

SELECT * FROM a_table AS a 
LEFT JOIN b_table AS b ON a.id=b.id 
WHERE a.id IN (
    SELECT DISTINCT id FROM a_table 
    WHERE user_id IN (100,102,103) GROUP BY user_id HAVING count(id) > 3
)

SELECT * FROM a_table AS a

LEFT JOIN b_table AS b ON a.id=b.id

WHERE a.id IN (

SELECT DISTINCT id FROM a_table

WHERE user_id IN (100,102,103) GROUP BY user_id HAVING count(id) > 3

)

關聯查詢

從上面簡化的SQL語句，可以看出，首先進行的是關聯查詢。

子查詢

其次，是巢狀的子查詢。此子查詢是為了找出多個使用者共同擁有的組ID。所以語句中的“100,102,103”是根據場景來定的，並且需要和後面“count(id) > 3”的個數對應。簡單來說，就是找使用者交集的組ID。

耗時在哪？

假設現在a_table表的資料量為20W，而b_table的資料量為2000W。大家可以想一下，你覺得主要的耗時是在關聯查詢部分，還是在子查詢部分？

（思考空間。。。。）

（思考空間。。。。。。。）

（思考空間。。。。。。。。。。）

問題定位

對於SQL底層的原理和高深的理論，我暫時掌握不夠深入。但我知道可以通過類比和簡單的測試來驗證是哪一塊環節出了問題。

初步斷定

首先，對於只有一個使用者ID時，我會把上面的語句簡化成：

SELECT * FROM a_table AS a 
LEFT JOIN b_table AS b ON a.id=b.id 
WHERE user_id IN (100)

SELECT * FROM a_table AS a

LEFT JOIN b_table AS b ON a.id=b.id

WHERE user_id IN (100)

所以，初步斷定應該是巢狀的子查詢部分佔用了大部分的時間。

再進一步驗證

既然定位到了是巢狀的子查詢語句的問題，那又要分為兩塊待排查的區域：是子查詢本身耗時大，還是巢狀而導致慢查詢？

結果很容易發現，當我把子查詢單獨在DB中執行時，是非常快的。所以排除。

剩下的不言而喻，20秒的慢查詢是巢狀引起的。

但因為處於上線緊急的過程中，為了確保，我快速地驗證了我的結論：

1、將子查詢的ID單獨執行，並把得到的結果序列手動拼成一段ID，如：1,2,3,4, … , 999

2、將上面得到的序列ID，手動替換到原來的SQL語句

3、執行，發現，很快！只用了約150 ms

Well Done! 準備修復上線！

解決方案

線上的問題，很多時間都是在定位問題和分析原因，既然問題找到了，原因也找到了，解決方案不言而喻。程式碼簡單處理即可。

另外一個需要注意的點

當前，實際的SQL語句，會比這個更為複雜，但已足以表達問題所在。但在前期，筆者也做了一些SQL的程式碼。

因為b_table比a_table大，所以一開始 b_table 左關聯 a_table 時，很慢，大概是1秒多，而且資料量是很少的；但若反過來，a_table 左關聯 b_table 時，則很快，大概是100毫秒。

所以，又發現一個有趣的現象：

大表左關聯小表，很慢；小表左關聯大表，很快。

當然，這些我們理論上都知道，但實際開發會忘卻。又或者一開始兩個表都為空時，而又沒考慮到後期這兩個表增長的速度時，日後就會埋下坑了。

總結

首先，巢狀的子查詢是很慢的。

原因，我還沒仔細去研究，但在下班的路上和我的同事交流時，他說曾經看過這方面相關的書籍，是說每一次的子查詢都會產生一個SQL語句，所以就N次查詢了。而另外一位資深的QA同事則跟我說，應該是M*N的問題。

其次，我一開始使用巢狀子查詢，是存在這樣一個誤區：我覺得將這些操作交給MySQL自身來處理會更高效，畢竟DB內部會有良好的機制來執行這些查詢由。

然後，實際表白，我錯了。因為這不是簡單的合併MC批量查詢。

當我們決定使用一些底層的技術時，只有當我們理解透徹了，才能使用更為恰當。而因為無知就斷定工具、框架、底層無所不能時，往往就會中招。

一個慢查詢報警的簡單處理
2016-02-17
Sql語句本身的優化-定位慢查詢
2018-10-11
SQL優化
關於一個使用者SQL慢查詢問題的分析及優化
2014-05-26
SQL優化
MySQL 慢查詢優化
2019-06-23
MySql優化
《MySQL慢查詢優化》之SQL語句及索引優化
2020-12-06
MySql優化索引
SQL Server查詢慢的解決方案
2022-09-02
SQLServer
SQL Server查詢速度慢的原因及優化方法
2009-02-12
SQLServer優化
SQL Server查詢速度慢原因及優化方法
2010-06-07
SQLServer優化
SQL查詢優化
2010-09-02
SQL優化
Mysql 慢查詢優化實踐
2019-01-29
MySql優化
Mysql優化系列之——優化器對子查詢的處理
2020-01-21
MySql優化
SQL查詢優化的方法
2010-09-01
SQL優化
Oracle 單個表查詢速度極慢處理過程
2011-10-09
Oracle
優化sql查詢速度
2020-10-25
優化SQL
MySQL索引原理及慢查詢優化
2015-05-03
MySql索引優化
一次非常有趣的 SQL 優化經歷
2019-03-26
SQL優化
一次非常有趣的sql優化經歷
2019-03-17
SQL優化
涉及子查詢sql的一次優化
2011-07-28
SQL優化
一個經典的查詢及其SQL語句
2007-05-05
SQL
mysql效能優化-慢查詢分析、優化索引和配置
2013-12-17
MySql優化索引
表空間使用情況查詢慢的處理
2012-12-19
SQL Server資料庫查詢速度慢原因及優化方法
2009-02-03
SQLServer資料庫優化
SQL Server 2008 查詢優化
2008-12-22
SQLServer優化
SQL Server 查詢優化功能
2008-12-22
SQLServer優化
優化sql提高查詢速度
2013-03-27
優化SQL
MySQL 查詢處理 SQL查詢執行順序
2015-10-08
MySql
優化SQL Server 2008的查詢效能
2008-11-26
優化SQLServer
mysql處理海量資料時的一些優化查詢速度方法
2017-03-01
MySql優化
SQL慢查詢排查思路
2021-07-27
SQL
SQL使用模糊查詢like的優化
2017-05-14
SQL優化
SQL優化之多表關聯查詢-案例一
2019-08-19
SQL優化
一文終結SQL 子查詢優化
2021-01-31
SQL優化
一個connect by查詢語句的優化
2014-04-22
優化
【CHECKPOINT】Oracle檢查點優化與故障處理
2021-10-27
Oracle優化
MySQL Case-information_schema檢視查詢慢處理一例
2021-03-31
MySqlORM
Oracle 優化器與sql查詢執行順序
2015-04-23
Oracle優化SQL
一次非常有意思的SQL優化經歷
2015-04-28
SQL優化
十七、Mysql之SQL優化查詢
2018-12-17
MySql優化