Mysql優化原則_小表驅動大表IN和EXISTS的合理利用

OldBoy~發表於2018-01-19

//假設一個for迴圈
for($i = 0; $i < 10000; $i++) 
{
     for ($j = 0; $i < 50; $j++)
     {

     }
}

for($i = 0; $i < 50; $i++) 
{
    for ($j = 0; $i < 10000; $j++)
    {

    }
}

看以上兩個for迴圈，總共迴圈的次數是一樣的。但是對於mysql資料庫而言，並不是這樣了，我們儘量選擇第②個for迴圈，也就是小表驅動大表。
資料庫最傷神的就是跟程式連結釋放，第一個建立了10000次連結，第二個建立了50次。假設連結了兩次，每次做上百萬次的資料集查詢，查完就走，這樣就只做了兩次；相反建立了上百萬次連結，申請連結釋放反覆重複，這樣系統就受不了了。
這時候就誕生了in 和exists的對比。

小表驅動大表：即小的資料集驅動大的資料集。

這裡假設A表代表員工表，B表代表部門表。
假設部門只有三個，銷售、技術部、行政部，言下之意是在這三個部門裡的所有員工都查出。

select * from A where id in (select id from B);

這樣寫就等價於：
for select id from B。比如華為有100個部門，但是華為的員工少說有15W-20W，員工總比部門多，這時候就相當於得到了小表(部門表)；for select * from A where A.id = B.id，相當於A.id等B表裡面的，相當於從部門表獲得對應的id。

當B表的資料集必須小於A表的資料集時，用in優於exists。
反之

select * from A where exists (select 1 from B where B.id = A.id); //這裡的select 1並不絕對，可以寫為select 'X'或者'A','B','C'都可以，只要是常量就可以。

這樣寫就等價於：
for select * from A,先從A表做迴圈
for select * from B where B.id = A.id,再從B表做迴圈。
這樣exists就會變成看看A表是否存在於(select 1 from B where B.id = A.id)裡面，這個查詢返回的是TRUE或者FALSE的BOOL值，簡單來說就是要當A表的資料集小於B表的資料集時，用exists優於in。要注意的是：A表與B表的ID欄位應該建立索引。

語法：EXISTS
SELECT ...FROM table WHERE EXISTS(subquery)。
理解：將主查詢的資料放到子查詢中做條件驗證，根據驗證結果（TRUE或者FALSE）來決定朱查詢的資料結果是否得意保留。
相當於從表A和B中取出交集，然後再從A表中取出所在交集的部分資料，當然後面加WHERE條件還可以進一步篩選。
補充：
1：EXISTS(subquery)只返回TRUE或者FALSE，因此子查詢中的SELECT * 也可以是SELECT 1或者SELECT 'X'，官方說法是實際執行時會忽略SELECT清單，因此沒有區別。
2：EXISTS子查詢的實際執行過程可能經過了優化而不是我們理解上的逐條對比，如果擔憂效率問題，可進行實際校驗。
3：EXISTS子查詢旺旺可以用條件表示式，其他子查詢或者JOIN來替代，何種最優需要具體問題具體分析。

如果查詢的兩個表大小相當，那麼用in和exists差別不大。

延伸舉例鞏固：

如果兩個表中一個較小，一個是大表，則子查詢表大的用exists，子查詢表小的用in：
例如：表A（小表），表B（大表）

select * from A where cc in (select cc from B) ;//  效率低，用到了A表上cc列的索引；
select * from A where exists(select cc from B where cc=A.cc) ;// 效率高，用到了B表上cc列的索引。

相反的

select * from B where cc in (select cc from A) ; //效率高，用到了B表上cc列的索引；
select * from B where exists(select cc from A where cc=B.cc) ;//效率低，用到了A表上cc列的索引。

not in 和not exists如果查詢語句使用了not in 那麼內外表都進行全表掃描，沒有用到索引；而not extsts 的子查詢依然能用到表上的索引。所以無論那個表大，用not exists都比not in要快。

mysql驅動表、被驅動表、大表小表及join最佳化
2024-03-06
MySql
MySQL連線查詢驅動表被驅動表以及效能優化
2020-06-14
MySql優化
IN&EXISTS與NOT IN&NOT EXISTS 的優化原則的討論
2010-06-21
優化
MySQL的驅動表與被驅動表
2023-10-13
MySql
MySQL優化表和分析表
2014-05-06
MySql優化
MySQL大表優化方案
2020-12-01
MySql優化
UNDO表空間自動調優原則
2014-04-14
【轉】MySQL 建表的優化策略小結
2010-12-21
MySql優化
MySQL 大表優化方案探討
2016-08-05
MySql優化
MySQL分庫分表的原則
2020-07-11
MySql
MySQL表優化
2020-10-20
MySql優化
Laravel的unique和exists驗證規則的優化
2019-02-28
Laravel優化
MySQL exists 優化 in 效率
2016-06-08
MySql優化
乾貨！MySQL大表優化方案（1）
2018-10-17
MySql優化
MySQL 上億大表優化實踐
2020-11-05
MySql優化
Mysql表引擎優化
2019-05-11
MySql優化
MySql 日常指導，及大表優化思路
2018-08-22
MySql優化
Mysql資料庫大表最佳化方案和Mysql大表最佳化步驟
2019-03-07
MySql資料庫
Mysql多欄位大表的幾種優化方法
2019-02-16
MySql優化
【MySQL】NOT EXISTS優化的一個案例
2018-06-07
MySql優化
對IN & EXISTS NOT IN & NOT EXISTS的優化
2008-06-10
優化
MySQL臨時表的優化方案
2016-07-24
MySql優化
利用ORACLE_DATAPUMP為驅動建立外部表
2016-09-30
Oracle
MySQL如何優雅的刪除大表
2020-12-24
MySql
MySQL表連線及其優化
2021-02-20
MySql優化
mysql 大表中count() 使用方法以及效能優化.
2019-02-16
MySql優化
記一次mysql 4.5GB大表優化
2021-05-20
MySql優化
mysql 關於大資料量日誌表的優化過程
2017-04-05
MySql大資料優化
Oracle效能優化之合理利用資源（session）
2014-08-16
Oracle優化Session
MySQL大表最佳化方案
2017-07-22
MySql
MySQL資料庫的索引原理、與慢SQL優化的5大原則
2019-04-03
MySql資料庫索引優化
Mysql 優化——分析表讀寫和sql效率問題
2017-06-01
MySql優化
一個文章表的 MySQL 索引怎麼建立合理
2018-12-03
MySql索引
如何利用策略模式優化表單驗證
2020-02-27
模式優化
資料表的設計原則
2008-05-05
mysql優化 | 儲存引擎，建表，索引，sql的優化建議
2019-02-01
MySql優化儲存引擎索引
(轉)SQL 優化原則
2020-04-04
SQL優化
如何優化MySQL千萬級大表，我寫了6000字的解讀
2019-10-21
優化MySql

Mysql優化原則_小表驅動大表IN和EXISTS的合理利用

相關文章