Mysql優化原則_小表驅動大表IN和EXISTS的合理利用

OldBoy~發表於2018-01-19
//假設一個for迴圈
for($i = 0; $i < 10000; $i++) 
{
     for ($j = 0; $i < 50; $j++)
     {

     }
}

for($i = 0; $i < 50; $i++) 
{
    for ($j = 0; $i < 10000; $j++)
    {

    }
}

看以上兩個for迴圈,總共迴圈的次數是一樣的。但是對於mysql資料庫而言,並不是這樣了,我們儘量選擇第②個for迴圈,也就是小表驅動大表。
資料庫最傷神的就是跟程式連結釋放,第一個建立了10000次連結,第二個建立了50次。假設連結了兩次,每次做上百萬次的資料集查詢,查完就走,這樣就只做了兩次;相反建立了上百萬次連結,申請連結釋放反覆重複,這樣系統就受不了了。
這時候就誕生了in 和exists的對比。

小表驅動大表:即小的資料集驅動大的資料集。

這裡假設A表代表員工表,B表代表部門表。
假設部門只有三個,銷售、技術部、行政部,言下之意是在這三個部門裡的所有員工都查出。

select * from A where id in (select id from B);

這樣寫就等價於:
for select id from B。比如華為有100個部門,但是華為的員工少說有15W-20W,員工總比部門多,這時候就相當於得到了小表(部門表);for select * from A where A.id = B.id,相當於A.id等B表裡面的,相當於從部門表獲得對應的id。

當B表的資料集必須小於A表的資料集時,用in優於exists。
反之

select * from A where exists (select 1 from B where B.id = A.id); //這裡的select 1並不絕對,可以寫為select 'X'或者'A','B','C'都可以,只要是常量就可以。

這樣寫就等價於:
for select * from A,先從A表做迴圈
for select * from B where B.id = A.id,再從B表做迴圈。
這樣exists就會變成看看A表是否存在於(select 1 from B where B.id = A.id)裡面,這個查詢返回的是TRUE或者FALSE的BOOL值,簡單來說就是要當A表的資料集小於B表的資料集時,用exists優於in。要注意的是:A表與B表的ID欄位應該建立索引。

語法:EXISTS
SELECT ...FROM table WHERE EXISTS(subquery)。
理解:將主查詢的資料放到子查詢中做條件驗證,根據驗證結果(TRUE或者FALSE)來決定朱查詢的資料結果是否得意保留。
相當於從表A和B中取出交集,然後再從A表中取出所在交集的部分資料,當然後面加WHERE條件還可以進一步篩選。
補充:
1:EXISTS(subquery)只返回TRUE或者FALSE,因此子查詢中的SELECT * 也可以是SELECT 1或者SELECT 'X',官方說法是實際執行時會忽略SELECT清單,因此沒有區別。
2:EXISTS子查詢的實際執行過程可能經過了優化而不是我們理解上的逐條對比,如果擔憂效率問題,可進行實際校驗。
3:EXISTS子查詢旺旺可以用條件表示式,其他子查詢或者JOIN來替代,何種最優需要具體問題具體分析。

如果查詢的兩個表大小相當,那麼用in和exists差別不大。


延伸舉例鞏固:

如果兩個表中一個較小,一個是大表,則子查詢表大的用exists,子查詢表小的用in:
例如:表A(小表),表B(大表)

select * from A where cc in (select cc from B) ;//  效率低,用到了A表上cc列的索引;
select * from A where exists(select cc from B where cc=A.cc) ;// 效率高,用到了B表上cc列的索引。 

相反的

select * from B where cc in (select cc from A) ; //效率高,用到了B表上cc列的索引;
select * from B where exists(select cc from A where cc=B.cc) ;//效率低,用到了A表上cc列的索引。

not in 和not exists如果查詢語句使用了not in 那麼內外表都進行全表掃描,沒有用到索引;而not extsts 的子查詢依然能用到表上的索引。所以無論那個表大,用not exists都比not in要快。

相關文章