SQL -去重Group by 和Distinct的效率

lv99發表於2021-01-22

經實際測試,同等條件下,5千萬條資料,Distinct比Group by效率高,但是,這是有條件的,這五千萬條資料中不重複的僅僅有三十多萬條,這意味著,五千萬條中基本都是重複資料。

為了驗證,重複資料是否對其有影響,本人針對80萬條資料進行測試:

下面是對CustomerId去重,CustomerId的重複項及其多,80萬條中僅僅50條不重複的。可以看到,Distinct更快。

 

 

 

 

下面是對Id去重,Id基本唯一,80萬條中沒有重複的。可以看到,Group By更快。

 

 

 

 

綜上所述,其他條件一定時,資料重複項越多,distinct效率越高,反之,資料越唯一,group by效率越高。

 

相關文章