使用SQL語句去掉重複記錄的兩種方法

deng214發表於2019-01-01
文章主要介紹了用SQL語句去掉重複的記錄的兩種方式,兩種方式都可以使用臨時表操作,具體實現方法大家跟隨小編一起透過本文學習吧

海量資料(百萬以上),其中有些全部欄位都相同,有些部分欄位相同,怎樣高效去除重複?

如果要刪除手機(mobilePhone),電話(officePhone),郵件(email)同時都相同的資料,以前一直使用這條語句進行去重:

  1. delete from where id not in
  2. (select max(id) from group by mobilePhone,officePhone,email )
  3. or
  4. delete from where id not in
  5. (select min(id) from group by mobilePhone,officePhone,email )
  6. delete from where id not in
  7. (select max(id) from group by mobilePhone,officePhone,email )
  8. or
  9. delete from where id not in
  10. (select min(id) from group by mobilePhone,officePhone,email )

其中下面這條會稍快些。上面這條資料對於100萬以內的資料效率還可以,重複數1/5的情況下幾分鐘到幾十分鐘不等,但是如果資料量達到300萬以上,效率驟降,如果重複資料再多點的話,常常會幾十小時跑不完,有時候會鎖表跑一夜都跑不完。無奈只得重新尋找新的可行方法,今天終於有所收穫:

  1. //查詢出唯一資料的ID,並把他們匯入臨時表tmp中
  2. select min(id) as mid into tmp from group by mobilePhone,officePhone,email
  3. //查詢出去重後的資料並插入finally表中
  4. insert into finally select (除ID以外的欄位) from customers_1 where id in (select mid from tmp)
  5. //查詢出唯一資料的ID,並把他們匯入臨時表tmp中
  6. select min(id) as mid into tmp from group by mobilePhone,officePhone,email
  7. //查詢出去重後的資料並插入finally表中
  8. insert into finally select (除ID以外的欄位) from customers_1 where id in (select mid from tmp)

效率對比:用delete方法對500萬資料去重(1/2重複)約4小時。4小時,很長的時間。

用臨時表插入對500萬資料去重(1/2重複)不到10分鐘。

其實用刪除方式是比較慢的,可能是邊找邊刪除的原因吧,而使用臨時表,可以將沒有重複的資料ID選出來放在臨時表裡,再將表的資訊按臨時表的選擇出來的ID,將它們找出來插入到新的表,然後將原表刪除,這樣就可以快速去重啦。

SQL語句去掉重複記錄,獲取重複記錄

按照某幾個欄位名稱查詢表中存在這幾個欄位的重複資料並按照插入的時間先後進行刪除,條件取決於order by 和row_num。

方法一按照多條件重複處理:

  1. delete tmp from(
  2. select row_num = row_number() over(partition by 欄位,欄位 order by 時間 desc)
  3. from where 時間> getdate()-1
  4. ) tmp
  5. where row_num > 1
  6. delete tmp from(
  7. select row_num = row_number() over(partition by 欄位,欄位 order by 時間 desc)
  8. from where 時間> getdate()-1
  9. ) tmp
  10. where row_num > 1

方法二按照單一條件進行去重:

  1. delete from where 主鍵ID not in(
  2. select max(主鍵ID) from group by 需要去重的欄位 having count(需要去重的欄位)>=1
  3. )
  4. delete from where 主鍵ID not in(
  5. select max(主鍵ID) from group by 需要去重的欄位 having count(需要去重的欄位)>=1
  6. )

注意:為提高效率如上兩個方法都可以使用臨時表, not in 中的表可以先提取臨時表#tmp,

然後採用not exists來執行,為避免數量過大,可批次用Top控制刪除量

  1. delete top(2) from
  2. where not exists (select 主鍵ID
  3. from #tmp where #tmp.主鍵ID=表.主鍵ID)

總結

以上所述是小編給大家介紹的使用SQL語句去掉重複的記錄,希望對大家有所幫助,

相關文章