MySQL大量髒資料,如何只保留最新的一條？

雨點的名字發表於2023-04-20

原文網址 : https://www.cnblogs.com/qdhxhz/p/17338294.html

因為系統的一個Bug，導致資料庫表中出現重複資料，需要做的是刪除重複資料且只保留最新的一條資料。

具體場景是這樣的

有張訂單關聯額外費用表,而且一個訂單號(order_no)記錄只能關聯同一個費用(cost_id)一次，但是資料庫中出現了同一個訂單號關聯同一個費用n次

當然有人會說上面的問題我們可以建一個 order_no + cost_id 的組合唯一索引，這樣就算程式碼有bug但至少資料庫表中不會有髒資料。

似乎這樣就可以了，然而事情並沒有那麼簡單。

因為我們表中的資料在刪除的時候不會真的的刪除，而是採用邏輯刪除，會有一個 deleted 欄位使用0，1標識未刪除與已刪除。

當然我們也可以考慮將 order_no + cost_id + deleted 組合成一個聯合唯一索引。

這樣就ok了嗎？

其實會有一個新的問題，就是如果同一個訂單同一個費用如果被刪除一次。再去刪除會發現無法成功進行此操作，因為該條資料已經存在了，不能在刪除了。

所以當時我們並沒有建立聯合唯一索引，才導致髒資料的產生。

其實上面這種場景網上有個比較好的解決方案，就是我們依舊可以將 order_no + cost_id + deleted 組合成一個聯合唯一索引，
但是刪除的時候deleted不再是固定的1，而是當前的主鍵ID,也就是deleted不等於0都是刪除狀態，如果刪除了那deleted值=id

言歸正傳,接下來我們來講下該如何修復髒資料的問題

我們先建立一張訂單關聯費用表

CREATE TABLE `order_cost_detail` (
  `id` int NOT NULL AUTO_INCREMENT COMMENT '主鍵',
  `order_no` varchar(32)  NOT NULL COMMENT '訂單號',
  `cost_id` int NOT NULL COMMENT '費用Id',
  `cost_name` varchar(50)  NOT NULL DEFAULT '' COMMENT '費用名稱',
  `money` decimal(10,2) NOT NULL COMMENT '金額',
  `create_time` datetime NOT NULL COMMENT '建立時間',
  `deleted` tinyint(1) NOT NULL COMMENT '是否刪除（0 否，1 是）',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1  COMMENT='訂單 - 費用表';

插入一些模擬資料

INSERT INTO `order_cost_detail` (`id`, `order_no`, `cost_id`, `cost_name`, `money`, `create_time`, `deleted`)
VALUES
	(1, 'EX202208160000012-3', 2, '停車費', 100.00, '2022-08-19 11:30:48', 0),
	(2, 'EX202208160000012-4', 3, '停車費', 100.00, '2023-02-17 11:25:27', 0),
	(3, 'EX202208160000012-4', 3, '停車費', 200.00, '2023-02-17 11:25:28', 0),
	(4, 'EX202208170000002-1', 1, '路橋費', 300.00, '2022-08-19 11:31:57', 0),
	(5, 'EX202208170000002-1', 1, '路橋費', 450.00, '2022-08-19 11:32:57', 0),
	(6, 'EX202208180000002-1', 2, '高速費', 225.00, '2022-08-19 11:35:41', 0);

我們的目的很明確，就是要刪除多餘的同一訂單號費用相同的資料，同時保留最新的一條資料。

我們可以先用sql看下是否有重複資料

SELECT order_no, cost_name, count(*) AS num
FROM order_cost_detail
WHERE deleted = 0
GROUP BY order_no, cost_name
HAVING num > 1

執行結果

發現有兩個訂單有髒資料，如果實際生產只有兩條髒資料那簡單，直接查詢這兩個訂單，把重複資料刪掉就好了。

但如果有幾十條甚至上百條資料呢，總不能一條一條的刪吧。

一般我們刪除重複資料都會保留最新的那條，所以我們可以這樣做

如果主鍵是自增的，那麼重複資料刪除的時候，主鍵最大的一條就是需要保留的,如果主鍵不是自增的，我們可以根據建立時間，保留建立時間最大的記錄

我們先看下，我們需要刪除的記錄

select *
from order_cost_detail
where id not in (
	select max(id) as num
	from order_cost_detail
	where deleted = 0
	group by order_no, cost_name
)

查詢結果

根據結果來看確實是這兩條記錄需要刪除，那麼我們開始執行刪除操作

sql如下

-- 這裡是邏輯刪除，也就是將需要刪除的資料打上deleted = 1 標記
update order_cost_detail
set deleted = 1
where id in (
select id from order_cost_detail where id not in (
select max(id) as num from order_cost_detail where deleted = 0 group by order_no, cost_name
		)
	)

執行的時候發現報錯了

You can't specify target table 'order_cost_detail' for update in FROM clause

它的意思是說，不能在同一語句中，先select出同一表中的某些值，再update這個表，即不能依據某欄位值做判斷再來更新某欄位的值。

這個問題在MySQL官網中有提到解決方案：拉到文件下面 https://dev.mysql.com/doc/refman/8.0/en/update.html

解決方法：select 的結果再透過一箇中間表 select 多一次，就可以避免這個錯誤

update order_cost_detail
set deleted = 1
where id in (
select t.id
from
( 
select id from order_cost_detail where id not in (
select max(id) as num from order_cost_detail where deleted = 0 group by order_no, cost_name )
	) t
)

執行成功

阿里巴巴手冊索引規範，第一條就是

【強制】業務上具有唯一特性的欄位，即使是組合欄位，也必須建成唯一索引。

說明：不要以為唯一索引影響了insert速度，這個速度損耗可以忽略，但提高查詢速度是明顯的：另外，即使在應用層做了非常完善
的校驗和控制，只要沒有唯一索引，根據墨菲定律，必然有髒資料產生。

宣告: 公眾號如需轉載該篇文章,發表文章的頭部一定要告知是轉至公眾號: 後端元宇宙。同時也可以問本人要markdown原稿和原圖片。其它情況一律禁止轉載！

excel刪除重複資料保留一條如何刪掉重複資料只留一條
2022-04-21
Excel
Oracle:重複資料去重，只取最新的一條資料
2024-09-27
Oracle
MySQL 只改一條資料我這麼難的嗎
2019-11-09
MySql
MySQL 只改一條資料我這麼難的嗎 (二)
2019-12-30
MySql
Mysql實現定時清空一張表的舊資料並保留幾條資料
2020-12-24
MySql
sql刪除重複記錄只保留一條
2021-05-12
SQL
sql 多組條資料取最新的一條資料
2018-08-28
SQL
postgresql 多條記錄合併一條，或取最新的一條資料
2024-04-26
SQL
SqlServer中根據某幾列獲取重複的資料將其刪除並保留最新一條
2024-04-28
SQLServer
MySQL刪除重複記錄並保留第一條
2021-01-14
MySql
用一條mysql語句插入多條資料
2021-09-09
MySql
查詢滿足條件的最新資料（逐步優化，mysql、達夢資料庫）
2020-12-08
優化MySql資料庫
記錄一次mysql批量修改大量資料
2020-11-26
MySql
MySQL 匯出一條資料的插入語句
2024-06-05
MySql
淘寶二面：MySQL裡有2000萬條資料，但是Redis中只存20萬的資料，如何保證redis中的資料都是熱點資料?
2024-04-15
MySqlRedis
MySQL刷髒
2022-09-04
MySql
都是髒資料惹的禍
2019-04-26
ORACLE 在缺少主鍵ID的情況下刪除重複資料，只保留一行
2024-03-26
Oracle
python合併相同行只保留一行
2021-09-09
Python
mysql 查詢出重複資料的第一條
2024-07-11
MySql
MySQL 關聯表取最新一條記錄方案
2020-05-12
MySql
從MySQL大量資料清洗到TiBD說起
2021-08-23
MySql
MySQL設定資料庫為只讀
2021-12-13
MySql資料庫
android studio 搜尋只顯示100條資料
2020-10-24
Android
Oracle如何刪除表中重複記錄保留第一條
2021-01-14
Oracle
前端如何處理十萬級別的大量資料
2019-04-14
前端
【Mysql】資料庫事務，髒讀、幻讀、不可重複讀
2021-05-24
MySql資料庫
MySQL:刷髒相關
2023-11-15
MySql
MySQL InnoDB髒頁管理
2020-09-14
MySql
MySQL分組後，取出每組最新申請的一條記錄
2019-02-28
MySql
mysql mysqldump只匯出表結構或只匯出資料的實現方法
2020-05-05
MySql
mysql 表資料量大量查詢慢如何優化
2021-03-08
MySql優化
大量表格資料（＞10萬條）使用PLSQL快速匯入Oracle
2022-05-24
SQLOracle
MySQL 資料庫生成 10000 條測試資料
2020-05-27
MySql資料庫
如何透過一條資料庫語句做資料分析
2019-12-26
資料庫
MySQL：一條更新語句是如何執行的
2021-06-24
MySql
php如何在一組資料中迴圈增加一條資料？
2021-04-08
PHP
大量資料如何做分頁處理
2024-04-10

MySQL大量髒資料,如何只保留最新的一條？

相關文章