MySQL 快速刪除大量資料(千萬級別)的幾種實踐方案——附原始碼
筆者最近工作中遇見一個效能瓶頸問題,MySQL表,每天大概新增776萬條記錄,儲存週期為7天,超過7天的資料需要在新增記錄前老化。連續執行9天以後,刪除一天的資料大概需要3個半小時(環境:128G, 32核,4T硬碟),而這是不能接受的。當然如果要整個表刪除,毋庸置疑用
TRUNCATE TABLE就好。
最初的方案(因為未預料到刪除會如此慢),程式碼如下(最簡單和樸素的方法):
delete from table_name where cnt_date <= target_date
後經過研究,最終實現了飛一般(1秒左右)的速度刪除770多萬條資料,單張表總資料量在4600萬上下,最佳化過程的方案層層遞進,詳細記錄如下:
- 批次刪除(每次限定一定數量),然後迴圈刪除直到全部資料刪除完畢;同時 key_buffer_size 由預設的8M提高到512M
執行效果:刪除時間大概從3個半小時提高到了3小時
(1)透過 limit (具體size 請酌情設定)限制一次刪除的資料量,然後判斷資料是否刪除完,附原始碼如下(Python實現):
def delete_expired_data(mysqlconn, day): mysqlcur = mysqlconn.cursor() delete_sql = "DELETE from table_name where cnt_date<='%s' limit 50000" % day query_sql = "select srcip from table_name where cnt_date <= '%s' limit 1" % day try: df = pd.read_sql(query_sql, mysqlconn) while True: if df is None or df.empty: break mysqlcur.execute(delete_sql) mysqlconn.commit() df = pd.read_sql(query_sql, mysqlconn) except: mysqlconn.rollback()
(2)增加 key_buffer_size
mysqlcur.execute("SET GLOBAL key_buffer_size = 536870912")
key_buffer_size是global變數,詳情參見Mysql官方文件: https://dev.mysql.com/doc/refman/5.7/en/server-configuration.html
- DELETE QUICK + OPTIMIZE TABLE
適用場景:MyISAM Tables
Why: MyISAM刪除的資料維護在一個連結串列中,這些空間和行的位置接下來會被Insert的資料複用。 直接的delete後,mysql會合並索引塊,涉及大量記憶體的複製移動;而OPTIMIZE TABLE直接重建索引,即直接把資料塊情況,再重新搞一份(聯想JVM垃圾回收演算法)。
執行效果:刪除時間大3個半小時提高到了1小時40分
具體程式碼如下:
def delete_expired_data(mysqlconn, day): mysqlcur = mysqlconn.cursor() delete_sql = "DELETE QUICK from table_name where cnt_date<='%s' limit 50000" % day query_sql = "select srcip from table_name where cnt_date <= '%s' limit 1" % day optimize_sql = "OPTIMIZE TABLE g_visit_relation_asset" try: df = pd.read_sql(query_sql, mysqlconn) while True: if df is None or df.empty: break mysqlcur.execute(delete_sql) mysqlconn.commit() df = pd.read_sql(query_sql, mysqlconn) mysqlcur.execute(optimize_sql) mysqlconn.commit() except: mysqlconn.rollback()
- 表分割槽,直接刪除過期日期所在的分割槽(最終方案—秒殺)
MySQL表分割槽有幾種方式,包括RANGE、KEY、LIST、HASH,具體參見官方文件。因為這裡的應用場景日期在變化,所以不適合用RANGE設定固定的分割槽名稱,HASH分割槽更符合此處場景
(1)分割槽表定義,SQL語句如下:
ALTER TABLE table_name PARTITION BY HASH(TO_DAYS(cnt_date)) PARTITIONS 7;
TO_DAYS將日期(必須為日期型別,否則會報錯: Constant, random or timezone-dependent expressions in (sub)partitioning function are not allowed)轉換為天數(年月日總共的天數),然後HASH;建立7個分割槽。實際上,就是 days MOD 7 。
(2)查詢出需要老化的日期所在的分割槽,SQL語句如下:
"explain partitions select * from g_visit_relation_asset where cnt_date = '%s'" % expired_day
執行結果如下( partitions列即為所在分割槽):
+----+-------------+------------------+------------+------+----------------+------+---------+------+---------+----------+-------------+ | id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra | +----+-------------+------------------+------------+------+----------------+------+---------+------+---------+----------+-------------+ | 1 | SIMPLE | table_name | p1 | ALL | cnt_date_index | NULL | NULL | NULL | 1325238 | 100.00 | Using where | +----+-------------+------------------+------------+------+----------------+------+---------+------+---------+----------+-------------+1 row in set, 2 warnings (0.00 sec)
(3)OPTIMIZE or REBUILD partition,SQL語句如下:
"ALTER TABLE g_visit_relation_asset OPTIMIZE PARTITION '%s'" % partition
完整程式碼如下【Python實現】,迴圈刪除小於指定日期的資料:
def clear_partition_data(mysqlconn, day): mysqlcur = mysqlconn.cursor() expired_day = day query_partition_sql = "explain partitions select * from table_name where cnt_date = '%s'" % expired_day # OPTIMIZE or REBUILD after truncate partition try: while True: df = pd.read_sql(query_partition_sql, mysqlconn) if df is None or df.empty: break partition = df.loc[0, 'partitions'] if partition is not None: clear_partition_sql = "alter table table_name TRUNCATE PARTITION %s" % partition mysqlcur.execute(clear_partition_sql) mysqlconn.commit() optimize_partition_sql = "ALTER TABLE table_name OPTIMIZE PARTITION %s" % partition mysqlcur.execute(optimize_partition_sql) mysqlconn.commit() expired_day = (expired_day - timedelta(days = 1)).strftime("%Y-%m-%d") df = pd.read_sql(query_partition_sql, mysqlconn) except: mysqlconn.rollback()
- 其它
如果刪除的資料超過表資料的百分之50,建議複製所需資料到臨時表,然後刪除原表,再重新命名臨時表為原表,附MySQL如下:
INSERT INTO New SELECT * FROM Main WHERE ...; -- just the rows you want to keep RENAME TABLE main TO Old, New TO Main; DROP TABLE Old; -- Space freed up here
可透過:
ALTER TABLE table_name REMOVE PARTITIONING 刪除分割槽,而不會刪除相應的資料
參考:
1) https://dev.mysql.com/doc/refman/5.7/en/alter-table-partition-operations.html 具體分割槽說明
2) 刪除大資料的解決方案
本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段宣告,且在文章頁面明顯位置給出原文連線,否則保留追究法律責任的權利。
************************************************************************
精力有限,想法太多,專注做好一件事就行
- 我只是一個程式猿。5年內把程式碼寫好,技術部落格字字推敲,堅持零複製和原創
- 寫部落格的意義在於 打磨文筆,訓練邏輯條理性,加深對知識的系統性理解;如果恰好又對別人有點幫助,那真是一件令人開心的事
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69959503/viewspace-2722526/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【MySQL】刪除大量資料的具體實現MySql
- 大量刪除資料的速度
- sqlserver 億級資料刪除方案SQLServer
- oracle 快速刪除大批量資料方法(全部刪除,條件刪除,刪除大量重複記錄)Oracle
- oracle 刪除重複資料的幾種方法Oracle
- oracle 快速刪除大批量資料方法(全部刪除,條件刪除,刪除大量重複記錄) 轉Oracle
- 【轉】oracle 快速刪除大批量資料方法(全部刪除,條件刪除,刪除大量重複記錄)Oracle
- Linux中RM快速刪除大量檔案/資料夾方法Linux
- CoreData實踐(六)——資料刪除
- MongoDB中優雅刪除大量資料的三種方式純尹MongoDB
- MySQL防止delete命令刪除資料的兩種方法MySqldelete
- MySQL 千萬級資料表 partition 實戰應用MySql
- Linux 刪除大量小檔案的兩種方案 | 運維進階Linux運維
- 技術分享 | MySQL 的幾種資料遷移方案MySql
- Linux如何快速刪除大量碎小檔案?Linux
- 如何匯出千萬級別資料?
- MySQL刪除資料表MySql
- MYSQL資料庫表記錄刪除解決方案MySql資料庫
- MySQL 批量更新、刪除資料shell指令碼MySql指令碼
- 怎樣玩轉千萬級別的資料
- Oracle 刪除千萬級資料量時,可以考慮以下方法來提高刪除效率Oracle
- 海量資料表刪除方案
- MongoDB中如何優雅地刪除大量資料MongoDB
- 教你幾招,快速建立 MySQL 五百萬級資料,愉快的學習各種優化技巧MySql優化
- 指定刪除幾天前的索引資料索引
- php 刪除資料夾的實現程式碼PHP
- MySQL資料庫中的四種隔離級別MySql資料庫
- MySQL刪除重複資料MySql
- 使用Mybatis批量插入大量資料的實踐MyBatis
- 前端如何處理十萬級別的大量資料前端
- mysql資料庫中刪除資料的三種形式 drop和 truncate 和 deleteMySql資料庫delete
- PHP 結合 MySQL 千萬級資料處理PHPMySql
- Elasticsearch從0到千萬級資料查詢實踐(非轉載)Elasticsearch
- Excel快速錄入資料的幾種方法Excel
- MySQL(四) 資料表的插入、更新、刪除資料MySql
- Mongodb 刪除重複資料的幾個方法MongoDB
- 刪除重複資料的幾個方法(轉)
- 幾種刪除Linux目錄的方法Linux