大資料量下MySQL插入方法的效能比較
不管是日常業務資料處理中,還是資料庫的匯入匯出,都可能遇到需要處理大量資料的插入。插入的方式和資料庫引擎都會對插入速度造成影響,這篇文章旨在從理論和實踐上對各種方法進行分析和比較,方便以後應用中插入方法的選擇。
插入分析
MySQL中插入一個記錄需要的時間由下列因素組成,其中的數字表示大約比例:
- 連線:(3)
- 傳送查詢給伺服器:(2)
- 分析查詢:(2)
- 插入記錄:(1x記錄大小)
- 插入索引:(1x索引)
- 關閉:(1)
如果我們每插入一條都執行一個SQL語句,那麼我們需要執行除了連線和關閉之外的所有步驟N次,這樣是非常耗時的,優化的方式有一下幾種:
- 在每個insert語句中寫入多行,批量插入
- 將所有查詢語句寫入事務中
- 利用Load Data匯入資料
每種方式執行的效能如下。
Innodb引擎
InnoDB 給 MySQL 提供了具有事務(commit)、回滾(rollback)和崩潰修復能力(crash recovery capabilities)的事務安全(transaction-safe (ACID compliant))型表。InnoDB 提供了行鎖(locking on row level)以及外來鍵約束(FOREIGN KEY constraints)。
InnoDB 的設計目標是處理大容量資料庫系統,它的 CPU 利用率是其它基於磁碟的關聯式資料庫引擎所不能比的。在技術上,InnoDB 是一套放在 MySQL 後臺的完整資料庫系統,InnoDB 在主記憶體中建立其專用的緩衝池用於高速緩衝資料和索引。
測試環境
Macbook Air 12mid apache2.2.26 php5.5.10 mysql5.6.16
總數100W條資料
插入完後資料庫大小38.6MB(無索引),46.8(有索引)
- 無索引單條插入 總耗時:229s 峰值記憶體:246KB
- 有索引單條插入 總耗時:242s 峰值記憶體:246KB
- 無索引批量插入 總耗時:10s 峰值記憶體:8643KB
- 有索引批量插入 總耗時:16s 峰值記憶體:8643KB
- 無索引事務插入 總耗時:78s 峰值記憶體:246KB
- 有索引事務插入 總耗時:82s 峰值記憶體:246KB
- 無索引Load Data插入 總耗時:12s 峰值記憶體:246KB
- 有索引Load Data插入 總耗時:11s 峰值記憶體:246KB
MyIASM引擎
MyISAM 是MySQL預設存貯引擎。設計簡單,支援全文搜尋。
測試環境
Macbook Air 12mid apache2.2.26 php5.5.10 mysql5.6.16
總數100W條資料
插入完後資料庫大小19.1MB(無索引),38.6(有索引)
- 無索引單條插入 總耗時:82s 峰值記憶體:246KB
- 有索引單條插入 總耗時:86s 峰值記憶體:246KB
- 無索引批量插入 總耗時:3s 峰值記憶體:8643KB
- 有索引批量插入 總耗時:7s 峰值記憶體:8643KB
- 無索引Load Data插入 總耗時:6s 峰值記憶體:246KB
- 有索引Load Data插入 總耗時:8s 峰值記憶體:246KB
總結
我測試的資料量不是很大,不過可以大概瞭解這幾種插入方式對於速度的影響,最快的必然是Load Data方式。這種方式相對比較麻煩,因為涉及到了寫檔案,但是可以兼顧記憶體和速度。
測試程式碼
<?php $dsn = 'mysql:host=localhost;dbname=test'; $db = new PDO($dsn,'root','',array(PDO::ATTR_PERSISTENT => true)); //刪除上次的插入資料 $db->query('delete from `test`'); //開始計時 $start_time = time(); $sum = 1000000; // 測試選項 $num = 1; if ($num == 1){ // 單條插入 for($i = 0; $i < $sum; $i++){ $db->query("insert into `test` (`id`,`name`) values ($i,'tsetssdf')"); } } elseif ($num == 2) { // 批量插入,為了不超過max_allowed_packet,選擇每10萬插入一次 for ($i = 0; $i < $sum; $i++) { if ($i == $sum - 1) { //最後一次 if ($i%100000 == 0){ $values = "($i, 'testtest')"; $db->query("insert into `test` (`id`, `name`) values $values"); } else { $values .= ",($i, 'testtest')"; $db->query("insert into `test` (`id`, `name`) values $values"); } break; } if ($i%100000 == 0) { //平常只有在這個情況下才插入 if ($i == 0){ $values = "($i, 'testtest')"; } else { $db->query("insert into `test` (`id`, `name`) values $values"); $values = "($i, 'testtest')"; } } else { $values .= ",($i, 'testtest')"; } } } elseif ($num == 3) { // 事務插入 $db->beginTransaction(); for($i = 0; $i < $sum; $i++){ $db->query("insert into `test` (`id`,`name`) values ($i,'tsetssdf')"); } $db->commit(); } elseif ($num == 4) { // 檔案load data $filename = dirname(__FILE__).'/test.sql'; $fp = fopen($filename, 'w'); for($i = 0; $i < $sum; $i++){ fputs($fp, "$i,'testtest'\r\n"); } $db->exec("load data infile '$filename' into table test fields terminated by ','"); } $end_time = time(); echo "總耗時", ($end_time - $start_time), "秒\n"; echo "峰值記憶體", round(memory_get_peak_usage()/1000), "KB\n"; ?>
以上就是MySQL大量資料插入各種方法效能分析與比較,希望能幫到你。
相關文章
- MySQL單表存多大的資料量比較合適MySql
- Redis 不同插入方法的效能對比Redis
- 請比較下for、forEach、for of的效能的效能
- 報表連 hive,資料量比較大,怎麼分頁查詢?Hive
- MySQL 中的 distinct 和 group by 的效能比較MySql
- 效能比較
- 大資料入門課程:Hadoop和spark的效能比較大資料HadoopSpark
- 大偏移量下Redis與MongoDB的分頁/排名效能比較RHRedisMongoDB
- 檢視mysql哪張表比較大MySql
- PostgreSQL與MySQL的比較 - hackrMySql
- 使用perl比較mysql的版本MySql
- Java Bean Copy元件的效能比較JavaBean元件
- python 批量resize效能比較Python
- 資料庫系列:MySQL引擎MyISAM和InnoDB的比較資料庫MySql
- MySQL Insert資料量過大導致報錯 MySQL server has gone awayMySqlServerGo
- Mysql中的Datetime和Timestamp比較MySql
- 雲主機的硬碟IO效能比較硬碟
- PostgreSQL、Redis與Memcached的效能比較 - CYBERTECSQLRedis
- 好程式設計師分享大資料入門教程:Hadoop和spark的效能比較程式設計師大資料HadoopSpark
- MySQL:MySQL層比較函式呼叫MySql函式
- mysql timestamp比較查詢MySql
- Java中List集合效能比較Java
- 排序演算法效能比較排序演算法
- 使用 BenchmarkDotNet 比較指定容量的 List 的效能
- 兩組資料量相對大時,如何高效進行比對
- 大資料量查詢容易OOM?試試MySQL流式查詢大資料OOMMySql
- 大資料量刪除的思考(一)大資料
- 大資料量刪除的思考(三)大資料
- 大資料量刪除的思考(四)大資料
- 大資料量刪除的思考(二)大資料
- React如何渲染大資料量的列表?React大資料
- Apache與Nginx的優缺點、效能比較,到底選擇哪個比較好?ApacheNginx
- Dapper, Ef core, Freesql 插入大量資料效能比較(二)APPSQL
- 活字格效能最佳化技巧(2)-如何在大規模資料量的場景下提升資料訪問效率
- Python、JavaScript和Rust的Web效能比較 - AlexPythonJavaScriptRustWeb
- Caddy 與 Nginx的基準效能比較 - tjllNginx
- MySQL 的 timestamp 和 datetime 型別比較MySql型別
- Mysql中的Btree與Hash索引比較MySql索引
- OceanBase簡介及其與MySQL的比較MySql