一個朋友接到一個需求,從大資料平臺收到一個資料寫入在20億+,需要快速地載入到MySQL中,供第二天業務展示使用。
專案地址: https://github.com/XeLabs/tokudb
四、測試表
loose_tokudb_cache_size=4G
loose_tokudb_directio=ON
loose_tokudb_fsync_log_period=1000
tokudb_commit_sync=0複製程式碼
CREATE TABLE `user_summary` (
`user_id` bigint(20) unsigned NOT NULL COMMENT '使用者id/手機號',
`weight` varchar(5) DEFAULT NULL COMMENT '和碼體重(KG)',
`level` varchar(20) DEFAULT NULL COMMENT '重量級',
`beat_rate` varchar(12) DEFAULT NULL COMMENT '擊敗率',
`level_num` int(10) DEFAULT NULL COMMENT '同噸位人數',
UNIQUE KEY `u_user_id` (`user_id`)
) ENGINE=TokuDB DEFAULT CHARSET=utf8複製程式碼
root@localhost [zst]>LOAD DATA INFILE '/u01/work/134-136.txt' \
INTO TABLE user_summary(user_id, weight, level, beat_rate,level_num);
Query OK, 200000000 rows affected (5 min 48.30 sec)
Records: 200000000 Deleted: 0 Skipped: 0 Warnings: 0複製程式碼
root@localhost [zst]>select 200000000/(5*60+48.30);
+------------------------+
| 200000000/(5*60+48.30) |
+------------------------+
| 574217.6285 |
+------------------------+
1 row in set (0.00 sec)複製程式碼
-rw-r--r-- 1 root root 8.5G 11月 25 20:05 134-136.txt
-rw-r----- 1 mysql mysql 8.6K 11月 25 20:44 user_summary.frm
-rw-r----- 1 mysql mysql 3.5G 11月 25 20:51 user_summary_main_229_1_1d_B_0.tokudb複製程式碼
-rw-r----- 1 mysql mysql 35G 11月 25 23:29 user2_main_26a_1_1d_B_0.tokudb
-rw-r----- 1 mysql mysql 176G 11月 26 03:32 user5.ibd複製程式碼
利用TokuDB在某雲環境中8核8G記憶體,500G高速雲盤環境,多次測試可以輕鬆實現57萬每秒的寫入量。
另外測試幾種場景也供大家參考: 如果在TokuDB中使用帶自增的主鍵,主鍵無值讓MySQL內部產生寫入速度,下降比較明顯,同樣寫入2億資料,帶有自建主鍵:
root@localhost [zst]>CREATE TABLE `user3` (
-> `user_id` bigint(20) unsigned NOT NULL COMMENT '使用者id/手機號',
-> `weight` varchar(5) DEFAULT NULL COMMENT '和碼體重(KG)',
-> `level` varchar(20) DEFAULT NULL COMMENT '重量級',
-> `beat_rate` varchar(12) DEFAULT NULL COMMENT '擊敗率',
-> `level_num` int(10) DEFAULT NULL COMMENT '同噸位人數',
-> `id` bigint(20) NOT NULL AUTO_INCREMENT,
-> PRIMARY KEY (`id`),
-> UNIQUE KEY `u_user_id` (`user_id`)
-> ) ENGINE=TokuDB;
Query OK, 0 rows affected (0.03 sec)
root@localhost [zst]>LOAD DATA INFILE '/u01/work/134-136.txt' INTO TABLE user3(user_id, weight, level, beat_rate,level_num);
Query OK, 200000000 rows affected (22 min 43.62 sec)
Records: 200000000 Deleted: 0 Skipped: 0 Warnings: 0複製程式碼
同樣的資料寫入在主鍵自增無值產生時,不能使用TokuDB的 Bulk loader data特性,相當於轉換為了單條的Insert實現,所以效果上慢太多。
關於TokuDB Bulk Loader :https://github.com/percona/PerconaFT/wiki/TokuFT-Bulk-Loader
測試使用CentOS7環境,編譯的XeLabs TokuDB版本百度雲地址:https://pan.baidu.com/s/1qYRyH3I 。