各個資料庫存二進位制大檔案的效能測試

Scotyzh發表於2023-12-11

原文網址 : https://www.cnblogs.com/scottyzh/p/17893749.html

1前言

有個專案軟體前端將二進位制大檔案存在了indexDB,每次給後端傳檔案（需要傳到底層C++進行呼叫）都會導致記憶體佔用飆升，想著使用前後端都能共同操作的資料庫來解決這個記憶體佔用的問題，並且希望這個更具儘可能的輕量，可以嵌入到程式中是最好的，透過一個安裝包進行安裝。

2各個資料庫的效能比較

2.1 MySQL

預先準備35MB的Byte陣列資料，將其存到資料庫的格式為blob，測試MySQL儲存100塊35MB的資料需要300秒，平均一塊需要3s時間。

2.2 MongoDB

MongoDB的資料是採用鍵值對的形式進行儲存，一樣是採用100塊35MB的資料進行寫入，測試需要45s時間，平均一塊是450ms。

2.3 SQLite測試及最佳化過程

2.3.1 概述

SQLite使用Mybatis作為ORM框架進行100塊35MB的寫入速度，100塊使用了12s，平均一塊35MB寫入速度是120ms，遠快於前面兩種使用Mybatis讀資料庫blob格式出現不支援的問題，將ORM換到JdbcTemplate後，支援blob格式，進行讀，一塊35MB讀了40s時間，猜測是JdbcTemplate是比較落後的方案，沒有針對大檔案最佳化。

2.3.2 最佳化流程

（一）表結構最佳化

主鍵id改為PrimaryKey，並且設定自增，使得每次都可以B+樹主鍵索引命中查詢內容。

（二）Mybatis最佳化

依然是換回springboot最主流的mybatis框架，手寫mapper.xml檔案處理blob格式，指定handler處理器編寫對blob的處理，最終實現對blob的讀取。最佳化後，對讀取的資料不進行解析的話，平均一塊35MB的資料讀取50ms，涉及到資料解析（需要用byte陣列接blob，並對整個陣列中的資料解析取值）會再多一些時間。

（三）使用JPA

Mybatis除了對blob資料讀取支援不好外，操作sqlite資料庫時，使用自增id無法正常生成id的值，決定換到JPA進行嘗試。

在JPA下，寫100塊35MB的資料如下：

可見寫入速度接近於Mybatis和JdbcTemplate，都是100+ms。

測試讀100塊35MB的資料：

讀的速度得到很大提升，30ms左右，快於mybatis下的50ms。

在測試35塊100MB大小的資料的寫操作：

寫操作的時間基本成線性增長，100MB一塊寫入需要400ms+。

再測試讀操作：

100MB的讀操作效能還是很高，讀一塊100MB大小的分塊是100+ms。（上述測試涉及到的讀操作都是沒有對資料進行解析的）

（四）針對寫過程進行最佳化

當前場景下，需要不斷對資料庫執行多個插入操作，預設情況下，每次插入一個資料都會開始事務和提交事務，多次提交會重複這個流程，磁碟I/O頻率高，嘗試開啟事務，在資料都準備好情況下再進行提交事務。在插入的方法上加入註解@Transactional，下面測試有無@Transactional情況下存10個100MB資料的情況。

左邊是使用了註解後的結果，右邊是沒有，開啟事務後提升是很明顯的。一塊100MB的分塊寫入從400ms降低到300ms，但會導致另外一個問題，如果35個100MB的資料同時存進去會出現java堆溢位，因為這3.5g在事務commit前都是放在記憶體裡面導致溢位。

（五）針對讀過程嘗試進行最佳化

對讀過程嘗試調節了SQLite一些引數，但是基本沒有提升。

設定PRAGMA synchronous = OFF，關閉寫同步，PRAGMA synchronous = OFF，在 sqlite3 中 synchronous 有三種模式，分別是 FULL，NORMAL 和 OFF，在系統意外終止的時候，安全性逐級減弱，FULL模式下，保證資料不會損壞，安全性最高，寫入速度也最慢。

設定PRAGMA page_size = 8192，透過設定PAGE_SIZE引數，調整最小儲存單元PAGE的大小，由於存入的資料較大，嘗試改成8192，甚至16384。

設定完沒有提升，猜測上面引數是針對數量條數很大的情況才有提升，當前情況是資料條數不多，但單獨的每條資料佔用記憶體大。

2.4 LevelDB

Leveldb也是輕量級資料庫，屬於NOSQL，是以key-value形式進行儲存，Java和node.js都能同時使用，但是經過測試，同樣存入35個100MB分塊大小的資料，每一塊存入時間是400ms，每一塊讀取時間也接近400ms，相比較jpa下的sqlite表現，並沒有提升。

2.5 IndexDB（原有方案）

讀100MB的分塊是50毫秒，讀效能非常的好。

寫入100MB分塊的時候，算上json轉blob 以及入庫的時間，大概是100-200ms，時間遠短於尚未做資料處理的sqlite（事務下300-400ms）。

3 結論

上述所測試的資料庫效能都不如原有方案下的indexDB，最接近indexDB的sqlite，讀寫效能資料比較如下：

100MB分塊的寫入，包括json資料解析，indexDB是100-200ms，sqlite不包括資料解析在開啟事務的情況下是300-400ms，不開啟事務則是400-500ms。

100MB分塊的讀取，不包括資料解析：indexDB是50ms，sqlite是100-200ms。

教你如何將二進位制檔案匯入到資料庫
2022-09-22
資料庫
MySQL二進位制檔案（binlog）
2020-12-04
MySql
二進位制檔案視覺化（二）
2022-06-02
視覺化
Git處理二進位制檔案
2018-07-14
Git
檔案操作（二進位制拷貝）
2019-07-21
golang: 給二進位制檔案增加版本資訊
2024-11-23
Golang
介面返回二進位制檔案的下載。
2024-06-24
6.3建立自己執行的二進位制檔案
2020-10-25
複雜二進位制資料
2024-04-27
mssql sqlserver 可以儲存二進位制資料的欄位型別詳解
2018-06-29
SQLServer型別
二進位制檔案記憶體對映
2024-04-27
記憶體
二進位制檔案安裝安裝etcd
2019-08-01
前端進階：二進位制資料的操控—-附專案程式碼
2019-02-16
前端
前端進階：二進位制資料的操控----附專案程式碼
2018-04-22
前端
檔案IO操作開發筆記（二）：使用Cpp的ofstream對磁碟檔案儲存進行效能測試及工具
2023-01-10
筆記
mysqlbinlog 處理二進位制日誌檔案的工具
2022-03-17
MySql
JavaScript 讀寫二進位制資料
2018-09-08
JavaScript
利用vstruct解析二進位制資料
2020-08-19
Struct
go 自定義二進位制檔案讀寫-儲存倒排索引文件 id
2020-07-14
Go索引
C++ 讀取二進位制檔案到char*
2018-04-28
C++
檢視寶塔mysql二進位制檔案 mysqlbinlog
2024-03-17
MySql
【Linux】檢視二進位制檔案內容_hexdump
2019-06-14
Linux
效能超四倍的高效能.NET二進位制序列化庫
2021-01-11
根據介面返回的二進位制流匯出檔案
2024-06-06
JS下載後臺介面返回的二進位制檔案
2020-11-30
JS
二進位制，八進位制，十進位制，十六進位制的相互轉換
2020-02-01
二進位制與二進位制運算
2021-11-27
教你如何在C++二進位制檔案中注入git資訊
2021-07-12
C++Git
二進位制中1的個數
2019-01-19
Redis中快取二進位制資料
2024-07-27
Redis快取
java中二進位制、八進位制、十進位制、十六進位制的轉換
2018-10-12
Java
二進位制，八進位制，十進位制，十六進位制之間的轉換
2018-07-09
檔案IO操作開發筆記（一）：使用Qt的QFile對磁碟檔案儲存進行效能測試以及測試工具
2023-01-03
筆記QT
進位制詳解：二進位制、八進位制和十六進位制
2021-07-07
od 轉儲二進位制檔案常用命令
2018-08-06
flutter-讀寫二進位制檔案到裝置
2019-11-01
Flutter
前端怎麼處理二進位制檔案下載
2019-07-05
前端
如何將日誌檔案和二進位制檔案快速匯入HDFS？
2018-10-11