rosedb 事務實踐

roseduan發表於2021-08-15

原文網址 : https://learnku.com/articles/60002

ROS

一、前言

事務是傳統關係型資料庫中必不可少的功能，例如 Mysql、Oracle、PostgreSql 都支援事務，但是在 NoSQL 資料庫中，事務的概念比較弱化，在實現上也沒有關係型資料庫那麼複雜。

但是為了資料的完整一致性，大多數 k-v 都會實現事務的基本特性，例如 k-v 資料庫的兩大鼻祖 LevelDB 和 RocksDB，一些 Go 語言實現的開源 k-v 也都支援事務，例如 Bolt，Badger 等。

rosedb 的事務目前剛實現了一個初級的版本，程式碼還比較簡單，只不過在我的預期構思內，後續可能會慢慢演化得更加複雜。

需要說明的是，在實現 rosedb 的事務之前，我對事務的理解也僅限於 ACID 這些基礎概念，所以這次實現完全是摸著石頭過河，可能存在一些槽點，大家有什麼疑問可以指出來，我後面也會繼續學習並完善。

二、基本概念

說到事務，就很容易想到事務的 ACID 特性，帶大家回顧一下：

原子性（Atomicity）：一個事務中的所有操作，要麼全部完成，要麼全部失敗，不會在中間環節結束。如果事務執行過程中發生錯誤，能夠被回滾至事務開始之前的狀態。
一致性（Consistency）：在事務開始前和結束後，資料庫的完整性沒有被破壞，這意味著資料狀態始終符合預期。
隔離性（Isolation）：隔離性描述的是多個執行中的事務相互影響的程度，有常見的四種隔離級別，表示事務之間不同的影響程度：
- 讀未提交（read uncommitted）：一個事務還未提交，另一個事務就能看到它所做的修改（存在髒讀）
- 讀提交（read committed）：一個事務對資料的修改，只能等到它提交之後，其他事務才能看到（沒有髒讀，但是不可重複讀）
- 可重複讀（repeatable read）：一個事務在執行過程中獲取到的資料，和事務開始時的資料一致（沒有髒讀，可以重複讀，但是有幻讀）
- 序列化（serializable）：讀寫互斥，避免事務併發，一個事務必須等到前一個事務提交後才能執行（無髒讀，可重複讀，無幻讀）
永續性（Durability）：一個事務提交之後，它所做的修改是永久的，即使資料庫崩潰之後也能夠保證安全。

ACID 的概念看起來挺多，但並不難理解，要實現事務，其實就是保證在資料讀寫時，滿足事務的這幾個基本概念，其中 AID 是必須保證的。

而 Consistency 即一致性，可以簡單理解為它就是事務的最終目標，資料庫通過 AID 來保證一致性，而我們在應用層面也要保證一致性，假如我們寫入的資料本身邏輯上就是錯誤的，那麼即使資料庫事務再完善，也無法保證一致性。

三、具體實現

在講解事務實現之前，先來看看 rosedb 當中事務的基本用法：

// 開啟資料庫例項
db, err := rosedb.Open(rosedb.DefaultConfig())
if err != nil {
   panic(err)
}

// 在事務中運算元據
err = db.Txn(func(tx *Txn) (err error) {
   err = tx.Set([]byte("k1"), []byte("val-1"))
   if err != nil {
      return
   }
   err = tx.LPush([]byte("my_list"), []byte("val-1"), []byte("val-2"))
   if err != nil {
      return
   }
   return
})

if err != nil {
   panic(fmt.Sprintf("commit tx err: %+v", err))
}

首先還是會開啟一個資料庫例項，然後呼叫 Txn 方法，這個方法的入參是一個函式，事務的操作都在這個函式中完成，在提交的時候一次性執行。

像這樣使用的話，事務會自動提交，當然也可以手動開啟事務並提交，並且在有錯誤發生時手動回滾，如下：

// 開啟資料庫例項
db, err := rosedb.Open(rosedb.DefaultConfig())
if err != nil {
   panic(err)
}

// 開啟事務
tx := db.NewTransaction()
err = tx.Set([]byte("k1"), []byte("val-1"))
if err != nil {
   // 有錯誤發生時回滾
   tx.Rollback()
   return
}

// 提交事務
if err = tx.Commit(); err != nil {
   panic(fmt.Sprintf("commit tx err: %+v", err))
}

當然還是推薦第一種用法，省去了手動提交事務和回滾。

Txn 方法表示的是讀寫事務，此外還有一個 TxnView 方法，表示的是隻讀事務，使用方式完全一致，只不過在 TxnView 方法內的寫入命令都會被忽略。

db.TxnView(func(tx *Txn) error {
   val, err := tx.Get([]byte("k1"))
   if err != nil {
      return err
   }
   // 處理 val

   hVal := tx.HGet([]byte("k1"), []byte("f1"))
   // 處理 hVal

   return nil
})

瞭解了事務的 ACID 基本概念和 rosedb 事務基本用法之後，再來看看在 rosedb 當中，事務究竟是怎麼實現的，也可以認為是如何來保證 AID 特性的。

3.1 原子性

前面已經說到，原子性指的是的事務執行的完整性，要麼全部成功，要麼全部失敗，不能停留在中間狀態。

要實現原子性其實不難，可以藉助 rosedb 的寫入特性來解決。先來回顧一下 rosedb 資料寫入的基本流程，兩個步驟：首先資料會先落磁碟，保證可靠性，然後更新記憶體中的索引資訊。

對於一個事務操作，要保證原子性，可以先將需要寫入的資料在記憶體中暫存，然後在提交事務的時候，一次性寫入到磁碟檔案當中。

這樣存在一個問題，那就是在批量寫入磁碟的時候出錯，或者系統崩潰了怎麼辦？也就是說可能有一些資料已經寫入成功，有一些寫入失敗了。按照原子性的定義，這一次事務沒有提交完成，是無效的，那麼應該怎麼知道已經寫入的資料是無效的呢？

目前 rosedb 採用了一種最容易理解，也是比較簡單的一種辦法來解決這個問題。

具體做法是這樣的：每一次事務開始時，都會分配一個全域性唯一的事務 id，需要寫入的資料都會帶上這個事務 id 並寫入到檔案。當所有的資料寫入磁碟完成之後，將這個事務 id 單獨存起來（也是寫入到一個檔案當中）。在資料庫啟動的時候，會先載入這個檔案中的所有事務 id，維護到一個集合當中，稱之為已提交的事務 id。

這樣的話，就算資料在批量寫入時出錯，由於沒有存放對應的事務 id，所以在資料庫啟動並取出資料構建索引的時候（回憶一下 rosedb 的啟動流程），能夠檢查到資料對應的事務 id 沒有在已提交事務 id 集合當中，所以會認為這些資料無效。

大多數 LSM 流派的 k-v 都是利用類似的思路來保證事務的原子性，例如 rocksdb 是將事務中所有的寫入都存放到了一個 WriteBatch 中，在事務提交的時候一次性寫入。

3.2 隔離性

目前 rosedb 支援兩種事務型別：讀寫事務和只讀事務。只能同時開啟一個讀寫事務，只讀事務則可以同時開啟多個。

在這種模式下，讀會加讀鎖，寫會加寫鎖，也就是說，讀寫會互斥，不能同時進行。可以理解為這是四種隔離級別中的序列化，它的優點是簡單易實現，缺點是併發能力差。

需要說明的是，目前的這種實現在後面大概率會進行調整，我的設想是可以使用快照隔離的方式來支援讀提交或者可重複讀，這樣資料讀取能夠讀到歷史版本，不會造成寫操作的阻塞，只不過在實現上要複雜得多了。

3.3 永續性

永續性需要保證資料已經寫到了非易失性儲存介質當中，比如最常見的有磁碟或者 SSD，這樣即使發生系統異常，也能夠保證資料安全。

在 rosedb 當中，寫入資料時，如果走預設的刷盤策略，是將資料寫到了作業系統頁快取當中，實際上並沒有落磁碟。如果作業系統還沒來來得及將頁快取的資料刷到磁碟，那麼會造成資料丟失。這樣雖不能完全保證永續性，但效能是相對更好的，因為 Sync 刷磁碟是一次極其慢速的操作。

如果在啟動 rosedb 的時候指定了配置項 Sync 為 true，那麼每次寫入都會強行 Sync，能夠保證資料不丟，但是寫效能會下降。

實際應該怎麼選擇，可以根據自己的使用場景來，如果系統穩定，對效能的要求較高，並且能夠容忍丟失少量資料，那麼可以採用預設策略，即 Sync 為 false，否則可以強制刷盤。

四、缺陷

經過上面的簡單分析，可以看到 rosedb 已經基本實現了事務的 AID 特性，整體來說還是挺簡單的，易於學習和使用，並且能夠很好理解便於進一步的擴充套件。當然，目前也存在一些缺陷亟待解決。

第一個便是上面提到的隔離級別的問題，目前這種方式太過簡單，使用一把全域性大鎖搞成了序列化，後續可以考慮只鎖定需要操作的某個 key，減小鎖的粒度。

還有一個問題便是，由於 rosedb 支援了多種資料結構，但是像 List、ZSet 這種結構，在事務中支援全部命令的難度較大，因此目前 List 只支援了 LPush 和 RPush，ZSet 只支援了ZAdd、ZScore、ZRem 命令。

主要的原因是如果在事務中對已經存在的 key 進行讀寫，那麼去支援像範圍查詢這種型別的命令就會很困難，目前我還沒有想到比較好的解決方案。

最後，附上專案地址：github.com/roseduan/rosedb，歡迎各位前來圍觀吐槽。

本作品採用《CC 協議》，轉載必須註明作者和本文連結

kratos分散式事務實踐
2022-03-30
分散式
Redis核心原理與實踐--事務實踐與原始碼分析
2021-11-10
Redis原始碼
go-zero分散式事務實踐
2021-12-20
Go分散式
用友微服務事務一致性實踐
2019-01-15
微服務
Mysql事務原理與最佳化最佳實踐
2024-04-28
MySql
分散式事務與Seate框架（2）——Seata實踐
2021-05-13
分散式框架
RocketMQ在基金大廠的分散式事務實踐
2024-08-27
MQ分散式
Lua 指令碼在 Redis 事務中的應用實踐
2022-09-29
指令碼Redis
Lua指令碼在Redis事務中的應用實踐
2022-09-23
指令碼Redis
tidb之dm叢集跳過某個事務實踐
2021-11-01
TiDB
分散式訊息佇列RocketMQ--事務訊息--解決分散式事務的最佳實踐
2019-01-10
分散式佇列MQ
seata分散式事務TCC模式介紹及推薦實踐
2021-12-31
分散式模式
分散式事務之資料庫事務與JDBC事務實現（一）
2018-08-10
分散式資料庫JDBC
分散式資料庫事務故障恢復的原理與實踐
2020-10-20
分散式資料庫
螞蟻金服分散式事務實踐解析 | SOFAChannel#12 直播整理
2020-03-13
分散式
分散式事務(3)---RocketMQ實現分散式事務原理
2019-07-15
分散式MQ
【Spring】事務實現原理
2023-11-09
Spring
Spring事務實現原理
2020-09-09
Spring
分散式事務實戰
2020-04-06
分散式
Kafka事務實現原理
2024-09-01
Kafka
MySQL事務實現原理
2021-09-09
MySql
分散式事務(4)---RocketMQ實現分散式事務專案
2019-07-17
分散式MQ
MongoDB 4.0 事務實現解析
2018-07-17
MongoDB
Kubernetes 微服務最佳實踐
2022-01-25
微服務
Spring事務專題（四）Spring中事務的使用、抽象機制及模擬Spring事務實現
2020-08-09
Spring抽象
環境敘事實踐：共創世界之旅
2022-04-02
KES資料庫實踐指南：探索KES資料庫的事務隔離級別
2024-07-02
資料庫
十、Redis事務、事務鎖
2020-12-23
Redis
DDD實踐：在SpringBoot中跨微服務透過發件箱模式實現分散式事務機制 - Hans-Peter Grahsl
2019-07-20
Spring Boot微服務模式分散式
DDD實踐：在SpringBoot中跨微服務通過發件箱模式實現分散式事務機制 - Hans-Peter Grahsl
2019-07-20
Spring Boot微服務模式分散式
分散式事務之Spring事務與JMS事務（二）
2018-08-27
分散式Spring
如何在Redis中實現事務
2019-02-16
Redis
MongoDB4.0事務實現解析
2018-07-13
MongoDB
使用Spring Boot實現事務管理
2024-07-15
Spring Boot
『Microservices & Nameko』Python 微服務實踐
2019-03-27
ROSPython微服務
Apollo GraphQL 服務端實踐
2018-05-22
服務端
go-kit 微服務實踐
2019-08-06
Go微服務
GRPC 服務呼叫實踐（一）
2019-11-12
RPC