TiKV 原始碼解析系列文章(一)序

PingCAP發表於2019-01-28

作者:唐劉

TiKV 是一個支援事務的分散式 Key-Value 資料庫,有很多社群開發者基於 TiKV 來開發自己的應用,譬如 titantidis。尤其是在 TiKV 成為 CNCFSandbox 專案之後,吸引了越來越多開發者的目光,很多同學都想參與到 TiKV 的研發中來。這時候,就會遇到兩個比較大的攔路虎:

  1. Rust 語言:眾所周知,TiKV 是使用 Rust 語言來進行開發的,而 Rust 語言的學習難度相對較高,有些人認為其學習曲線大於 C++,所以很多同學在這一步就直接放棄了。

  2. 文件:最開始 TiKV 是作為 HTAP 資料庫 TiDB 的一個底層儲存引擎設計並開發出來的,屬於內部系統,缺乏詳細的文件,以至於同學們不知道 TiKV 是怎麼設計的,以及程式碼為什麼要這麼寫。

對於第一個問題,我們內部正在製作一系列的 Rust 培訓課程,由 Rust 作者以及 Rust 社群知名的開發者親自操刀,預計會在今年第一季度對外發布。希望通過該課程的學習,大家能快速入門 Rust,使用 Rust 開發自己的應用。

而對於第二個問題,我們會啟動 《TiKV 原始碼解析系列文章》以及 《Deep Dive TiKV 系列文章》計劃,在《Deep Dive TiKV 系列文章》中,我們會詳細介紹與解釋 TiKV 所使用技術的基本原理,譬如 Raft 協議的說明,以及我們是如何對 Raft 做擴充套件和優化的。而 《TiKV 原始碼解析系列文章》則是會從原始碼層面給大家抽絲剝繭,讓大家知道我們內部到底是如何實現的。我們希望,通過這兩個系列,能讓大家對 TiKV 有更深刻的理解,再加上 Rust 培訓,能讓大家很好的參與到 TiKV 的開發中來。

結構

本篇文章是《TiKV 原始碼解析系列文章》的序篇,會簡單的給大家講一下 TiKV 的基本模組,讓大家對這個系統有一個整體的瞭解。

要理解 TiKV,只是瞭解 github.com/tikv/tikv 這一個專案是遠遠不夠的,通常,我們也需要了解很多其他的專案,包括但不限於:

在這個系列裡面,我們首先會從 TiKV 使用的周邊庫開始介紹,然後介紹 TiKV,最後會介紹 PD。下面簡單來說下我們的一些介紹計劃。

Storage Engine

TiKV 現在使用 RocksDB 作為底層資料儲存方案。在 pingcap/rust-rocksdb 這個庫裡面,我們會簡單說明 Rust 是如何通過 Foreign Function Interface (FFI) 來跟 C library 進行互動,以及我們是如何將 RocksDB 的 C API 封裝好給 Rust 使用的。

另外,在 pingcap/rocksdb 這個庫裡面,我們會詳細的介紹我們自己研發的 Key-Value 分離引擎 - Titan,同時也會讓大家知道如何使用 RocksDB 對外提供的介面來構建自己的 engine。

Raft

TiKV 使用的是 Raft 一致性協議。為了保證演算法的正確性,我們直接將 etcd 的 Go 實現 port 成了 Rust。在 pingcap/raft-rs,我們會詳細介紹 Raft 的選舉,Log 複製,snapshot 這些基本的功能是如何實現的。

另外,我們還會介紹對 Raft 的一些優化,譬如 pre-vote,check quorum 機制,batch 以及 pipeline。

最後,我們會說明如何去使用這個 Raft 庫,這樣大家就能在自己的應用裡面整合 Raft 了。

gRPC

TiKV 使用的是 gRPC 作為通訊框架,我們直接把 Google C gRPC 庫封裝在 grpc-rs 這個庫裡面。我們會詳細告訴大家如何去封裝和操作 C gRPC 庫,啟動一個 gRPC 服務。

另外,我們還會介紹如何使用 Rust 的 futures-rs 來將非同步邏輯變成類似同步的方式來處理,以及如何通過解析 protobuf 檔案來生成對應的 API 程式碼。

最後,我們會介紹如何基於該庫構建一個簡單的 gRPC 服務。

Prometheus

TiKV 使用 Prometheus 作為其監控系統, rust-prometheus 這個庫是 Prometheus 的 Rust client。在這個庫裡面,我們會介紹如果支援不同的 Prometheus 的資料型別(Coutner,Gauge,Historgram)。

另外,我們會重點介紹我們是如何通過使用 Rust 的 Macro 來支援 Prometheus 的 Vector metrics 的。

最後,我們會介紹如何在自己的專案裡面整合 Prometheus client,將自己的 metrics 存到 Prometheus 裡面,方便後續分析。

Fail

Fail 是一個錯誤注入的庫。通過這個庫,我們能很方便的在程式碼的某些地方加上 hook,注入錯誤,然後在系統執行的時候觸發相關的錯誤,看系統是否穩定。

我們會詳細的介紹 Fail 是如何通過 macro 來注入錯誤,會告訴大家如何新增自己的 hook,以及在外面進行觸發

TiKV

TiKV 是一個非常複雜的系統,這塊我們會重點介紹,主要包括:

  1. Raftstore,該模組裡面我們會介紹 TiKV 如何使用 Raft,如何支援 Multi-Raft。
  2. Storage,該模組裡面我們會介紹 Multiversion concurrency control (MVCC),基於 Percolator 的分散式事務的實現,資料在 engine 裡面的儲存方式,engine 操作相關的 API 等。
  3. Server,該模組我們會介紹 TiKV 的 gRPC API,以及不同函式執行流程。
  4. Coprocessor,該模組我們會詳細介紹 TiKV 是如何處理 TiDB 的下推請求的,如何通過不同的表示式進行資料讀取以及計算的。
  5. PD,該模組我們會介紹 TiKV 是如何跟 PD 進行互動的。
  6. Import,該模組我們會介紹 TiKV 如何處理大量資料的匯入,以及如何跟 TiDB 資料匯入工具 lightning 互動的。
  7. Util,該模組我們會介紹一些 TiKV 使用的基本功能庫。

PD

PD 用來負責整個 TiKV 的排程,我們會詳細的介紹 PD 內部是如何使用 etcd 來進行後設資料存取和高可用支援,也會介紹 PD 如何跟 TiKV 互動,如何生成全域性的 ID 以及 timestamp。

最後,我們會詳細的介紹 PD 提供的 scheduler,以及不同的 scheudler 所負責的事情,讓大家能通過配置 scheduler 來讓系統更加的穩定。

小結

上面簡單的介紹了原始碼解析涉及的模組,還有一些模組譬如 github.com/tikv/client… 仍在開發中,等完成之後我們也會進行原始碼解析。

我們希望通過該原始碼解析系列,能讓大家對 TiKV 有一個更深刻的理解。當然,TiKV 的原始碼也是一直在不停的演化,我們也會盡量保證文件的及時更新。

最後,歡迎大家參與 TiKV 的開發。

TiKV 原始碼解析系列文章(一)序

相關文章