TiDB 原始碼閱讀系列文章（一）序

PingCAP發表於2018-03-01

在 TiDB DevCon2018 上，我們對外宣佈了 TiDB 原始碼閱讀分享活動，承諾對外發布一系列文章以及視訊幫助大家理解 TiDB 原始碼。大家一直很關心這項活動的時間，而我們忙於新版本的開發，一直不得閒。在春節放假期間，終於有時間開始動手寫這個系列。

為什麼我們要做這件事情？事情的起因是隨著 TiDB 專案逐漸發展，程式碼日漸複雜，我們發現新入職的同學越來越難上手修改程式碼。我們萌生了做內部培訓的想法，通過錄制視訊、寫教程的方式，加快新同事融入的速度，做了幾次之後，我們發現效果不錯，除了新同學有不少收穫之外，老同志們也瞭解了之前自己並不熟悉的模組，大家都有收穫。我們想到開源社群面臨同樣的問題，也可以通過這項工作收益，所以萌生了把這個活動做細做大的想法，於是有了這項活動。

TiDB 作為一個開源專案，在開發過程中得到了社群的廣泛關注，很多人在試用或者已經線上用 TiDB，並給出了很多很好的建議或者是問題反饋，幫助我們把專案做的更好。對於專案開發是這樣，那麼對於資料庫技術的研究，也是這樣。我們非常希望能和對資料庫研究者、愛好者交流，我們在過去的兩年中組織過近百場技術 Meetup 或者 Talk，在和大家的交流過程中，我們發現國內的資料庫技術水平非常好，在交流過程中總能碰撞出火花。通過這項活動，我們希望能和大家做更深入的交流，通過原始碼閱讀，讓 TiDB 與大家『坦誠相見』。

前言

學習一種系統最好的方法是閱讀一些經典著作並研究一個開源專案，資料庫也不例外。單機資料庫領域有很多好的開源專案，MySQL、PostgreSQL 是其中知名度最高的兩個，不少人看過這兩個專案的程式碼。我們在剛做資料庫的時候也看過不少 MySQL、PG 的程式碼，從中受益良多。但是分散式資料庫方面，好的開源專案並不多，有一些知名的系統並不開源，比如 F1/Spanner，還有一些系統疏於維護或者是從開源變成閉源，比如被 Apple 收購後閉源的 FoundationDB（還好當初 clone 了一份程式碼 :)，參見這裡，我們在內部或者外部也組織過一些開源系統程式碼閱讀的 Talk，不過並不系統。

TiDB 目前獲得了廣泛的關注，特別是一些技術愛好者，希望能夠參與這個專案。由於整個系統的複雜性，很多人並不能很好的理解整個專案。我們希望通過這一系列文章自頂向下，由淺入深，講述 TiDB 的技術原理以及實現細節，幫助大家掌握這個專案。

背景知識

本系列文章會聚焦在 TiDB 自身，讀者需要有一些基本的知識，包括但不限於：

Go 語言，不需要精通，但是至少要能讀懂程式碼，知道 Goroutine、Channel、Sync 等元件的使用
資料庫基礎知識，瞭解一個單機資料庫由哪些功能、哪些元件
SQL 基礎知識，知道基本的 DDL、DML 語句，事務的基本常識
基本的後端服務知識，比如如何啟動一個後臺程式、RPC 是如何工作的

一些網路、作業系統的常識

總體而言，讀者需要了解基本的資料庫知識以及能看懂 Go 語言程式，我相信這一點對於大多數同學來說，並不是問題。

除了上述比較通用的知識之外，還希望讀者能夠看一下我之前寫過的三篇文章（說儲存，講計算，論排程），瞭解一些 TiDB 的基本原理。

讀者可以有哪些收穫

通過這一系列文章可以獲得什麼？首先是通過了解 TiDB 的基本原理，明白一個關係型資料庫的基本原理；其次通過閱讀 TiDB 的程式碼，知道一個資料庫是如何實現的，將教科書中看到的資料庫原理落地。第三，瞭解一個資料庫的實現對其行為的影響，可以更好的理解資料庫為什麼是這樣的，並推廣到其他的資料庫，相信對讀者用好其他資料庫也有幫助。第四，可以看到一個大型的分散式系統是如何設計、構建以及優化的。最後，大家理解了 TiDB 的程式碼後，如果後續工作中有需求，可以引用 TiDB 的程式碼，目前一些公司已經在自己的產品中用到了 TiDB 的部分模組，例如 Parser。

內容概要

首先明確一個概念，一般來說我們提到 TiDB 是指整個分散式資料庫，包括 tidb-server/pd-server/tikv-server 三大元件。由於整個專案比較複雜，又涉及到兩種程式語言（Golang 和 Rust），想了解資料庫相關的東西實際上只需要看 tidb-server 的程式碼即可。tikv-server 上面的計算相關邏輯也能夠在 tidb-server 的程式碼中找到，在 tidb-server 的程式碼目錄下，可以找到一個叫 mock-tikv 的元件，這裡利用本地儲存模擬 tikv-server 的行為，這裡能夠找到不少和 tikv-server 上面一樣的程式碼邏輯，特別是 Coprocessor 模組的邏輯，tikv-server 上的邏輯是從 mock-tikv 上移植過去的。所以本系列文章主要介紹 tidb-server 的程式碼，除非特別說明，文章中提到的 TiDB 就是指 tidb-server。

這一系列文章會按照資料庫的元件以及 SQL 處理的常見流程，講解 Protocol 層，以及Parser、Preprocess、Optimizer、Executor、Storage Engine 等重要模組。從整體上分為兩大部分，上半部分包括如下四篇文章：

第一篇文章介紹整體的架構，知道 TiDB 有哪些模組，分別是做什麼的，從哪裡入手比較好，哪些可以忽略，哪些需要仔細閱讀。
第二篇文章從 SQL 處理流程出發，介紹哪裡是入口，需要做哪些操作，知道一個 SQL 是從哪裡進來的，在哪裡處理，並從哪裡返回。
第三篇文章從程式碼本身出發，介紹如何看懂某個模組的程式碼。
第四篇文章會引入一個例子，介紹如何讓 TiDB 支援一個新的語法。

希望大家閱讀完這部分後，對 TiDB 有了一定的基礎，能夠看懂大體流程，遇到問題或者想給 TiDB 新增一個新 Feature 的時候，不至於無從下手。

下半部分會講解的更深入，針對 TiDB 的每個重要模組進行講解，包括優化器的詳細實現、邏輯優化/物理優化是如何做的、重要的物理運算元的實現等等。希望大家閱讀後能對 TiDB 有深入的理解，能夠完全理解 TiDB 的程式碼。這部分會比上半部分多很多，具體數量尚未定。

這一系列文章也會作為 PingCAP 公司的內部培訓資料，我們希望社群也能從中受益。所有文章會發布在 PingCAP 的微信公眾號(微訊號：pingcap2015)、知乎專欄以及 PingCAP 的官方部落格，歡迎大家通過這些渠道關注。

文章之外

除了這一系列文章之外，我們還有一個內部培訓視訊的開源計劃，目前內部的原始碼講解活動已經開展了 4 次，形式是由某一位同事花一週時間研究一個自己不熟悉的模組，然後用一個小時的時間給其他同事講解。目的是讓每個人瞭解所有的模組。這個培訓還會繼續下去，每次都錄製了視訊，我們計劃將這些視訊進行剪輯和整理，然後開放出來。近期會邀請一些社群貢獻者做內部測試，然後根據他們意見做一些調整，再開放給整個社群。

時間計劃

這一系列文章剛開始提筆撰寫，目前只是有一個大致的規劃，我們會盡可能保證按照計劃 Release 出來各篇文章。3 月中旬之前會發出上半部分的幾篇文章，後續逐漸放出下半部分的文章。

至於視訊部分，要看剪輯以及測試的進度，我們會給出預告。

一些期望

我們並沒有編寫系列教程的經驗，希望在逐漸放出文章的過程中，能收到讀者的反饋，指導我們不斷改進這項工作，最終能夠一起把這件事情做好。在整個活動過程中，我們會密切關注反饋，隨時調整。

除此之外，我們希望能有一起志同道合的人蔘與到 TiDB 的開發中來，可以通過開源社群，甚至是肉身投奔 :)。

另外這一系列文章的目的在於幫助讀者更好的理解 TiDB 原始碼，而不是替代閱讀原始碼的過程。希望讀者能在閱讀原始碼的時候，以這些文章為參考，而不是隻讀文章，不看程式碼。切記『紙上得來終覺淺，絕知此事要 PR』。

作者：申礫

DM 原始碼閱讀系列文章（一）序
2019-03-20
原始碼
TiDB 原始碼閱讀系列文章（二十）Table Partition
2018-10-29
TiDB原始碼
TiDB 原始碼閱讀系列文章（五）TiDB SQL Parser 的實現
2019-03-03
TiDB原始碼SQL
TiDB 原始碼閱讀系列文章（十九）tikv-client（下）
2018-10-08
TiDB原始碼client
TiDB 原始碼閱讀系列文章（十四）統計資訊（下）
2018-07-19
TiDB原始碼
TiDB 原始碼閱讀系列文章（十二）統計資訊（上）
2018-07-06
TiDB原始碼
TiDB 原始碼閱讀系列文章（十六）INSERT 語句詳解
2019-02-27
TiDB原始碼
TiDB 原始碼閱讀系列文章（十）Chunk 和執行框架簡介
2018-06-19
TiDB原始碼框架
TiDB 原始碼閱讀系列文章（二十三）Prepare/Execute 請求處理
2019-01-04
TiDB原始碼
TiKV 原始碼解析系列文章（一）序
2019-01-28
原始碼
TiDB 原始碼閱讀系列文章（二十一）基於規則的優化 II
2018-12-12
TiDB原始碼優化
原始碼閱讀系列彙總
2017-12-14
原始碼
DM 原始碼閱讀系列文章（二）整體架構介紹
2019-03-26
原始碼架構
【原始碼閱讀】Glide原始碼閱讀之with方法（一）
2019-04-17
原始碼IDE
【原始碼閱讀】AndPermission原始碼閱讀
2019-05-09
原始碼
DM 原始碼閱讀系列文章（三）資料同步處理單元介紹
2019-04-11
原始碼
TiDB Operator 原始碼閱讀 (三) 編排元件控制迴圈
2021-09-09
TiDB原始碼元件
Kingfisher原始碼閱讀(一)
2019-03-04
原始碼
YYModel原始碼閱讀（一）
2017-12-21
原始碼
DM 原始碼閱讀系列文章（四）dump/load 全量同步的實現
2019-04-28
原始碼
【原始碼閱讀】Glide原始碼閱讀之into方法（三）
2019-04-18
原始碼IDE
如何閱讀一份原始碼？
2022-04-21
原始碼
逐行閱讀redux原始碼（一) createStore
2018-11-08
Redux原始碼
TiDB 原始碼系列之沉浸式編譯 TiDB
2022-04-12
TiDB原始碼編譯
ReactorKit原始碼閱讀
2019-03-03
React原始碼
AQS原始碼閱讀
2022-04-22
AQS原始碼
CountDownLatch原始碼閱讀
2021-12-25
CountDownLatch原始碼
HashMap 原始碼閱讀
2021-09-09
HashMap原始碼
delta原始碼閱讀
2021-09-01
原始碼
原始碼閱讀-HashMap
2018-08-15
原始碼HashMap
NGINX原始碼閱讀
2019-01-19
Nginx原始碼
Mux 原始碼閱讀
2020-11-23
UX原始碼
HashMap原始碼閱讀
2020-11-26
HashMap原始碼
fuzz原始碼閱讀
2021-11-29
原始碼
RunLoop 原始碼閱讀
2018-04-17
OOP原始碼
express 原始碼閱讀
2017-09-19
Express原始碼
muduo原始碼閱讀
2016-04-07
原始碼
stack原始碼閱讀
2024-06-02
原始碼