如果有人問你資料庫的原理，叫他看這篇文章

小飛鶴發表於2017-07-13

http://blog.jobbole.com/100349

一提到關係型資料庫，我禁不住想：有些東西被忽視了。關係型資料庫無處不在，而且種類繁多，從小巧實用的 SQLite 到強大的 Teradata 。但很少有文章講解資料庫是如何工作的。你可以自己谷歌/百度一下『關係型資料庫原理』，看看結果多麼的稀少【譯者注：百度為您找到相關結果約1,850,000個…】，而且找到的那些文章都很短。現在如果你查詢最近時髦的技術（大資料、NoSQL或JavaScript），你能找到更多深入探討它們如何工作的文章。

難道關係型資料庫已經太古老太無趣，除了大學教材、研究文獻和書籍以外，沒人願意講了嗎？

作為一個開發人員，我不喜歡用我不明白的東西。而且，資料庫已經使用了40年之久，一定有理由的。多年以來，我花了成百上千個小時來真正領會這些我每天都在用的、古怪的黑盒子。關係型資料庫非常有趣，因為它們是基於實用而且可複用的概念。如果你對了解一個資料庫感興趣，但是從未有時間或意願來刻苦鑽研這個內容廣泛的課題，你應該喜歡這篇文章。

雖然本文標題很明確，但我的目的並不是講如何使用資料庫。因此，你應該已經掌握怎麼寫一個簡單的 join query（聯接查詢）和CRUD操作（建立讀取更新刪除），否則你可能無法理解本文。這是唯一需要你瞭解的，其他的由我來講解。

我會從一些電腦科學方面的知識談起，比如時間複雜度。我知道有些人討厭這個概念，但是沒有它你就不能理解資料庫內部的巧妙之處。由於這是個很大的話題，我將集中探討我認為必要的內容：資料庫處理SQL查詢的方式。我僅僅介紹資料庫背後的基本概念，以便在讀完本文後你會對底層到底發生了什麼有個很好的瞭解。

【譯者注：關於時間複雜度。電腦科學中，演算法的時間複雜度是一個函式，它定量描述了該演算法的執行時間。如果不瞭解這個概念建議先看看維基或百度百科，對於理解文章下面的內容很有幫助】

由於本文是個長篇技術文章，涉及到很多演算法和資料結構知識，你儘可以慢慢讀。有些概念比較難懂，你可以跳過，不影響理解整體內容。

這篇文章大約分為3個部分：

底層和上層資料庫元件概況
查詢優化過程概況
事務和緩衝池管理概況

回到基礎

很久很久以前（在一個遙遠而又遙遠的星系……)，開發者必須確切地知道他們的程式碼需要多少次運算。他們把演算法和資料結構牢記於心，因為他們的計算機執行緩慢，無法承受對CPU和記憶體的浪費。

在這一部分，我將提醒大家一些這類的概念，因為它們對理解資料庫至關重要。我還會介紹資料庫索引的概念。

O(1) vs O(n^2)

現今很多開發者不關心時間複雜度……他們是對的。

但是當你應對大量的資料（我說的可不只是成千上萬哈）或者你要爭取毫秒級操作，那麼理解這個概念就很關鍵了。而且你猜怎麼著，資料庫要同時處理這兩種情景！我不會佔用你太長時間，只要你能明白這一點就夠了。這個概念在下文會幫助我們理解什麼是基於成本的優化。

概念

時間複雜度用來檢驗某個演算法處理一定量的資料要花多長時間。為了描述這個複雜度，電腦科學家使用數學上的『簡明解釋演算法中的大O符號』。這個表示法用一個函式來描述演算法處理給定的資料需要多少次運算。

比如，當我說『這個演算法是適用 O(某函式())』，我的意思是對於某些資料，這個演算法需要某函式(資料量) 次運算來完成。

重要的不是資料量，而是當資料量增加時運算如何增加。時間複雜度不會給出確切的運算次數，但是給出的是一種理念。

圖中可以看到不同型別的複雜度的演變過程，我用了對數尺來建這個圖。具體點兒說，資料量以很快的速度從1條增長到10億條。我們可得到如下結論：

綠：O(1)或者叫常數階複雜度，保持為常數（要不人家就不會叫常數階複雜度了）。
紅：O(log(n))對數階複雜度，即使在十億級資料量時也很低。
粉：最糟糕的複雜度是 O(n^2)，平方階複雜度，運算數快速膨脹。
黑和藍：另外兩種複雜度（的運算數也是）快速增長。

例子

資料量低時，O(1) 和 O(n^2)的區別可以忽略不計。比如，你有個演算法要處理2000條元素。

O(1) 演算法會消耗 1 次運算
O(log(n)) 演算法會消耗 7 次運算
O(n) 演算法會消耗 2000 次運算
O(n*log(n)) 演算法會消耗 14,000 次運算
O(n^2) 演算法會消耗 4,000,000 次運算

O(1) 和 O(n^2) 的區別似乎很大（4百萬）,但你最多損失 2 毫秒，只是一眨眼的功夫。確實，當今處理器每秒可處理上億次的運算。這就是為什麼效能和優化在很多IT專案中不是問題。

我說過，面臨海量資料的時候，瞭解這個概念依然很重要。如果這一次演算法需要處理 1,000,000 條元素（這對資料庫來說也不算大）。

O(1) 演算法會消耗 1 次運算
O(log(n)) 演算法會消耗 14 次運算
O(n) 演算法會消耗 1,000,000 次運算
O(n*log(n)) 演算法會消耗 14,000,000 次運算
O(n^2) 演算法會消耗 1,000,000,000,000 次運算

我沒有具體算過，但我要說，用O(n^2) 演算法的話你有時間喝杯咖啡（甚至再續一杯！）。如果在資料量後面加個0，那你就可以去睡大覺了。

繼續深入

為了讓你能明白

搜尋一個好的雜湊表會得到 O(1) 複雜度
- 搜尋一個均衡的樹會得到 O(log(n)) 複雜度
- 搜尋一個陣列會得到 O(n) 複雜度
- 最好的排序演算法具有 O(n*log(n)) 複雜度
- 糟糕的排序演算法具有 O(n^2) 複雜度

注：在接下來的部分，我們將會研究這些演算法和資料結構。

有多種型別的時間複雜度

一般情況場景
最佳情況場景
最差情況場景

時間複雜度經常處於最差情況場景。

這裡我只探討時間複雜度，但複雜度還包括：

演算法的記憶體消耗
演算法的磁碟 I/O 消耗

當然還有比 n^2 更糟糕的複雜度，比如：

n^4：差勁！我將要提到的一些演算法具備這種複雜度。
3^n：更差勁！本文中間部分研究的一些演算法中有一個具備這種複雜度（而且在很多資料庫中還真的使用了）。
階乘 n：你永遠得不到結果，即便在少量資料的情況下。
n^n：如果你發展到這種複雜度了，那你應該問問自己IT是不是你的菜。

注：我並沒有給出『大O表示法』的真正定義，只是利用這個概念。可以看看維基百科上的這篇文章。

合併排序

當你要對一個集合排序時你怎麼做？什麼？呼叫 sort() 函式……好吧，算你對了……但是對於資料庫，你需要理解這個 sort() 函式的工作原理。

優秀的排序演算法有好幾個，我側重於最重要的一種：合併排序。你現在可能還不瞭解資料排序有什麼用，但看完查詢優化部分後你就會知道了。再者，合併排序有助於我們以後理解資料庫常見的聯接操作，即合併聯接。

合併

與很多有用的演算法類似，合併排序基於這樣一個技巧：將 2 個大小為 N/2 的已排序序列合併為一個 N 元素已排序序列僅需要 N 次操作。這個方法叫做合併。

我們用個簡單的例子來看看這是什麼意思：

通過此圖你可以看到，在 2 個 4元素序列裡你只需要迭代一次，就能構建最終的8元素已排序序列，因為兩個4元素序列已經排好序了：

1) 在兩個序列中，比較當前元素（當前=頭一次出現的第一個）
2) 然後取出最小的元素放進8元素序列中
3) 找到（兩個）序列的下一個元素，(比較後)取出最小的
重複1、2、3步驟，直到其中一個序列中的最後一個元素
然後取出另一個序列剩餘的元素放入8元素序列中。

這個方法之所以有效，是因為兩個4元素序列都已經排好序，你不需要再『回到』序列中查詢比較。

【譯者注：合併排序詳細原理，其中一個動圖（原圖較長，我做了刪減）清晰的演示了上述合併排序的過程，而原文的敘述似乎沒有這麼清晰，不動戳大。】

既然我們明白了這個技巧，下面就是我的合併排序虛擬碼。

C

1
2
3
4
5
6
7
8
9
10
11
12
13
array mergeSort(array a)
   if(length(a)==1)
      return a[0];
   end if
 
   //recursive calls
   [left_array right_array] := split_into_2_equally_sized_arrays(a);
   array new_left_array := mergeSort(left_array);
   array new_right_array := mergeSort(right_array);
 
   //merging the 2 small ordered arrays into a big one
   array result := merge(new_left_array,new_right_array);
   return result;

合併排序是把問題拆分為小問題，通過解決小問題來解決最初的問題（注：這種演算法叫分治法，即『分而治之、各個擊破』）。如果你不懂，不用擔心，我第一次接觸時也不懂。如果能幫助你理解的話，我認為這個演算法是個兩步演算法：

拆分階段，將序列分為更小的序列
排序階段，把小的序列合在一起（使用合併演算法）來構成更大的序列

拆分階段

在拆分階段過程中，使用3個步驟將序列分為一元序列。步驟數量的值是 log(N) （因為 N=8, log(N)=3）。【譯者注：底數為2，下文有說明】

我怎麼知道這個的？

~~我是天才！~~一句話：數學。道理是每一步都把原序列的長度除以2，步驟數就是你能把原序列長度除以2的次數。這正好是對數的定義（在底數為2時）。

排序階段

在排序階段，你從一元序列開始。在每一個步驟中，你應用多次合併操作，成本一共是 N=8 次運算。

第一步，4 次合併，每次成本是 2 次運算。
第二步，2 次合併，每次成本是 4 次運算。
第三步，1 次合併，成本是 8 次運算。

因為有 log(N) 個步驟，整體成本是 N*log(N) 次運算。

【譯者注：這個完整的動圖演示了拆分和排序的全過程，不動戳大。】

合併排序的強大之處

為什麼這個演算法如此強大？

因為：

你可以更改演算法，以便於節省記憶體空間，方法是不建立新的序列而是直接修改輸入序列。

注：這種演算法叫『原地演算法』(in-place algorithm)

你可以更改演算法，以便於同時使用磁碟空間和少量記憶體而避免巨量磁碟 I/O。方法是隻向記憶體中載入當前處理的部分。在僅僅100MB的記憶體緩衝區內排序一個幾個GB的表時，這是個很重要的技巧。

注：這種演算法叫『外部排序』(external sorting)。

你可以更改演算法，以便於在多處理器/多執行緒/多伺服器上執行。

比如，分散式合併排序是Hadoop（那個著名的大資料框架）的關鍵元件之一。

這個演算法可以點石成金（事實如此！）

這個排序演算法在大多數（如果不是全部的話）資料庫中使用，但是它並不是唯一演算法。如果你想多瞭解一些，你可以看看這篇論文，探討的是資料庫中常用排序演算法的優勢和劣勢。

陣列，樹和雜湊表

既然我們已經瞭解了時間複雜度和排序背後的理念，我必須要向你介紹3種資料結構了。這個很重要，因為它們是現代資料庫的支柱。我還會介紹資料庫索引的概念。

陣列

二維陣列是最簡單的資料結構。一個表可以看作是個陣列，比如：

這個二維陣列是帶有行與列的表：

每個行代表一個主體
列用來描述主體的特徵
每個列儲存某一種型別對資料（整數、字串、日期……）

雖然用這個方法儲存和視覺化資料很棒，但是當你要查詢特定的值它就很糟糕了。舉個例子，如果你要找到所有在 UK 工作的人，你必須檢視每一行以判斷該行是否屬於 UK 。這會造成 N 次運算的成本（N 等於行數），還不賴嘛，但是有沒有更快的方法呢？這時候樹就可以登場了（或開始起作用了）。

樹和資料庫索引

二叉查詢樹是帶有特殊屬性的二叉樹，每個節點的關鍵字必須：

比儲存在左子樹的任何鍵值都要大
比儲存在右子樹的任何鍵值都要小

【譯者注：binary search tree，二叉查詢樹/二叉搜尋樹，或稱 Binary Sort Tree 二叉排序樹。見百度百科】

概念

這個樹有 N=15 個元素。比方說我要找208：

我從鍵值為 136 的根開始，因為 136<208，我去找節點136的右子樹。
398>208，所以我去找節點398的左子樹
250>208，所以我去找節點250的左子樹
200<208，所以我去找節點200的右子樹。但是 200 沒有右子樹，值不存在（因為如果存在，它會在 200 的右子樹）

現在比方說我要找40

我從鍵值為136的根開始，因為 136>40，所以我去找節點136的左子樹。
80>40，所以我去找節點 80 的左子樹
40=40，節點存在。我抽取出節點內部行的ID（圖中沒有畫）再去表中查詢對應的 ROW ID。
知道 ROW ID我就知道了資料在表中對精確位置，就可以立即獲取資料。

最後，兩次查詢的成本就是樹內部的層數。如果你仔細閱讀了合併排序的部分，你就應該明白一共有 log(N)層。所以這個查詢的成本是 log(N)，不錯啊！

回到我們的問題

上文說的很抽象，我們回來看看我們的問題。這次不用傻傻的數字了，想象一下前表中代表某人的國家的字串。假設你有個樹包含表中的列『country』：

如果你想知道誰在 UK 工作
你在樹中查詢代表 UK 的節點
在『UK 節點』你會找到 UK 員工那些行的位置

這次搜尋只需 log(N) 次運算，而如果你直接使用陣列則需要 N 次運算。你剛剛想象的就是一個資料庫索引。

B+樹索引

查詢一個特定值這個樹挺好用，但是當你需要查詢兩個值之間的多個元素時，就會有大麻煩了。你的成本將是 O(N)，因為你必須查詢樹的每一個節點，以判斷它是否處於那 2 個值之間（例如，對樹使用中序遍歷）。而且這個操作不是磁碟I/O有利的，因為你必須讀取整個樹。我們需要找到高效的範圍查詢方法。為了解決這個問題，現代資料庫使用了一種修訂版的樹，叫做B+樹。在一個B+樹裡：

只有最底層的節點（葉子節點）才儲存資訊（相關表的行位置）
其它節點只是在搜尋中用來指引到正確節點的。

【譯者注：參考 B+樹，二叉樹遍歷維基百科】

你可以看到，節點更多了（多了兩倍）。確實，你有了額外的節點，它們就是幫助你找到正確節點的『決策節點』（正確節點儲存著相關表中行的位置）。但是搜尋複雜度還是在 O(log(N))（只多了一層）。一個重要的不同點是，最底層的節點是跟後續節點相連線的。

用這個 B+樹，假設你要找40到100間的值：

你只需要找 40（若40不存在則找40之後最貼近的值），就像你在上一個樹中所做的那樣。
然後用那些連線來收集40的後續節點，直到找到100。

比方說你找到了 M 個後續節點，樹總共有 N 個節點。對指定節點的搜尋成本是 log(N)，跟上一個樹相同。但是當你找到這個節點，你得通過後續節點的連線得到 M 個後續節點，這需要 M 次運算。那麼這次搜尋只消耗了 M+log(N) 次運算，區別於上一個樹所用的 N 次運算。此外，你不需要讀取整個樹（僅需要讀 M+log(N) 個節點）,這意味著更少的磁碟訪問。如果 M 很小（比如 200 行）並且 N 很大（1,000,000），那結果就是天壤之別了。

然而還有新的問題（又來了！）。如果你在資料庫中增加或刪除一行（從而在相關的 B+樹索引裡）：

你必須在B+樹中的節點之間保持順序，否則節點會變得一團糟，你無法從中找到想要的節點。
你必須儘可能降低B+樹的層數，否則 O(log(N)) 複雜度會變成 O(N)。

換句話說，B+樹需要自我整理和自我平衡。謝天謝地，我們有智慧刪除和插入。但是這樣也帶來了成本：在B+樹中，插入和刪除操作是 O(log(N)) 複雜度。所以有些人聽到過使用太多索引不是個好主意這類說法。沒錯，你減慢了快速插入/更新/刪除表中的一個行的操作，因為資料庫需要以代價高昂的每索引 O(log(N)) 運算來更新表的索引。再者，增加索引意味著給事務管理器帶來更多的工作負荷（在本文結尾我們會探討這個管理器）。

想了解更多細節，你可以看看 Wikipedia 上這篇關於B+樹的文章。如果你想要資料庫中實現B+樹的例子，看看MySQL核心開發人員寫的這篇文章和這篇文章。兩篇文章都致力於探討 innoDB(mysql引擎)如何處理索引。

雜湊表

我們最後一個重要的資料結構是雜湊表。當你想快速查詢值時，雜湊表是非常有用的。而且，理解雜湊表會幫助我們接下來理解一個資料庫常見的聯接操作，叫做『雜湊聯接』。這個資料結構也被資料庫用來儲存一些內部的東西（比如鎖表或者緩衝池，我們在下文會研究這兩個概念）。

雜湊表這種資料結構可以用關鍵字來快速找到一個元素。為了構建一個雜湊表，你需要定義：

元素的關鍵字
- 關鍵字的雜湊函式。關鍵字計算出來的雜湊值給出了元素的位置（叫做雜湊桶）。
- 關鍵字比較函式。一旦你找到正確的雜湊桶，你必須用比較函式在桶內找到你要的元素。

一個簡單的例子

我們來看一個形象化的例子：

這個雜湊表有10個雜湊桶。因為我懶，我只給出5個桶，但是我知道你很聰明，所以我讓你想象其它的5個桶。我用的雜湊函式是關鍵字對10取模，也就是我只保留元素關鍵字的最後一位，用來查詢它的雜湊桶：

如果元素最後一位是 0，則進入雜湊桶0，
如果元素最後一位是 1，則進入雜湊桶1，
如果元素最後一位是 2，則進入雜湊桶2，
…我用的比較函式只是判斷兩個整數是否相等。

【譯者注：取模運算】

比方說你要找元素 78：

雜湊表計算 78 的雜湊碼，等於 8。
查詢雜湊桶 8，找到的第一個元素是 78。
返回元素 78。
查詢僅耗費了 2 次運算（1次計算雜湊值，另一次在雜湊桶中查詢元素）。

現在，比方說你要找元素 59：

雜湊表計算 59 的雜湊碼，等於9。
查詢雜湊桶 9，第一個找到的元素是 99。因為 99 不等於 59，那麼 99 不是正確的元素。
用同樣的邏輯，查詢第二個元素(9)，第三個(79)，……，最後一個(29)。
元素不存在。
搜尋耗費了 7 次運算。

一個好的雜湊函式

你可以看到，根據你查詢的值，成本並不相同。

如果我把雜湊函式改為關鍵字對 1,000,000 取模（就是說取後6位數字），第二次搜尋只消耗一次運算，因為雜湊桶 00059 裡面沒有元素。真正的挑戰是找到好的雜湊函式，讓雜湊桶裡包含非常少的元素。

在我的例子裡，找到一個好的雜湊函式很容易，但這是個簡單的例子。當關鍵字是下列形式時，好的雜湊函式就更難找了：

1 個字串（比如一個人的姓）
2 個字串（比如一個人的姓和名）
2 個字串和一個日期（比如一個人的姓、名和出生年月日）
…

如果有了好的雜湊函式，在雜湊表裡搜尋的時間複雜度是 O(1)。

陣列 vs 雜湊表

為什麼不用陣列呢？

嗯，你問得好。

一個雜湊表可以只裝載一半到記憶體，剩下的雜湊桶可以留在硬碟上。
用陣列的話，你需要一個連續記憶體空間。如果你載入一個大表，很難分配足夠的連續記憶體空間。
用雜湊表的話，你可以選擇你要的關鍵字（比如，一個人的國家和姓氏）。

想要更詳細的資訊，你可以閱讀我在Java HashMap 上的文章，是關於高效雜湊表實現的。你不需要了解Java就能理解文章裡的概念。

全域性概覽

我們已經瞭解了資料庫內部的基本元件，現在我們需要回來看看資料庫的全貌了。

資料庫是一個易於訪問和修改的資訊集合。不過簡單的一堆檔案也能達到這個效果。事實上，像SQLite這樣最簡單的資料庫也只是一堆檔案而已，但SQLite是精心設計的一堆檔案，因為它允許你：

使用事務來確保資料的安全和一致性
快速處理百萬條以上的資料

資料庫一般可以用如下圖形來理解：

撰寫這部分之前，我讀過很多書/論文，它們都以自己的方式描述資料庫。所以，我不會特別關注如何組織資料庫或者如何命名各種程式，因為我選擇了自己的方式來描述這些概念以適應本文。區別就是不同的元件，總體思路為：資料庫是由多種互相互動的元件構成的。

核心元件：

程式管理器（process manager）：很多資料庫具備一個需要妥善管理的程式/執行緒池。再者，為了實現納秒級操作，一些現代資料庫使用自己的執行緒而不是作業系統執行緒。
網路管理器（network manager）：網路I/O是個大問題，尤其是對於分散式資料庫。所以一些資料庫具備自己的網路管理器。
檔案系統管理器（File system manager）：磁碟I/O是資料庫的首要瓶頸。具備一個檔案系統管理器來完美地處理OS檔案系統甚至取代OS檔案系統，是非常重要的。
記憶體管理器（memory manager）：為了避免磁碟I/O帶來的效能損失，需要大量的記憶體。但是如果你要處理大容量記憶體你需要高效的記憶體管理器，尤其是你有很多查詢同時使用記憶體的時候。
安全管理器（Security Manager）：用於對使用者的驗證和授權。
客戶端管理器（Client manager）：用於管理客戶端連線。
……

工具：

備份管理器（Backup manager）：用於儲存和恢復資料。
復原管理器（Recovery manager）：用於崩潰後重啟資料庫到一個一致狀態。
監控管理器（Monitor manager）：用於記錄資料庫活動資訊和提供監控資料庫的工具。
Administration管理器（Administration manager）：用於儲存後設資料（比如表的名稱和結構），提供管理資料庫、模式、表空間的工具。【譯者注：好吧，我真的不知道Administration manager該翻譯成什麼，有知道的麻煩告知，不勝感激……】
……

查詢管理器：

查詢解析器（Query parser）：用於檢查查詢是否合法
查詢重寫器（Query rewriter）：用於預優化查詢
查詢優化器（Query optimizer）：用於優化查詢
查詢執行器（Query executor）：用於編譯和執行查詢

資料管理器：

事務管理器（Transaction manager）：用於處理事務
快取管理器（Cache manager）：資料被使用之前置於記憶體，或者資料寫入磁碟之前置於記憶體
資料訪問管理器（Data access manager）：訪問磁碟中的資料

在本文剩餘部分，我會集中探討資料庫如何通過如下程式管理SQL查詢的：

客戶端管理器
查詢管理器
資料管理器（含復原管理器）

客戶端管理器

客戶端管理器是處理客戶端通訊的。客戶端可以是一個（網站）伺服器或者一個終端使用者或最終應用。客戶端管理器通過一系列知名的API（JDBC, ODBC, OLE-DB …）提供不同的方式來訪問資料庫。

客戶端管理器也提供專有的資料庫訪問API。

當你連線到資料庫時：

管理器首先檢查你的驗證資訊（使用者名稱和密碼），然後檢查你是否有訪問資料庫的授權。這些許可權由DBA分配。
然後，管理器檢查是否有空閒程式（或執行緒）來處理你對查詢。
管理器還會檢查資料庫是否負載很重。
管理器可能會等待一會兒來獲取需要的資源。如果等待時間達到超時時間，它會關閉連線並給出一個可讀的錯誤資訊。
然後管理器會把你的查詢送給查詢管理器來處理。
因為查詢處理程式不是『不全則無』的，一旦它從查詢管理器得到資料，它會把部分結果儲存到一個緩衝區並且開始給你傳送。
如果遇到問題，管理器關閉連線，向你傳送可讀的解釋資訊，然後釋放資源。

查詢管理器

這部分是資料庫的威力所在，在這部分裡，一個寫得糟糕的查詢可以轉換成一個快速執行的程式碼，程式碼執行的結果被送到客戶端管理器。這個多步驟操作過程如下：

查詢首先被解析並判斷是否合法
然後被重寫，去除了無用的操作並且加入預優化部分
接著被優化以便提升效能，並被轉換為可執行程式碼和資料訪問計劃。
然後計劃被編譯
最後，被執行

這裡我不會過多探討最後兩步，因為它們不太重要。

看完這部分後，如果你需要更深入的知識，我建議你閱讀：

關於成本優化的初步研究論文(1979)：關係型資料庫系統存取路徑選擇。這個篇文章只有12頁，而且具備計算機一般水平就能理解。
非常好、非常深入的 DB2 9.X 如何優化查詢的介紹
非常好的PostgreSQL如何優化查詢的介紹。這是一篇最通俗易懂的文件，因為它講的是『我們來看看在這種情況下，PostgreSQL給出了什麼樣的查詢計劃』，而不是『我們來看看PostgreSQL用的什麼演算法』。
官方SQLite優化文件。『易於』閱讀，因為SQLite用的是簡單規則。再者，這是唯一真正解釋SQLite如何工作的官方文件。
非常好的SQL Server 2005 如何優化查詢的介紹
Oracle 12c 優化白皮書
2篇查詢優化的教程，第一篇第二篇。教程來自《資料庫系統概念》的作者，很好的讀物，集中討論磁碟I/O，但是要求具有很好的電腦科學水平。
另一個原理教程，這篇教程我覺得更易懂，不過它僅關注聯接運算子（join operators）和磁碟I/O。

查詢解析器

每一條SQL語句都要送到解析器來檢查語法，如果你的查詢有錯，解析器將拒絕該查詢。比如，如果你寫成”SLECT …” 而不是 “SELECT …”，那就沒有下文了。

但這還不算完，解析器還會檢查關鍵字是否使用正確的順序，比如 WHERE 寫在 SELECT 之前會被拒絕。

然後，解析器要分析查詢中的表和欄位，使用資料庫後設資料來檢查：

表是否存在
表的欄位是否存在
對某型別欄位的運算是否可能（比如，你不能將整數和字串進行比較，你不能對一個整數使用 substring() 函式）

接著，解析器檢查在查詢中你是否有許可權來讀取（或寫入）表。再強調一次：這些許可權由DBA分配。

在解析過程中，SQL 查詢被轉換為內部表示（通常是一個樹）。

如果一切正常，內部表示被送到查詢重寫器。

查詢重寫器

在這一步，我們已經有了查詢的內部表示，重寫器的目標是：

預優化查詢
避免不必要的運算
幫助優化器找到合理的最佳解決方案

重寫器按照一系列已知的規則對查詢執行檢測。如果查詢匹配一種模式的規則，查詢就會按照這條規則來重寫。下面是（可選）規則的非詳盡的列表：

檢視合併：如果你在查詢中使用檢視，檢視就會轉換為它的 SQL 程式碼。
子查詢扁平化：子查詢是很難優化的，因此重寫器會嘗試移除子查詢

例如：

MySQL

1

2

3

4

5

6

SELECT
PERSON.*

FROM
PERSON

WHERE
PERSON.person_key
IN

(SELECT
MAILS.person_key

FROM
MAILS

WHERE
MAILS.mail
LIKE
'christophe%');

會轉換為：

MySQL

1
2
3
4
SELECT PERSON.*
FROM PERSON, MAILS
WHERE PERSON.person_key = MAILS.person_key
and MAILS.mail LIKE 'christophe%';

去除不必要的運算子：比如，如果你用了 DISTINCT，而其實你有 UNIQUE 約束（這本身就防止了資料出現重複），那麼 DISTINCT 關鍵字就被去掉了。
排除冗餘的聯接：如果相同的 JOIN 條件出現兩次，比如隱藏在檢視中的 JOIN 條件，或者由於傳遞性產生的無用 JOIN，都會被消除。
常數計算賦值：如果你的查詢需要計算，那麼在重寫過程中計算會執行一次。比如 WHERE AGE > 10+2 會轉換為 WHERE AGE > 12 ， TODATE(“日期字串”) 會轉換為 datetime 格式的日期值。
（高階）分割槽裁剪（Partition Pruning）：如果你用了分割槽表，重寫器能夠找到需要使用的分割槽。
（高階）物化檢視重寫（Materialized view rewrite）：如果你有個物化檢視匹配查詢謂詞的一個子集，重寫器將檢查檢視是否最新並修改查詢，令查詢使用物化檢視而不是原始表。
（高階）自定義規則：如果你有自定義規則來修改查詢（就像 Oracle policy），重寫器就會執行這些規則。
（高階）OLAP轉換：分析/加窗函式，星形聯接，ROLLUP 函式……都會發生轉換（但我不確定這是由重寫器還是優化器來完成，因為兩個程式聯絡很緊，必須看是什麼資料庫）。

【譯者注：物化檢視。謂詞，predicate，條件表示式的求值返回真或假的過程】

重寫後的查詢接著送到優化器，這時候好玩的就開始了。

統計

研究資料庫如何優化查詢之前我們需要談談統計，因為沒有統計的資料庫是愚蠢的。除非你明確指示，資料庫是不會分析自己的資料的。沒有分析會導致資料庫做出（非常）糟糕的假設。

但是，資料庫需要什麼型別的資訊呢？

我必須（簡要地）談談資料庫和作業系統如何儲存資料。兩者使用的最小單位叫做頁或塊（預設 4 或 8 KB）。這就是說如果你僅需要 1KB，也會佔用一個頁。要是頁的大小為 8KB，你就浪費了 7KB。

回來繼續講統計！當你要求資料庫收集統計資訊，資料庫會計算下列值：

表中行和頁的數量
表中每個列中的：
唯一值
資料長度（最小，最大，平均）
資料範圍（最小，最大，平均）

表的索引資訊

這些統計資訊會幫助優化器估計查詢所需的磁碟 I/O、CPU、和記憶體使用

對每個列的統計非常重要。
比如，如果一個表 PERSON 需要聯接 2 個列： LAST_NAME, FIRST_NAME。
根據統計資訊，資料庫知道FIRST_NAME只有 1,000 個不同的值，LAST_NAME 有 1,000,000 個不同的值。
因此，資料庫就會按照 LAST_NAME, FIRST_NAME 聯接。
因為 LAST_NAME 不大可能重複，多數情況下比較 LAST_NAME 的頭 2 、 3 個字元就夠了，這將大大減少比較的次數。

不過，這些只是基本的統計。你可以讓資料庫做一種高階統計，叫直方圖。直方圖是列值分佈情況的統計資訊。例如：

出現最頻繁的值
分位數【譯者注：http://baike.baidu.com/view/1323572.htm】
…

這些額外的統計會幫助資料庫找到更佳的查詢計劃，尤其是對於等式謂詞（例如： WHERE AGE = 18 ）或範圍謂詞（例如： WHERE AGE > 10 and AGE < 40），因為資料庫可以更好的瞭解這些謂詞相關的數字型別資料行（注：這個概念的技術名稱叫選擇率）。

統計資訊儲存在資料庫後設資料內，例如（非分割槽）表的統計資訊位置：

Oracle： USER / ALL / DBA_TABLES 和 USER / ALL / DBA_TAB_COLUMNS
DB2： SYSCAT.TABLES 和 SYSCAT.COLUMNS

統計資訊必須及時更新。如果一個表有 1,000,000 行而資料庫認為它只有 500 行，沒有比這更糟糕的了。統計唯一的不利之處是需要時間來計算，這就是為什麼資料庫大多預設情況下不會自動計算統計資訊。資料達到百萬級時統計會變得困難，這時候，你可以選擇僅做基本統計或者在一個資料庫樣本上執行統計。

舉個例子，我參與的一個專案需要處理每表上億條資料的庫，我選擇只統計10%，結果造成了巨大的時間消耗。本例證明這是個糟糕的決定，因為有時候 Oracle 10G 從特定表的特定列中選出的 10% 跟全部 100% 有很大不同（對於擁有一億行資料的表，這種情況極少發生）。這次錯誤的統計導致了一個本應 30 秒完成的查詢最後執行了 8 個小時，查詢這個現象根源的過程簡直是個噩夢。這個例子顯示了統計的重要性。

注：當然了，每個資料庫還有其特定的更高階的統計。如果你想了解更多資訊，讀讀資料庫的文件。話雖然這麼說，我已經盡力理解統計是如何使用的了，而且我找到的最好的官方文件來自PostgreSQL。

查詢優化器

所有的現代資料庫都在用基於成本的優化（即CBO）來優化查詢。道理是針對每個運算設定一個成本，通過應用成本最低廉的一系列運算，來找到最佳的降低查詢成本的方法。

為了理解成本優化器的原理，我覺得最好用個例子來『感受』一下這個任務背後的複雜性。這裡我將給出聯接 2 個表的 3 個方法，我們很快就能看到即便一個簡單的聯接查詢對於優化器來說都是個噩夢。之後，我們會了解真正的優化器是怎麼做的。

對於這些聯接操作，我會專注於它們的時間複雜度，但是，資料庫優化器計算的是它們的 CPU 成本、磁碟 I/O 成本、和記憶體需求。時間複雜度和 CPU 成本的區別是，時間成本是個近似值（給我這樣的懶傢伙準備的）。而 CPU 成本，我這裡包括了所有的運算，比如：加法、條件判斷、乘法、迭代……還有呢：

每一個高階程式碼運算都要特定數量的低階 CPU 運算。
對於 Intel Core i7、Intel Pentium 4、AMD Opteron…等，（就 CPU 週期而言）CPU 的運算成本是不同的，也就是說它取決於 CPU 的架構。

使用時間複雜度就容易多了（至少對我來說），用它我也能瞭解到 CBO 的概念。由於磁碟 I/O 是個重要的概念，我偶爾也會提到它。請牢記，大多數時候瓶頸在於磁碟 I/O 而不是 CPU 使用。

索引

在研究 B+樹的時候我們談到了索引，要記住一點，索引都是已經排了序的。

僅供參考：還有其他型別的索引，比如點陣圖索引，在 CPU、磁碟I/O、和記憶體方面與B+樹索引的成本並不相同。

另外，很多現代資料庫為了改善執行計劃的成本，可以僅為當前查詢動態地生成臨時索引。

存取路徑

在應用聯接運算子（join operators）之前，你首先需要獲得資料。以下就是獲得資料的方法。

注：由於所有存取路徑的真正問題是磁碟 I/O，我不會過多探討時間複雜度。

【譯者注：四種型別的Oracle索引掃描介紹】

全掃描

如果你讀過執行計劃，一定看到過『全掃描』（或只是『掃描』）一詞。簡單的說全掃描就是資料庫完整的讀一個表或索引。就磁碟 I/O 而言，很明顯全表掃描的成本比索引全掃描要高昂。

範圍掃描

其他型別的掃描有索引範圍掃描，比如當你使用謂詞 ” WHERE AGE > 20 AND AGE < 40 ” 的時候它就會發生。

當然，你需要在 AGE 欄位上有索引才能用到索引範圍掃描。

在第一部分我們已經知道，範圍查詢的時間成本大約是 log(N)+M，這裡 N 是索引的資料量，M 是範圍內估測的行數。多虧有了統計我們才能知道 N 和 M 的值（注： M 是謂詞 “ AGE > 20 AND AGE < 40 ” 的選擇率）。另外範圍掃描時，你不需要讀取整個索引，因此在磁碟 I/O 方面沒有全掃描那麼昂貴。

唯一掃描

如果你只需要從索引中取一個值你可以用唯一掃描。

根據 ROW ID 存取

多數情況下，如果資料庫使用索引，它就必須查詢與索引相關的行，這樣就會用到根據 ROW ID 存取的方式。

例如，假如你執行：

MySQL




1


SELECT
LASTNAME,
FIRSTNAME
from
PERSON
WHERE
AGE
=
28

如果 person 表的 age 列有索引，優化器會使用索引找到所有年齡為 28 的人，然後它會去表中讀取相關的行，這是因為索引中只有 age 的資訊而你要的是姓和名。

但是，假如你換個做法：

MySQL

1
2
SELECT TYPE_PERSON.CATEGORY from PERSON ,TYPE_PERSON
WHERE PERSON.AGE = TYPE_PERSON.AGE

PERSON 表的索引會用來聯接 TYPE_PERSON 表，但是 PERSON 表不會根據行ID 存取，因為你並沒有要求這個表內的資訊。

雖然這個方法在少量存取時表現很好，這個運算的真正問題其實是磁碟 I/O。假如需要大量的根據行ID存取，資料庫也許會選擇全掃描。

其它路徑

我沒有列舉所有的存取路徑，如果你感興趣可以讀一讀 Oracle文件。其它資料庫裡也許叫法不同但背後的概念是一樣的。

聯接運算子

那麼，我們知道如何獲取資料了，那現在就把它們聯接起來！

我要展現的是3個個常用聯接運算子：合併聯接（Merge join），雜湊聯接（Hash Join）和巢狀迴圈聯接（Nested Loop Join）。但是在此之前，我需要引入新詞彙了：內關係和外關係（ inner relation and outer relation）【譯者注： “內關係和外關係” 這個說法來源不明，跟查詢的“內聯接（INNER JOIN）、外聯接（OUTER JOIN） ” 不是一個概念。只查到百度百科詞條：關聯式資料庫裡提到“每個表格（有時被稱為一個關係）……” 。其他參考連結 “Merge Join” “Hash Join” “Nested Loop Join” 】。一個關係可以是：

一個表
一個索引
上一個運算的中間結果（比如上一個聯接運算的結果）

當你聯接兩個關係時，聯接演算法對兩個關係的處理是不同的。在本文剩餘部分，我將假定：

外關係是左側資料集
內關係是右側資料集

比如， A JOIN B 是 A 和 B 的聯接，這裡 A 是外關係，B 是內關係。

多數情況下， A JOIN B 的成本跟 B JOIN A 的成本是不同的。

在這一部分，我還將假定外關係有 N 個元素，內關係有 M 個元素。要記住，真實的優化器通過統計知道 N 和 M 的值。

注：N 和 M 是關係的基數。【譯者注：基數】

巢狀迴圈聯接

巢狀迴圈聯接是最簡單的。

道理如下：

針對外關係的每一行
檢視內關係裡的所有行來尋找匹配的行

下面是虛擬碼：

C




1

2

3

4

5

6

7

8


nested_loop_join(array
outer,
array
inner)

  for
each
row
a
in
outer

    for
each
row
b
in
inner

      if
(match_join_condition(a,b))

        write_result_in_output(a,b)

      end
if

    end
for

  
end
for

由於這是個雙迭代，時間複雜度是 O(N*M)。

在磁碟 I/O 方面，針對 N 行外關係的每一行，內部迴圈需要從內關係讀取 M 行。這個演算法需要從磁碟讀取 N+ N*M 行。但是，如果內關係足夠小，你可以把它讀入記憶體，那麼就只剩下 M + N 次讀取。這樣修改之後，內關係必須是最小的，因為它有更大機會裝入記憶體。

在CPU成本方面沒有什麼區別，但是在磁碟 I/O 方面，最好最好的，是每個關係只讀取一次。

當然，內關係可以由索引代替，對磁碟 I/O 更有利。

由於這個演算法非常簡單，下面這個版本在內關係太大無法裝入記憶體時，對磁碟 I/O 更加有利。道理如下：

為了避免逐行讀取兩個關係，
你可以成簇讀取，把（兩個關係裡讀到的）兩簇資料行儲存在記憶體裡，
比較兩簇資料，保留匹配的，
然後從磁碟載入新的資料簇來繼續比較
直到載入了所有資料。

可能的演算法如下：

C

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
// improved version to reduce the disk I/O.
nested_loop_join_v2(file outer, file inner)
  for each bunch ba in outer
  // ba is now in memory
    for each bunch bb in inner
        // bb is now in memory
        for each row a in ba
          for each row b in bb
            if (match_join_condition(a,b))
              write_result_in_output(a,b)
            end if
          end for
       end for
    end for
   end for

使用這個版本，時間複雜度沒有變化，但是磁碟訪問降低了：

用前一個版本，演算法需要 N + N*M 次訪問（每次訪問讀取一行）。
用新版本，磁碟訪問變為外關係的資料簇數量 + 外關係的資料簇數量 * 內關係的資料簇數量。
增加資料簇的尺寸，可以降低磁碟訪問。

雜湊聯接

雜湊聯接更復雜，不過在很多場合比巢狀迴圈聯接成本低。

雜湊聯接的道理是：

1) 讀取內關係的所有元素
2) 在記憶體裡建一個雜湊表
3) 逐條讀取外關係的所有元素
4) （用雜湊表的雜湊函式）計算每個元素的雜湊值，來查詢內關係裡相關的雜湊桶內
5) 是否與外關係的元素匹配。

在時間複雜度方面我需要做些假設來簡化問題：

內關係被劃分成 X 個雜湊桶
雜湊函式幾乎均勻地分佈每個關係內資料的雜湊值，就是說雜湊桶大小一致。
外關係的元素與雜湊桶內的所有元素的匹配，成本是雜湊桶內元素的數量。

時間複雜度是 (M/X) * (N/X) + 建立雜湊表的成本(M) + 雜湊函式的成本 * N 。
如果雜湊函式建立了足夠小規模的雜湊桶，那麼複雜度就是 O(M+N)。

還有個雜湊聯接的版本，對記憶體有利但是對磁碟 I/O 不夠有利。這回是這樣的：

1) 計算內關係和外關係雙方的雜湊表
2) 儲存雜湊表到磁碟
3) 然後逐個雜湊桶比較（其中一個讀入記憶體，另一個逐行讀取）。

合併聯接

合併聯接是唯一產生排序的聯接演算法。

注：這個簡化的合併聯接不區分內表或外表；兩個表扮演同樣的角色。但是真實的實現方式是不同的，比如當處理重複值時。

1.（可選）排序聯接運算：兩個輸入源都按照聯接關鍵字排序。

2.合併聯接運算：排序後的輸入源合併到一起。

排序

我們已經談到過合併排序，在這裡合併排序是個很好的演算法（但是並非最好的，如果記憶體足夠用的話，還是雜湊聯接更好）。

然而有時資料集已經排序了，比如：

如果表內部就是有序的，比如聯接條件裡一個索引組織表【譯者注： index-organized table 】
如果關係是聯接條件裡的一個索引
如果聯接應用在一個查詢中已經排序的中間結果

合併聯接

這部分與我們研究過的合併排序中的合併運算非常相似。不過這一次呢，我們不是從兩個關係裡挑選所有元素，而是隻挑選相同的元素。道理如下：

1) 在兩個關係中，比較當前元素（當前=頭一次出現的第一個）
2) 如果相同，就把兩個元素都放入結果，再比較兩個關係裡的下一個元素
3) 如果不同，就去帶有最小元素的關係裡找下一個元素（因為下一個元素可能會匹配）
4) 重複 1、2、3步驟直到其中一個關係的最後一個元素。

因為兩個關係都是已排序的，你不需要『回頭去找』，所以這個方法是有效的。

該演算法是個簡化版，因為它沒有處理兩個序列中相同資料出現多次的情況（即多重匹配）。真實版本『僅僅』針對本例就更加複雜，所以我才選擇簡化版。

如果兩個關係都已經排序，時間複雜度是 O(N+M)

如果兩個關係需要排序，時間複雜度是對兩個關係排序的成本：O(N*Log(N) + M*Log(M))

對於計算機極客，我給出下面這個可能的演算法來處理多重匹配（注：對於這個演算法我不保證100%正確）：

C




1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25


mergeJoin(relation
a,
relation
b)

  relation
output

  integer
a_key:=0;

  integer  b_key:=0;

 

  while
(a[a_key]!=null
and
b[b_key]!=null)

    
if
(a[a_key]
<
b[b_key])

      a_key++;

    
else
if
(a[a_key]
>
b[b_key])

      b_key++;

    
else
//Join
 predicate satisfied

      write_result_in_output(a[a_key],b[b_key])

      //We
 need to be careful when we increase the pointers

      if
(a[a_key+1]
!=
b[b_key])

        b_key++;

      end
if

      if
(b[b_key+1]
!=
a[a_key])

        a_key++;

      end
if

      if
(b[b_key+1]
==
a[a_key]
&&
b[b_key]
==
a[a_key+1])

        b_key++;

        a_key++;

      end
if

    end
if

  end
while

哪個演算法最好？

如果有最好的，就沒必要弄那麼多種型別了。這個問題很難，因為很多因素都要考慮，比如：

空閒記憶體：沒有足夠的記憶體的話就跟強大的雜湊聯接拜拜吧（至少是完全記憶體中雜湊聯接）。
兩個資料集的大小。比如，如果一個大表聯接一個很小的表，那麼巢狀迴圈聯接就比雜湊聯接快，因為後者有建立雜湊的高昂成本；如果兩個表都非常大，那麼巢狀迴圈聯接CPU成本就很高昂。
是否有索引：有兩個 B+樹索引的話，聰明的選擇似乎是合併聯接。
結果是否需要排序：即使你用到的是未排序的資料集，你也可能想用成本較高的合併聯接（帶排序的），因為最終得到排序的結果後，你可以把它和另一個合併聯接串起來（或者也許因為查詢用 ORDER BY/GROUP BY/DISTINCT 等操作符隱式或顯式地要求一個排序結果）。
關係是否已經排序：這時候合併聯接是最好的候選項。
聯接的型別：是等值聯接（比如 tableA.col1 = tableB.col2 ）？還是內聯接？外聯接？笛卡爾乘積？或者自聯接？有些聯接在特定環境下是無法工作的。
資料的分佈：如果聯接條件的資料是傾斜的（比如根據姓氏來聯接人，但是很多人同姓），用雜湊聯接將是個災難，原因是雜湊函式將產生分佈極不均勻的雜湊桶。
如果你希望聯接操作使用多執行緒或多程式。

想要更詳細的資訊，可以閱讀DB2, ORACLE 或 SQL Server)的文件。

簡化的例子

我們已經研究了 3 種型別的聯接操作。

現在，比如說我們要聯接 5 個表，來獲得一個人的全部資訊。一個人可以有：

多個手機號（MOBILES）
多個郵箱（MAILS）
多個地址（ADRESSES）
多個銀行賬號（BANK_ACCOUNTS）

換句話說，我們需要用下面的查詢快速得到答案：

MySQL

1
2
3
4
5
6
SELECT * from PERSON, MOBILES, MAILS,ADRESSES, BANK_ACCOUNTS
WHERE
PERSON.PERSON_ID = MOBILES.PERSON_ID
AND PERSON.PERSON_ID = MAILS.PERSON_ID
AND PERSON.PERSON_ID = ADRESSES.PERSON_ID
AND PERSON.PERSON_ID = BANK_ACCOUNTS.PERSON_ID

作為一個查詢優化器，我必須找到處理資料最好的方法。但有 2 個問題：

每個聯接使用那種型別？
我有 3 種可選（雜湊、合併、巢狀），同時可能用到 0, 1 或 2 個索引（不必說還有多種型別的索引）。

按什麼順序執行聯接？
比如，下圖顯示了針對 4 個表僅僅 3 次聯接，可能採用的執行計劃：

那麼下面就是我可能採取的方法：

1) 採取粗暴的方式
用資料庫統計，計算每種可能的執行計劃的成本，保留最佳方案。但是，會有很多可能性。對於一個給定順序的聯接操作，每個聯接有三種可能性：雜湊、合併、巢狀，那麼總共就有 3^4 種可能性。確定聯接的順序是個二叉樹的排列問題，會有 (2*4)!/(4+1)! 種可能的順序。對本例這個相當簡化了的問題，我最後會得到 3^4*(2*4)!/(4+1)! 種可能。
拋開專業術語，那相當於 27,216 種可能性。如果給合併聯接加上使用 0,1 或 2 個 B+樹索引，可能性就變成了 210,000種。我是不是告訴過你這個查詢其實非常簡單嗎？

2) 我大叫一聲辭了這份工作
很有誘惑力，但是這樣一來，你不會的到查詢結果，而我需要錢來付賬單。

3) 我只嘗試幾種執行計劃，挑一個成本最低的。
由於不是超人，我不能算出所有計劃的成本。相反，我可以武斷地從全部可能的計劃中選擇一個子集，計算它們的成本，把最佳的計劃給你。

4) 我用聰明的規則來降低可能性的數量
有兩種規則：
我可以用『邏輯』規則，它能去除無用的可能性，但是無法過濾大量的可能性。比如：『巢狀聯接的內關係必須是最小的資料集』。
我接受現實，不去找最佳方案，用更激進的規則來大大降低可能性的數量。比如：『如果一個關係很小，使用巢狀迴圈聯接，絕不使用合併或雜湊聯接。』

在這個簡單的例子中，我最後得到很多可能性。但現實世界的查詢還會有其他關係運算子，像 OUTER JOIN, CROSS JOIN, GROUP BY, ORDER BY, PROJECTION, UNION, INTERSECT, DISTINCT … 這意味著更多的可能性。

那麼，資料庫是如何處理的呢？

動態程式設計，貪婪演算法和啟發式演算法

關係型資料庫會嘗試我剛剛提到的多種方法，優化器真正的工作是在有限時間裡找到一個好的解決方案。

多數時候，優化器找到的不是最佳的方案，而是一個『不錯』的

對於小規模的查詢，採取粗暴的方式是有可能的。但是為了讓中等規模的查詢也能採取粗暴的方式，我們有辦法避免不必要的計算，這就是動態程式設計。

動態程式設計

這幾個字背後的理念是，很多執行計劃是非常相似的。看看下圖這幾種計劃：

它們都有相同的子樹（A JOIN B），所以，不必在每個計劃中計算這個子樹的成本，計算一次，儲存結果，當再遇到這個子樹時重用。用更正規的說法，我們面對的是個重疊問題。為了避免對部分結果的重複計算，我們使用記憶法。

對於計算機極客，下面是我在先前給你的教程裡找到的一個演算法。我不提供解釋，所以僅在你已經瞭解動態程式設計或者精通演算法的情況下閱讀（我提醒過你哦）：

C




1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17


procedure
findbestplan(S)

if
(bestplan[S].cost
infinite)

  
return
bestplan[S]

//
 else bestplan[S] has not been computed earlier, compute it now

if
(S
contains
only
1
relation)

        
set
bestplan[S].plan
and
bestplan[S].cost
based
on
the
best
way

        
of
accessing
S  /*
 Using selections on S and indices on S */

    
else
for
each
non-empty
subset
S1
of
S
such
that
S1
!=
S

  
P1=
findbestplan(S1)

  
P2=
findbestplan(S
-
S1)

  
A
=
best
algorithm
for
joining
results
of
P1
and
P2

  
cost
=
P1.cost
+
P2.cost
+
cost
of
A

  
if
cost
<
bestplan[S].cost

      
bestplan[S].cost
=
cost

      bestplan[S].plan
=
『execute
P1.plan;
execute
P2.plan;

                
join
results
of
P1
and
P2
using
A』

return
bestplan[S]

針對大規模查詢，你也可以用動態程式設計方法，但是要附加額外的規則（或者稱為啟發式演算法）來減少可能性。

如果我們僅分析一個特定型別的計劃（例如左深樹 left-deep tree，參考)，我們得到 n*2^n 而不是 3^n。

如果我們加上邏輯規則來避免一些模式的計劃（像『如果一個表有針對指定謂詞的索引，就不要對錶嘗試合併聯接，要對索引』），就會在不給最佳方案造成過多傷害的前提下，減少可能性的數量。【譯者注：原文應該是有兩處筆誤： as=has, to=too】
如果我們在流程裡增加規則（像『聯接運算先於其他所有的關係運算』），也能減少大量的可能性。
……

貪婪演算法

但是，優化器面對一個非常大的查詢，或者為了儘快找到答案（然而查詢速度就快不起來了），會應用另一種演算法，叫貪婪演算法。

原理是按照一個規則（或啟發）以漸進的方式制定查詢計劃。在這個規則下，貪婪演算法逐步尋找最佳演算法，先處理一條JOIN，接著每一步按照同樣規則加一條新的JOIN。

我們來看個簡單的例子。比如一個針對5張表（A,B,C,D,E）4次JOIN 的查詢，為了簡化我們把巢狀JOIN作為可能的聯接方式，按照『使用最低成本的聯接』規則。

直接從 5 個表裡選一個開始（比如 A）
計算每一個與 A 的聯接（A 作為內關係或外關係）
發現 “A JOIN B” 成本最低
計算每一個與 “A JOIN B” 的結果聯接的成本（“A JOIN B” 作為內關係或外關係）
發現 “(A JOIN B) JOIN C” 成本最低
計算每一個與 “(A JOIN B) JOIN C” 的結果聯接的成本 ……
最後確定執行計劃 “( ( (A JOIN B) JOIN C) JOIN D ) JOIN E )”

因為我們是武斷地從表 A 開始，我們可以把同樣的演算法用在 B，然後 C，然後 D, 然後 E。最後保留成本最低的執行計劃。

順便說一句，這個演算法有個名字，叫『最近鄰居演算法』。

拋開細節不談，只需一個良好的模型和一個 N*log(N) 複雜度的排序，問題就輕鬆解決了。這個演算法的複雜度是 O(N*log(N)) ，對比一下完全動態程式設計的 O(3^N)。如果你有個20個聯接的大型查詢，這意味著 26 vs 3,486,784,401 ，天壤之別！

這個演算法的問題是，我們做的假設是：找到 2 個表的最佳聯接方法，保留這個聯接結果，再聯接下一個表，就能得到最低的成本。但是：

即使在 A, B, C 之間，A JOIN B 可得最低成本
(A JOIN C) JOIN B 也許比 (A JOIN B) JOIN C 更好。

為了改善這一狀況，你可以多次使用基於不同規則的貪婪演算法，並保留最佳的執行計劃。

其他演算法

[ 如果你已經受夠了演算法話題，就直接跳到下一部分。這部分對文章餘下的內容不重要。]【譯者注：我也很想把這段跳過去 -_- 】

很多電腦科學研究者熱衷於尋找最佳的執行計劃，他們經常為特定問題或模式探尋更好的解決方案，比如：

如果查詢是星型聯接（一種多聯接查詢），某些資料庫使用一種特定的演算法。
如果查詢是並行的，某些資料庫使用一種特定的演算法。 ……

其他演算法也在研究之中，就是為了替換在大型查詢中的動態程式設計演算法。貪婪演算法屬於一個叫做啟發式演算法的大家族，它根據一條規則（或啟發），儲存上一步找到的方法，『附加』到當前步驟來進一步搜尋解決方法。有些演算法根據特定規則，一步步的應用規則但不總是保留上一步找到的最佳方法。它們統稱啟發式演算法。

比如，基因演算法就是一種：

一個方法代表一種可能的完整查詢計劃
每一步保留了 P 個方法（即計劃），而不是一個。
0) P 個計劃隨機建立
1) 成本最低的計劃才會保留
2) 這些最佳計劃混合在一起產生 P 個新的計劃
3) 一些新的計劃被隨機改寫
4) 1，2，3步重複 T 次
5) 然後在最後一次迴圈，從 P 個計劃裡得到最佳計劃。

迴圈次數越多，計劃就越好。

這是魔術？不，這是自然法則：適者生存！

PostgreSQL 實現了基因演算法，但我並沒有發現它是不是預設使用這種演算法的。

資料庫中還使用了其它啟發式演算法，像『模擬退火演算法（Simulated Annealing）』、『互動式改良演算法（Iterative Improvement）』、『雙階段優化演算法（Two-Phase Optimization）』…..不過，我不知道這些演算法當前是否在企業級資料庫應用了，還是僅僅用在研究型資料庫。

如果想進一步瞭解，這篇研究文章介紹兩個更多可能的演算法《資料庫查詢優化中聯接排序問題的演算法綜述》，你可以去閱讀一下。

真實的優化器

[ 這段不重要，可以跳過 ]

然而，所有上述羅裡羅嗦的都非常理論化，我是個開發者而不是研究者，我喜歡具體的例子。

我們來看看 SQLite 優化器是怎麼工作的。這是個輕量化資料庫，它使用一種簡單優化器，基於帶有附加規則的貪婪演算法，來限制可能性的數量。

SQLite 在有 CROSS JOIN 操作符時從不給表重新排序
使用巢狀聯接
外聯接始終按順序評估
……
3.8.0之前的版本使用『最近鄰居』貪婪演算法來搜尋最佳查詢計劃
等等……我們見過這個演算法！真是巧哈！
從3.8.0版本（釋出於2015年）開始，SQLite使用『N最近鄰居』貪婪演算法來搜尋最佳查詢計劃

我們再看看另一個優化器是怎麼工作的。IBM DB2 跟所有企業級資料庫都類似，我討論它是因為在切換到大資料之前，它是我最後真正使用的資料庫。

看過官方文件後，我們瞭解到 DB2 優化器可以讓你使用 7 種級別的優化：

對聯接使用貪婪演算法
0 – 最小優化，使用索引掃描和巢狀迴圈聯接，避免一些查詢重寫
- 1 – 低階優化
- 2 – 完全優化
對聯接使用動態程式設計演算法
3 – 中等優化和粗略的近似法
- 5 – 完全優化，使用帶有啟發式的所有技術
- 7 – 完全優化，類似級別5，但不用啟發式
- 9 – 最大優化，完全不顧開銷，考慮所有可能的聯接順序，包括笛卡爾乘積

可以看到 DB2 使用貪婪演算法和動態程式設計演算法。當然，他們不會把自己的啟發演算法分享出來的，因為查詢優化器是資料庫的看家本領。

DB2 的預設級別是 5，優化器使用下列特性：【譯者注：以下出現的一些概念我沒有做考證，因為[ 這段不重要，可以跳過 ]】

使用所有可用的統計，包括線段樹（frequent-value）和分位數統計（quantile statistics）。
使用所有查詢重寫規則（含物化查詢表路由，materialized query table routing），除了在極少情況下適用的計算密集型規則。
使用動態程式設計模擬聯接
有限使用組合內關係（composite inner relation）
對於涉及查詢表的星型模式，有限使用笛卡爾乘積
考慮寬泛的訪問方式，含列表預取（list prefetch，注：我們將討論什麼是列表預取），index ANDing（注：一種對索引的特殊操作），和物化查詢表路由。

預設的，DB2 對聯接排列使用受啟發式限制的動態程式設計演算法。

其它情況 (GROUP BY, DISTINCT…) 由簡單規則處理。

查詢計劃快取

由於建立查詢計劃是耗時的，大多資料庫把計劃儲存在查詢計劃快取，來避免重複計算。這個話題比較大，因為資料庫需要知道什麼時候更新過時的計劃。辦法是設定一個上限，如果一個表的統計變化超過了上限，關於該表的查詢計劃就從快取中清除。

查詢執行器

在這個階段，我們有了一個優化的執行計劃，再編譯為可執行程式碼。然後，如果有足夠資源（記憶體，CPU），查詢執行器就會執行它。計劃中的操作符 (JOIN, SORT BY …) 可以順序或並行執行，這取決於執行器。為了獲得和寫入資料，查詢執行器與資料管理器互動，本文下一部分來討論資料管理器。

資料管理器

在這一步，查詢管理器執行了查詢，需要從表和索引獲取資料，於是向資料管理器提出請求。但是有 2 個問題：

關係型資料庫使用事務模型，所以，當其他人在同一時刻使用或修改資料時，你無法得到這部分資料。
資料提取是資料庫中速度最慢的操作，所以資料管理器需要足夠聰明地獲得資料並儲存在記憶體緩衝區內。

在這一部分，我沒看看關係型資料庫是如何處理這兩個問題的。我不會講資料管理器是怎麼獲得資料的，因為這不是最重要的（而且本文已經夠長的了！）。

快取管理器

我已經說過，資料庫的主要瓶頸是磁碟 I/O。為了提高效能，現代資料庫使用快取管理器。

查詢執行器不會直接從檔案系統拿資料，而是向快取管理器要。快取管理器有一個記憶體快取區，叫做緩衝池，從記憶體讀取資料顯著地提升資料庫效能。對此很難給出一個數量級，因為這取決於你需要的是哪種操作：

順序訪問（比如：全掃描） vs 隨機訪問（比如：按照row id訪問）
讀還是寫

以及資料庫使用的磁碟型別：

7.2k/10k/15k rpm的硬碟
SSD
RAID 1/5/…

要我說，記憶體比磁碟要快100到10萬倍。

然而，這導致了另一個問題（資料庫總是這樣…)，快取管理器需要在查詢執行器使用資料之前得到資料，否則查詢管理器不得不等待資料從緩慢的磁碟中讀出來。

預讀

這個問題叫預讀。查詢執行器知道它將需要什麼資料，因為它瞭解整個查詢流，而且通過統計也瞭解磁碟上的資料。道理是這樣的：

當查詢執行器處理它的第一批資料時
會告訴快取管理器預先裝載第二批資料
當開始處理第二批資料時
告訴快取管理器預先裝載第三批資料，並且告訴快取管理器第一批可以從快取裡清掉了。
……

快取管理器在緩衝池裡儲存所有的這些資料。為了確定一條資料是否有用，快取管理器給快取的資料新增了額外的資訊（叫閂鎖）。

有時查詢執行器不知道它需要什麼資料，有的資料庫也不提供這個功能。相反，它們使用一種推測預讀法（比如：如果查詢執行器想要資料1、3、5，它不久後很可能會要 7、9、11），或者順序預讀法（這時候快取管理器只是讀取一批資料後簡單地從磁碟載入下一批連續資料）。

為了監控預讀的工作狀況，現代資料庫引入了一個度量叫緩衝/快取命中率，用來顯示請求的資料在快取中找到而不是從磁碟讀取的頻率。

注：糟糕的快取命中率不總是意味著快取工作狀態不佳。更多資訊請閱讀Oracle文件。

緩衝只是容量有限的記憶體空間，因此，為了載入新的資料，它需要移除一些資料。載入和清除快取需要一些磁碟和網路I/O的成本。如果你有個經常執行的查詢，那麼每次都把查詢結果載入然後清除，效率就太低了。現代資料庫用緩衝區置換策略來解決這個問題。

緩衝區置換策略

多數現代資料庫(至少 SQL Server, MySQL, oracle 和 DB2)使用 LRU 演算法。

LRU

LRU代表最近最少使用（Least Recently Used）演算法，背後的原理是：在快取裡保留的資料是最近使用的，所以更有可能再次使用。

圖解：

為了更好的理解，我假設緩衝區裡的資料沒有被閂鎖鎖住（就是說是可以被移除的）。在這個簡單的例子裡，緩衝區可以儲存 3 個元素：

1：快取管理器（簡稱CM）使用資料1，把它放入空的緩衝區
2：CM使用資料4，把它放入半載的緩衝區
3：CM使用資料3，把它放入半載的緩衝區
4：CM使用資料9，緩衝區滿了，所以資料1被清除，因為它是最後一個最近使用的，資料9加入到緩衝區
5：CM使用資料4，資料4已經在緩衝區了，所以它再次成為第一個最近使用的。
6：CM使用資料1，緩衝區滿了，所以資料9被清除，因為它是最後一個最近使用的，資料1加入到緩衝區
……

這個演算法效果很好，但是有些限制。如果對一個大表執行全表掃描怎麼辦？換句話說，當表/索引的大小超出緩衝區會發生什麼？使用這個演算法會清除之前快取內所有的資料，而且全掃描的資料很可能只使用一次。

改進

為了防止這個現象，有些資料庫增加了特殊的規則，比如Oracle文件中的描述：

『對非常大的表來說，資料庫通常使用直接路徑來讀取，即直接載入區塊[……]，來避免填滿緩衝區。對於中等大小的表，資料庫可以使用直接讀取或快取讀取。如果選擇快取讀取，資料庫把區塊置於LRU的尾部，防止清空當前緩衝區。』

還有一些可能，比如使用高階版本的LRU，叫做 LRU-K。例如，SQL Server 使用 LRU-2。

這個演算法的原理是把更多的歷史記錄考慮進來。簡單LRU（也就是 LRU-1），只考慮最後一次使用的資料。LRU-K呢：

考慮資料最後第K次使用的情況
資料使用的次數加進了權重
一批新資料載入進入快取，舊的但是經常使用的資料不會被清除（因為權重更高）
但是這個演算法不會保留快取中不再使用的資料
所以資料如果不再使用，權重值隨著時間推移而降低

計算權重是需要成本的，所以SQL Server只是使用 K=2，這個值效能不錯而且額外開銷可以接受。

關於LRU-K更深入的知識，可以閱讀早期的研究論文（1993）：資料庫磁碟緩衝的LRU-K頁面置換演算法

其他演算法

當然還有其他管理快取的演算法，比如：

2Q（類LRU-K演算法）
CLOCK（類LRU-K演算法）
MRU（最新使用的演算法，用LRU同樣的邏輯但不同的規則）
LRFU（Least Recently and Frequently Used，最近最少使用最近最不常用）
……

寫緩衝區

我只探討了讀快取 —— 在使用之前預先載入資料。用來儲存資料、成批刷入磁碟，而不是逐條寫入資料從而造成很多單次磁碟訪問。

要記住，緩衝區儲存的是頁（最小的資料單位）而不是行（邏輯上/人類習慣的觀察資料的方式）。緩衝池內的頁如果被修改了但還沒有寫入磁碟，就是髒頁。有很多演算法來決定寫入髒頁的最佳時機，但這個問題與事務的概念高度關聯，下面我們就談談事務。

事務管理器

最後但同樣重要的，是事務管理器，我們將看到這個程式是如何保證每個查詢在自己的事務內執行的。但開始之前，我們需要理解ACID事務的概念。

“I’m on acid”

一個ACID事務是一個工作單元，它要保證4個屬性：

原子性（Atomicity）: 事務『要麼全部完成，要麼全部取消』，即使它持續執行10個小時。如果事務崩潰，狀態回到事務之前（事務回滾）。
隔離性（Isolation）: 如果2個事務 A 和 B 同時執行，事務 A 和 B 最終的結果是相同的，不管 A 是結束於 B 之前/之後/執行期間。
永續性（Durability）: 一旦事務提交（也就是成功執行）,不管發生什麼（崩潰或者出錯），資料要儲存在資料庫中。
一致性（Consistency）: 只有合法的資料（依照關係約束和函式約束）能寫入資料庫，一致性與原子性和隔離性有關。

在同一個事務內，你可以執行多個SQL查詢來讀取、建立、更新和刪除資料。當兩個事務使用相同的資料，麻煩就來了。經典的例子是從賬戶A到賬戶B的匯款。假設有2個事務：

事務1（T1）從賬戶A取出100美元給賬戶B
事務2（T2）從賬戶A取出50美元給賬戶B

我們回來看看ACID屬性：

原子性確保不管 T1 期間發生什麼（伺服器崩潰、網路中斷…），你不能出現賬戶A 取走了100美元但沒有給賬戶B 的現象（這就是資料不一致狀態）。
隔離性確保如果 T1 和 T2 同時發生，最終A將減少150美元，B將得到150美元，而不是其他結果，比如因為 T2 部分抹除了 T1 的行為，A減少150美元而B只得到50美元（這也是不一致狀態）。
永續性確保如果 T1 剛剛提交，資料庫就發生崩潰，T1 不會消失得無影無蹤。
一致性確保錢不會在系統內生成或滅失。

[以下部分不重要，可以跳過]

現代資料庫不會使用純粹的隔離作為預設模式，因為它會帶來巨大的效能消耗。SQL一般定義4個隔離級別：

序列化(Serializable，SQLite預設模式）：最高階別的隔離。兩個同時發生的事務100%隔離，每個事務有自己的『世界』。
可重複讀（Repeatable read，MySQL預設模式）：每個事務有自己的『世界』，除了一種情況。如果一個事務成功執行並且新增了新資料，這些資料對其他正在執行的事務是可見的。但是如果事務成功修改了一條資料，修改結果對正在執行的事務不可見。所以，事務之間只是在新資料方面突破了隔離，對已存在的資料仍舊隔離。
舉個例子，如果事務A執行”SELECT count(1) from TABLE_X” ，然後事務B在 TABLE_X 加入一條新資料並提交，當事務A再執行一次 count(1)結果不會是一樣的。
這叫幻讀（phantom read）。
讀取已提交（Read committed，Oracle、PostgreSQL、SQL Server預設模式）：可重複讀+新的隔離突破。如果事務A讀取了資料D，然後資料D被事務B修改（或刪除）並提交，事務A再次讀取資料D時資料的變化（或刪除）是可見的。
這叫不可重複讀（non-repeatable read）。
讀取未提交（Read uncommitted）：最低階別的隔離，是讀取已提交+新的隔離突破。如果事務A讀取了資料D，然後資料D被事務B修改（但並未提交，事務B仍在執行中），事務A再次讀取資料D時，資料修改是可見的。如果事務B回滾，那麼事務A第二次讀取的資料D是無意義的，因為那是事務B所做的從未發生的修改（已經回滾了嘛）。
這叫髒讀（dirty read）。

多數資料庫新增了自定義的隔離級別（比如 PostgreSQL、Oracle、SQL Server的快照隔離），而且並沒有實現SQL規範裡的所有級別（尤其是讀取未提交級別）。

預設的隔離級別可以由使用者/開發者在建立連線時覆蓋（只需要增加很簡單的一行程式碼）。

併發控制

確保隔離性、一致性和原子性的真正問題是對相同資料的寫操作（增、更、刪）：

如果所有事務只是讀取資料，它們可以同時工作，不會更改另一個事務的行為。
如果（至少）有一個事務在修改其他事務讀取的資料，資料庫需要找個辦法對其它事務隱藏這種修改。而且，它還需要確保這個修改操作不會被另一個看不到這些資料修改的事務擦除。

這個問題叫併發控制。

最簡單的解決辦法是依次執行每個事務（即順序執行），但這樣就完全沒有伸縮性了，在一個多處理器/多核伺服器上只有一個核心在工作，效率很低。

理想的辦法是，每次一個事務建立或取消時：

監控所有事務的所有操作
檢查是否2個（或更多）事務的部分操作因為讀取/修改相同的資料而存在衝突
重新編排衝突事務中的操作來減少衝突的部分
按照一定的順序執行衝突的部分（同時非衝突事務仍然在併發執行）
考慮事務有可能被取消

用更正規的說法，這是對衝突的排程問題。更具體點兒說，這是個非常困難而且CPU開銷很大的優化問題。企業級資料庫無法承擔等待幾個小時，來尋找每個新事務活動最好的排程，因此就使用不那麼理想的方式以避免更多的時間浪費在解決衝突上。

鎖管理器

為了解決這個問題，多數資料庫使用鎖和/或資料版本控制。這是個很大的話題，我會集中探討鎖，和一點點資料版本控制。

悲觀鎖

原理是：

如果一個事務需要一條資料
它就把資料鎖住
如果另一個事務也需要這條資料
它就必須要等第一個事務釋放這條資料
這個鎖叫排他鎖。

但是對一個僅僅讀取資料的事務使用排他鎖非常昂貴，因為這會迫使其它只需要讀取相同資料的事務等待。因此就有了另一種鎖，共享鎖。

共享鎖是這樣的：

如果一個事務只需要讀取資料A
它會給資料A加上『共享鎖』並讀取
如果第二個事務也需要僅僅讀取資料A
它會給資料A加上『共享鎖』並讀取
如果第三個事務需要修改資料A
它會給資料A加上『排他鎖』，但是必須等待另外兩個事務釋放它們的共享鎖。

同樣的，如果一塊資料被加上排他鎖，一個只需要讀取該資料的事務必須等待排他鎖釋放才能給該資料加上共享鎖。

鎖管理器是新增和釋放鎖的程式，在內部用一個雜湊表儲存鎖資訊（關鍵字是被鎖的資料），並且瞭解每一塊資料是：

被哪個事務加的鎖
哪個事務在等待資料解鎖

死鎖

但是使用鎖會導致一種情況，2個事務永遠在等待一塊資料：

在本圖中：

事務A 給資料1 加上排他鎖並且等待獲取資料2
事務B 給資料2 加上排他鎖並且等待獲取資料1

這叫死鎖。

在死鎖發生時，鎖管理器要選擇取消（回滾）一個事務，以便消除死鎖。這可是個艱難的決定：

殺死資料修改量最少的事務（這樣能減少回滾的成本）？
殺死持續時間最短的事務，因為其它事務的使用者等的時間更長？
殺死能用更少時間結束的事務（避免可能的資源饑荒）？
一旦發生回滾，有多少事務會受到回滾的影響？

在作出選擇之前，鎖管理器需要檢查是否有死鎖存在。

雜湊表可以看作是個圖表（見上文圖），圖中出現迴圈就說明有死鎖。由於檢查迴圈是昂貴的（所有鎖組成的圖表是很龐大的），經常會通過簡單的途徑解決：使用超時設定。如果一個鎖在超時時間內沒有加上，那事務就進入死鎖狀態。

鎖管理器也可以在加鎖之前檢查該鎖會不會變成死鎖，但是想要完美的做到這一點還是很昂貴的。因此這些預檢經常設定一些基本規則。

兩段鎖

實現純粹的隔離最簡單的方法是：事務開始時獲取鎖，結束時釋放鎖。就是說，事務開始前必須等待確保自己能加上所有的鎖，當事務結束時釋放自己持有的鎖。這是行得通的，但是為了等待所有的鎖，大量的時間被浪費了。

更快的方法是兩段鎖協議（Two-Phase Locking Protocol，由 DB2 和 SQL Server使用），在這裡，事務分為兩個階段：

成長階段：事務可以獲得鎖，但不能釋放鎖。
收縮階段：事務可以釋放鎖（對於已經處理完而且不會再次處理的資料），但不能獲得新鎖。

這兩條簡單規則背後的原理是：

釋放不再使用的鎖，來降低其它事務的等待時間
防止發生這類情況：事務最初獲得的資料，在事務開始後被修改，當事務重新讀取該資料時發生不一致。

這個規則可以很好地工作，但有個例外：如果修改了一條資料、釋放了關聯的鎖後，事務被取消（回滾），而另一個事務讀到了修改後的值，但最後這個值卻被回滾。為了避免這個問題，所有獨佔鎖必須在事務結束時釋放。

多說幾句

當然了，真實的資料庫使用更復雜的系統，涉及到更多型別的鎖（比如意向鎖，intention locks）和更多的粒度（行級鎖、頁級鎖、分割槽鎖、表鎖、表空間鎖），但是道理是相同的。

我只探討純粹基於鎖的方法，資料版本控制是解決這個問題的另一個方法。

版本控制是這樣的：

每個事務可以在相同時刻修改相同的資料
每個事務有自己的資料拷貝（或者叫版本）
如果2個事務修改相同的資料，只接受一個修改，另一個將被拒絕，相關的事務回滾（或重新執行）

這將提高效能，因為：

讀事務不會阻塞寫事務
寫事務不會阻塞讀
沒有『臃腫緩慢』的鎖管理器帶來的額外開銷

除了兩個事務寫相同資料的時候，資料版本控制各個方面都比鎖表現得更好。只不過，你很快就會發現磁碟空間消耗巨大。

資料版本控制和鎖機制是兩種不同的見解：樂觀鎖和悲觀鎖。兩者各有利弊，完全取決於使用場景（讀多還是寫多）。關於資料版本控制，我推薦這篇非常優秀的文章，講的是PostgreSQL如何實現多版本併發控制的。

一些資料庫，比如DB2（直到版本 9.7）和 SQL Server（不含快照隔離）僅使用鎖機制。其他的像PostgreSQL, MySQL 和 Oracle 使用鎖和滑鼠版本控制混合機制。我不知道是否有僅用版本控制的資料庫（如果你知道請告訴我）。

[2015-08-20更新]一名讀者告訴我：

Firebird 和 Interbase 用不帶鎖的版本控制。

版本控制對索引的影響挺有趣的：有時唯一索引會出現重複，索引的條目會多於錶行數，等等。

如果你讀過不同級別的隔離那部分內容，你會知道，提高隔離級別就會增加鎖的數量和事務等待加鎖的時間。這就是為什麼多數資料庫預設不會使用最高階別的隔離（即序列化）。

當然，你總是可以自己去主流資料庫（像MySQL, PostgreSQL 或 Oracle）的文件裡查一下。

日誌管理器

我們已經知道，為了提升效能，資料庫把資料儲存在記憶體緩衝區內。但如果當事務提交時伺服器崩潰，崩潰時還在記憶體裡的資料會丟失，這破壞了事務的永續性。

你可以把所有資料都寫在磁碟上，但是如果伺服器崩潰，最終資料可能只有部分寫入磁碟，這破壞了事務的原子性。

事務作出的任何修改必須是或者撤銷，或者完成。

有 2 個辦法解決這個問題：

影子副本/頁（Shadow copies/pages）：每個事務建立自己的資料庫副本（或部分資料庫的副本），並基於這個副本來工作。一旦出錯，這個副本就被移除；一旦成功，資料庫立即使用檔案系統的一個把戲，把副本替換到資料中，然後刪掉『舊』資料。
事務日誌（Transaction log）：事務日誌是一個儲存空間，在每次寫盤之前，資料庫在事務日誌中寫入一些資訊，這樣當事務崩潰或回滾，資料庫知道如何移除或完成尚未完成的事務。

WAL（預寫式日誌）

影子副本/頁在執行較多事務的大型資料庫時製造了大量磁碟開銷，所以現代資料庫使用事務日誌。事務日誌必須儲存在穩定的儲存上，我不會深挖儲存技術，但至少RAID磁碟是必須的，以防磁碟故障。

多數資料庫（至少是Oracle, SQL Server, DB2, PostgreSQL, MySQL 和 SQLite) 使用預寫日誌協議（Write-Ahead Logging protocol ，WAL）來處理事務日誌。WAL協議有 3 個規則：

1) 每個對資料庫的修改都產生一條日誌記錄，在資料寫入磁碟之前日誌記錄必須寫入事務日誌。
2) 日誌記錄必須按順序寫入；記錄 A 發生在記錄 B 之前，則 A 必須寫在 B 之前。
3) 當一個事務提交時，在事務成功之前，提交順序必須寫入到事務日誌。

這個工作由日誌管理器完成。簡單的理解就是，日誌管理器處於快取管理器（cache manager）和資料訪問管理器（data access manager，負責把資料寫入磁碟）之間，每個 update / delete / create / commit / rollback 操作在寫入磁碟之前先寫入事務日誌。簡單，對吧？

回答錯誤！我們研究了這麼多內容，現在你應該知道與資料庫相關的每一件事都帶著『資料庫效應』的詛咒。好吧，我們說正經的，問題在於，如何找到寫日誌的同時保持良好的效能的方法。如果事務日誌寫得太慢，整體都會慢下來。

ARIES

1992年，IBM 研究人員『發明』了WAL的增強版，叫 ARIES。ARIES 或多或少地在現代資料庫中使用，邏輯未必相同，但AIRES背後的概念無處不在。我給發明加了引號是因為，按照MIT這門課的說法，IBM 的研究人員『僅僅是寫了事務恢復的最佳實踐方法』。AIRES 論文發表的時候我才 5 歲，我不關心那些酸溜溜的科研人員老掉牙的閒言碎語。事實上，我提及這個典故，是在開始探討最後一個技術點前讓你輕鬆一下。我閱讀過這篇 ARIES 論文的大量篇幅，發現它很有趣。在這一部分我只是簡要的談一下 ARIES，不過我強烈建議，如果你想了解真正的知識，就去讀那篇論文。

ARIES 代表『資料庫恢復原型演算法』（Algorithms for Recovery and Isolation Exploiting Semantics）。

這個技術要達到一個雙重目標：

1) 寫日誌的同時保持良好效能
2) 快速和可靠的資料恢復

有多個原因讓資料庫不得不回滾事務：

因為使用者取消
因為伺服器或網路故障
因為事務破壞了資料庫完整性（比如一個列有唯一性約束而事務新增了重複值）
因為死鎖

有時候（比如網路出現故障），資料庫可以恢復事務。

這怎麼可能呢？為了回答這個問題，我們需要了解日誌裡儲存的資訊。

日誌

事務的每一個操作（增/刪/改）產生一條日誌，由如下內容組成：

LSN：一個唯一的日誌序列號（Log Sequence Number）。LSN是按時間順序分配的 * ，這意味著如果操作 A 先於操作 B，log A 的 LSN 要比 log B 的 LSN 小。
TransID：產生操作的事務ID。
PageID：被修改的資料在磁碟上的位置。磁碟資料的最小單位是頁，所以資料的位置就是它所處頁的位置。
PrevLSN：同一個事務產生的上一條日誌記錄的連結。
UNDO：取消本次操作的方法。
比如，如果操作是一次更新，UNDO將或者儲存元素更新前的值/狀態（物理UNDO），或者回到原來狀態的反向操作（邏輯UNDO） **。
REDO：重複本次操作的方法。同樣的，有 2 種方法：或者儲存操作後的元素值/狀態，或者儲存操作本身以便重複。
…：（供您參考，一個 ARIES 日誌還有 2 個欄位：UndoNxtLSN 和 Type）。

進一步說，磁碟上每個頁（儲存資料的，不是儲存日誌的）都記錄著最後一個修改該資料操作的LSN。

*LSN的分配其實更復雜，因為它關係到日誌儲存的方式。但道理是相同的。

** ARIES 只使用邏輯UNDO，因為處理物理UNDO太過混亂了。

注：據我所知，只有 PostgreSQL 沒有使用UNDO，而是用一個垃圾回收服務來刪除舊版本的資料。這個跟 PostgreSQL 對資料版本控制的實現有關。

為了更好的說明這一點，這有一個簡單的日誌記錄演示圖，是由查詢 “UPDATE FROM PERSON SET AGE = 18;” 產生的，我們假設這個查詢是事務18執行的。【譯者注： SQL 語句原文如此，應該是作者筆誤】

每條日誌都有一個唯一的LSN，連結在一起的日誌屬於同一個事務。日誌按照時間順序連結（連結列表的最後一條日誌是最後一個操作產生的）。

日誌緩衝區

為了防止寫日誌成為主要的瓶頸，資料庫使用了日誌緩衝區。

當查詢執行器要求做一次修改：

1) 快取管理器將修改存入自己的緩衝區；
2) 日誌管理器將相關的日誌存入自己的緩衝區；
3) 到了這一步，查詢執行器認為操作完成了（因此可以請求做另一次修改）；
4) 接著（不久以後）日誌管理器把日誌寫入事務日誌，什麼時候寫日誌由某演算法來決定。
5) 接著（不久以後）快取管理器把修改寫入磁碟，什麼時候寫盤由某演算法來決定。

當事務提交，意味著事務每一個操作的 1 2 3 4 5 步驟都完成了。寫事務日誌是很快的，因為它只是『在事務日誌某處增加一條日誌』；而資料寫盤就更復雜了，因為要用『能夠快速讀取的方式寫入資料』。

STEAL 和 FORCE 策略

出於效能方面的原因，第 5 步有可能在提交之後完成，因為一旦發生崩潰，還有可能用REDO日誌恢復事務。這叫做 NO-FORCE策略。

資料庫可以選擇FORCE策略（比如第 5 步在提交之前必須完成）來降低恢復時的負載。

另一個問題是，要選擇資料是一步步的寫入（STEAL策略），還是緩衝管理器需要等待提交命令來一次性全部寫入（NO-STEAL策略）。選擇STEAL還是NO-STEAL取決於你想要什麼：快速寫入但是從 UNDO 日誌恢復緩慢，還是快速恢復。

總結一下這些策略對恢復的影響：

STEAL/NO-FORCE 需要 UNDO 和 REDO: 效能高，但是日誌和恢復過程更復雜 (比如 ARIES)。多數資料庫選擇這個策略。注：這是我從多個學術論文和教程裡看到的，但並沒有看到官方文件裡顯式說明這一點。
STEAL/ FORCE 只需要 UNDO.
NO-STEAL/NO-FORCE 只需要 REDO.
NO-STEAL/FORCE 什麼也不需要: 效能最差，而且需要巨大的記憶體。

關於恢復

Ok，有了不錯的日誌，我們來用用它們！

假設新來的實習生讓資料庫崩潰了（首要規矩：永遠是實習生的錯。），你重啟了資料庫，恢復過程開始了。

ARIES從崩潰中恢復有三個階段：

1) 分析階段：恢復程式讀取全部事務日誌，來重建崩潰過程中所發生事情的時間線，決定哪個事務要回滾（所有未提交的事務都要回滾）、崩潰時哪些資料需要寫盤。
2) Redo階段：這一關從分析中選中的一條日誌記錄開始，使用 REDO 來將資料庫恢復到崩潰之前的狀態。

在REDO階段，REDO日誌按照時間順序處理（使用LSN）。

對每一條日誌，恢復程式需要讀取包含資料的磁碟頁LSN。

如果LSN（磁碟頁）>= LSN（日誌記錄），說明資料已經在崩潰前寫到磁碟（但是值已經被日誌之後、崩潰之前的某個操作覆蓋），所以不需要做什麼。

如果LSN（磁碟頁）< LSN（日誌記錄），那麼磁碟上的頁將被更新。

即使將被回滾的事務，REDO也是要做的，因為這樣簡化了恢復過程（但是我相信現代資料庫不會這麼做的）。

3) Undo階段：這一階段回滾所有崩潰時未完成的事務。回滾從每個事務的最後一條日誌開始，並且按照時間倒序處理UNDO日誌（使用日誌記錄的PrevLSN）。

恢復過程中，事務日誌必須留意恢復過程的操作，以便寫入磁碟的資料與事務日誌相一致。一個解決辦法是移除被取消的事務產生的日誌記錄，但是這個太困難了。相反，ARIES在事務日誌中記錄補償日誌，來邏輯上刪除被取消的事務的日誌記錄。

當事務被『手工』取消，或者被鎖管理器取消（為了消除死鎖），或僅僅因為網路故障而取消，那麼分析階段就不需要了。對於哪些需要 REDO 哪些需要 UNDO 的資訊在 2 個記憶體表中：

事務表（儲存當前所有事務的狀態）
髒頁表（儲存哪些資料需要寫入磁碟）

當新的事務產生時，這兩個表由快取管理器和事務管理器更新。因為是在記憶體中，當資料庫崩潰時它們也被破壞掉了。

分析階段的任務就是在崩潰之後，用事務日誌中的資訊重建上述的兩個表。為了加快分析階段，ARIES提出了一個概念：檢查點（check point），就是不時地把事務表和髒頁表的內容，還有此時最後一條LSN寫入磁碟。那麼在分析階段當中，只需要分析這個LSN之後的日誌即可。

結語

寫這篇文章之前，我知道這個題目有多大，也知道寫這樣一篇深入的文章會相當耗時。最後證明我過於樂觀了，實際上花了兩倍於預期的時間，但是我學到了很多。

如果你想很好地瞭解資料庫，我推薦這篇研究論文：《資料庫系統架構》，對資料庫有很好的介紹（共110頁），而且非計算機專業人士也能讀懂。這篇論文出色的幫助我制定了本文的寫作計劃，它沒有像本文那樣專注於資料結構和演算法，更多的講了架構方面的概念。

如果你仔細閱讀了本文，你現在應該瞭解一個資料庫是多麼的強大了。鑑於文章很長，讓我來提醒你我們都學到了什麼：

B+樹索引概述
資料庫的全域性概述
基於成本的優化概述，特別專注了聯接運算
緩衝池管理概述
事務管理概述

但是，資料庫包含了更多的聰明巧技。比如，我並沒有談到下面這些棘手的問題：

如何管理資料庫叢集和全域性事務
如何在資料庫執行的時候產生快照
如何高效地儲存（和壓縮）資料
如何管理記憶體

所以，當你不得不在問題多多的 NoSQL資料庫和堅如磐石的關係型資料庫之間抉擇的時候，要三思而行。不要誤會，某些 NoSQL資料庫是很棒的，但是它們畢竟還年輕，只是解決了少量應用關注的一些特定問題。

如果有人問你爬蟲抓取技術的門道，請叫他來看這篇文章
2017-12-05
爬蟲
別人再問你設計模式，叫他看這篇文章
2018-09-14
設計模式
如果有人讓你推薦程式設計技術書，請叫他看這個列表
2016-10-30
程式設計
如果再有人問你分散式 ID，這篇文章丟給他
2018-09-30
分散式
如果有人再問你 Java 的反射，把這篇文章扔給他
2019-11-08
Java反射
如果你還不瞭解機器學習的簡史，請看這篇文章
2017-12-06
機器學習
再有人問你分散式鎖，這篇文章扔給他
2018-10-09
分散式
如果有人再問你怎麼實現分散式延時訊息，這篇文章丟給他
2022-12-05
分散式
再有人問你synchronized是什麼，就把這篇文章發給他。
2018-08-09
synchronized
再有人問你synchronized是什麼，就把這篇文章發給他
2018-08-10
synchronized
如果你在找 CSS 學習資源，那就收藏這篇文章
2014-11-07
CSS
如果有人讓你推薦前端技術書，請讓他看這個列表
2016-07-06
前端
如果有人讓你推薦Python技術書，請讓他看這個列表
2016-07-08
Python
想了解資料庫安全？看這一篇文章就夠了！
2019-03-05
資料庫
MySQL 資料庫鎖定機制？這篇文章為你分析清楚~
2019-04-26
MySql資料庫
什麼是雲資料庫？這篇文章詳細告訴你！
2021-04-22
資料庫
再有人問你Java記憶體模型是什麼，就把這篇文章發給他。
2019-03-04
Java記憶體模型
再有人問你Java記憶體模型是什麼，就把這篇文章發給他
2019-04-10
Java記憶體模型
iOS 如果你使用過block，最好看一下這篇文章
2017-12-20
iOSBloC
以後再有人說程式設計師懶，請把這篇文章給他看！
2018-05-02
程式設計師
如果有人給你撕逼Java記憶體模型，就把這些問題甩給他
2020-02-18
Java記憶體模型
如果這10道關於資料庫的測試題你都會，面試必過！
2019-01-30
資料庫面試
關於MySQL資料庫效能優化方法，看這一篇文章就夠了！
2022-05-25
MySql資料庫優化
MySQL，你只需看這一篇文章就夠了！
2024-11-03
MySql
面試官問：如果讓你寫一個配置中心，說說你的設計思路？不要慌，看這個！
2020-12-12
面試
一篇文章解決你大部分資料庫所遇到的問題
2019-04-10
資料庫
你知道資料庫索引的工作原理嗎？
2012-02-04
資料庫索引
如果你的公司還沒有企業級班車應用，把這篇文章轉給你老闆
2018-12-06
如果不會這兩招，千萬不要說你懂大資料
2020-10-13
大資料
對於怎麼理解js中Event Loop，你可以看這篇文章
2017-06-17
JSOOP
HttpServletRequest，看這篇文章就夠了
2018-09-04
HTTPServlet
資料庫系統原理-問題集合
2024-09-09
資料庫
再有人問你分散式事務，把這篇扔給他
2018-07-26
分散式
還有人不懂分散式鎖的實現就把這篇文章丟給他
2018-10-15
分散式
如果有同學真的想入門或者入行 AI 領域，請看這篇文章（開直播科普了）
2024-07-09
AI
如果你朋友不知道什麼是雲端計算，請把這篇文章轉給TA
2019-10-30
Sinon 入門,看這篇文章就夠了
2019-02-16
Docker視覺化監控?看這篇文章
2018-07-06
Docker視覺化

如果有人問你資料庫的原理，叫他看這篇文章

回到基礎

O(1) vs O(n^2)

概念

例子

繼續深入

合併排序

合併

拆分階段

排序階段

合併排序的強大之處

陣列，樹和雜湊表

陣列

樹和資料庫索引

概念

回到我們的問題

B+樹索引

雜湊表

一個簡單的例子

一個好的雜湊函式

陣列 vs 雜湊表

全域性概覽

客戶端管理器

查詢管理器

查詢解析器

查詢重寫器

統計

查詢優化器

索引

存取路徑

在應用聯接運算子（join operators）之前，你首先需要獲得資料。以下就是獲得資料的方法。

全掃描

範圍掃描

唯一掃描

根據 ROW ID 存取

其它路徑

聯接運算子

巢狀迴圈聯接

雜湊聯接

合併聯接

排序

合併聯接

哪個演算法最好？

簡化的例子

動態程式設計

貪婪演算法

其他演算法

真實的優化器

查詢計劃快取

查詢執行器

資料管理器

快取管理器

預讀

緩衝區置換策略

LRU

改進

寫緩衝區

事務管理器

“I’m on acid”

併發控制

鎖管理器

悲觀鎖

死鎖

WAL（預寫式日誌）

日誌

日誌緩衝區

STEAL 和 FORCE 策略

關於恢復

結語

相關文章