innodb是如何存資料的？yyds

蘇三說技術發表於2021-08-23

原文網址 : https://www.cnblogs.com/12lisu/p/15177968.html

前言

如果你使用過mysql資料庫，對它的儲存引擎：innodb，一定不會感到陌生。

眾所周知，在mysql8以前，預設的儲存引擎是：myslam。但mysql8之後，預設的儲存引擎已經變成了：innodb，它是我們建表的首選儲存引擎。

那麼，問題來了：

innodb的底層是如何儲存資料的？
表中有哪些隱藏列？
使用者記錄之間是如何關聯起來的？

如果你想知道上面三個問題的答案，那麼，請繼續往下面看。

本文主要包含如下內容：

1.磁碟or記憶體？

1.1 磁碟

資料對系統來說是非常重要的東西，比如：使用者的身份證、手機號、銀行號、會員過期時間、積分等等。一旦丟失，會對使用者造成很大的影響。

那麼問題來了，如何才能保證這些重要的資料不丟呢？

答案：把資料存在磁碟上。

當然有人會說，如果磁碟壞了怎麼辦？

那就需要備份，或者做主從了。。。

好了，打住，這不是今天的重點。

言歸正傳。

大家都知道，從磁碟上讀寫資料，至少需要兩次IO請求才能完成。一次是讀IO，另一次是寫IO。

而IO請求是比較耗時的操作，如果頻繁的進行IO請求勢必會影響資料庫的效能。

那麼，如何才能解決資料庫的效能問題呢？

1.2 記憶體

把資料存在暫存器？

沒錯，作業系統從暫存器中讀取資料是最快的，因為它離CPU最近。

但是暫存器有個非常致命的問題是：它只能儲存非常少量的資料，設計它的目的主要是用來暫存指令和地址，並非儲存大量使用者資料的。

這樣看來，只能把資料存在記憶體中了。

因為記憶體同樣能滿足我們，快速讀取和寫入資料的需求，而且效能是非常可觀的，只是比較暫存器稍稍慢了一丟丟而已。

不過有個讓人討厭的地方是，記憶體相對於磁碟來說，是更加昂貴的資源。通常情況下，500G或者1T的磁碟，是很常見的。但你有聽說過有500G的記憶體嗎？別人會以為你瘋了。記憶體大小討論的數量級一般是16G或32G。

記憶體可以儲存一些使用者資料，但無法儲存所有的使用者資料，因為如果資料量太大了，它可能還是存不下。

此外，即使使用者資料能剛好存在記憶體，以後萬一有一天，資料庫伺服器或者部署節點掛了，或者重啟了，資料不就丟了？

怎麼做，才能不會因為異常情況，而丟資料。同時，又能保證資料的讀寫速度呢？

2.資料頁

我們可以把一批資料放在一起。

寫操作時，先將資料寫到記憶體的某個批次中，然後再將該批次的資料一次性刷到磁碟上。如下圖所示：

讀操作時，從磁碟上一次讀一批資料，然後載入到記憶體當中，以後就在記憶體中操作。如下圖所示：

將記憶體中的資料刷到磁碟，或者將磁碟中的資料載入到記憶體，都是以批次為單位，這個批次就是我們常說的：資料頁。

當然innodb中存在多種不同型別的頁，資料頁只是其中一種，我們在這裡重點介紹一下資料頁。

那麼問題來了，什麼是資料頁？

資料頁主要是用來儲存表中記錄的，它在磁碟中是用雙向連結串列相連的，方便查詢，能夠非常快速得從一個資料頁，定位到另一個資料頁。

很多時候，由於我們表中的資料比較多，在磁碟中可能存放在多個資料頁當中。

有一天，我們要根據某個條件查詢資料時，需要從一個資料頁找到另一個資料頁，這時候的雙向連結串列就派上大用場了。磁碟中各資料頁的整體結構如下圖所示：

通常情況下，單個資料頁預設的大小是16kb。當然，我們也可以通過引數：innodb_page_size，來重新設定大小。不過，一般情況下，用它的預設值就夠了。

好吧，資料頁的整體結構已經搞明白了。

那麼，單個資料頁包含哪些內容呢？

從上圖中可以看出，資料頁主要包含如下幾個部分：

檔案頭部
頁頭部
最大和最小記錄
使用者記錄
空閒空間
頁目錄
檔案尾部

3.使用者記錄

對於新申請的資料頁，使用者記錄是空的。當插入資料時，innodb會將一部分空閒空間分配給使用者記錄。

使用者記錄是innodb的重中之重，我們平時儲存到資料庫中的資料，就儲存在它裡面。那麼，它裡面又包含哪些內容呢？你不好奇嗎？

其實在innodb支援的資料行格式有四種：

compact行格式
redundant行格式
dynamic行格式
compressed行格式

我們以compact行格式為例：

一條使用者記錄主要包含三部分內容：

記錄額外資訊，它包含了變長欄位、null值列表和記錄頭資訊。
隱藏列，它包含了行id、事務id和回滾點。
真正的資料列，包含真正的使用者資料，可以有很多列。

下面讓我們一起了解一下這些內容。

3.1 額外資訊

額外資訊並非真正的使用者資料，它是為了輔助存資料用的。

3.1.1 變長欄位列表

有些資料如果直接存會有問題，比如：如果某個欄位是varchar或text型別，它的長度不固定，可以根據存入資料的長度不同，而隨之變化。

如果不在一個地方記錄資料真正的長度，innodb很可能不知道要分配多少空間。假如都按某個固定長度分配空間，但實際資料又沒佔多少空間，豈不是會浪費？

所以，需要在變長欄位中記錄某個變長欄位佔用的位元組數，方便按需分配空間。

3.1.2 null值列表

資料庫中有些欄位的值允許為null，如果把每個欄位的null值，都儲存到使用者記錄中，顯然有些浪費儲存空間。

有沒有辦法只簡單的標記一下，不儲存實際的null值呢？

答案：將為null的欄位儲存到null值列表。

在列表中用二進位制的值1，表示該欄位允許為null，用0表示不允許為null。它只佔用了1位，就能表示某個字元是否為null，確實可以節省很多儲存空間。

3.1.3 記錄頭資訊

記錄頭資訊用於描述一些特殊的屬性。

它主要包含：

deleted_flag：即刪除標記，用於標記該記錄是否被刪除了。
min_rec_flag：即最小目錄標記，它是非葉子節點中的最小目錄標記。
n_owned：即擁有的記錄數，記錄該組索引記錄的條數。
heap_no：即堆上的位置，它表示當前記錄在堆上的位置。
record_type：即記錄型別，其中：0表示普通記錄，1表示非葉子節點，2表示Infrimum記錄， 3表示Supremum記錄。
next_record：即下一條記錄的位置。

3.2 隱藏列

資料庫在儲存一條使用者記錄時，會自動建立一些隱藏列。如下圖所示：
目前innodb自動建立的隱藏列有三種：

db_row_id，即行id，它是一條記錄的唯一標識。
db_trx_id，即事務id，它是事務的唯一標識。
db_roll_ptr，即回滾點，它用於事務回滾。

如果表中有主鍵，則用主鍵做行id，無需額外建立。如果表中沒有主鍵，假如有不為null的unique唯一鍵，則用它做為行id，同樣無需額外建立。

如果表中既沒有主鍵，又沒有唯一鍵，則資料庫會自動建立行id。

也就是說在innodb中，隱藏列中事務id和回滾點是一定會被建立的，但行id要根據實際情況決定。

3.3 真正資料列

真正的資料列中儲存了使用者的真實資料，它可以包含很多列的資料。這個比較簡單，沒有什麼好多說的。

3.4 使用者記錄是如何相連的？

通過上面介紹的內容，大家對一條使用者記錄是如何儲存的，應該有了一定的認識。

但問題來了，一條使用者記錄和另一條使用者記錄是如何相連的，innodb是怎麼知道，某條記錄的下一條記錄是誰？

答案是：用前面提到過的，記錄額外資訊》記錄頭資訊》下一條記錄的位置。

多條使用者記錄之間通過下一條記錄的位置，組成了一個單向連結串列。這樣就能從前往後，找到所有的記錄了。

4.最大和最小記錄

從上面可以得知，在一個資料頁當中，如果存在多條使用者記錄，它們是通過下一條記錄的位置相連的。

不過有個問題：如果才能快速找到最大的記錄和最小的記錄呢？

這就需要在儲存使用者記錄的同時，也儲存最大和最小記錄了。

最大記錄儲存到Supremum記錄中。

最小記錄儲存在Infimum記錄中。

在儲存使用者記錄時，資料庫會自動建立兩條額外的記錄：Supremum 和 Infimum。它們之間的關係，如下圖所示：

從圖中可以看出使用者資料是從最小記錄開始，通過下一條記錄的位置，從小到大，一步步查詢，最後找到最大記錄為止。

5.頁目錄

從上面可以看出，如果我們要查詢某條記錄的話，資料庫會從最小記錄開始，一條條查詢所有記錄。如果中途找到了，則直接返回該記錄。如果一直找到最大記錄，還沒有找到想要的記錄，則返回空。

咋一看，沒有問題。

但如果仔細想想。

效率會不會有點低？

這不是要對整頁使用者資料進行掃描嗎？

有沒有更高效的方法？

這就需要使用頁目錄了。

說白了，就是把一頁使用者記錄分為若干組，每一組的最大記錄都儲存到一個地方，這個地方就是頁目錄。每一組的最大記錄叫做槽。

由此可見，頁目錄是有多個槽組成的。所下圖所示：

假設一頁的資料分為4組，這樣在頁目錄中，就對應了4個槽，每個槽中都儲存了該組資料的最大值。

這樣就能通過二分查詢，比較槽中的記錄跟需要找到的記錄的大小。如果使用者需要查詢的記錄，小於當前槽中的記錄，則向上查詢上一個槽。如果使用者需要查詢的記錄，大於當前槽中的記錄，則向下查詢下一個槽。

如此一來，就能通過二分查詢，快速的定位需要查詢的記錄了。

so easy

6.檔案頭部和尾部

6.1 檔案頭部

通過前面介紹的行記錄中下一條記錄的位置和頁目錄，innodb能非常快速的定位某一條記錄。但有個前提條件，就是使用者記錄必須在同一個資料頁當中。

如果使用者記錄非常多，在第一個資料頁找不到我們想要的資料，需要到另外一頁找該怎麼辦呢？

這時就需要使用檔案頭部了。

它裡面包含了多個資訊，但我只列出了其中4個最關鍵的資訊：

頁號
上一頁頁號
下一頁頁號
頁型別

顧名思義，innodb是通過頁號、上一頁頁號和下一頁頁號來串聯不同資料頁的。如下圖所示：

不同的資料頁之間，通過上一頁頁號和下一頁頁號構成了雙向連結串列。這樣就能從前向後，一頁頁查詢所有的資料了。

此外，頁型別也是一個非常重要的欄位，它包含了多種型別，其中比較出名的有：資料頁、索引頁（目錄項頁）、溢位頁、undo日誌頁等。

6.2 檔案尾部

我之前提過，資料庫的資料是以資料頁為單位，載入到記憶體中，如果資料有更新的話，需要重新整理到磁碟上。

但如果某一天比較倒黴，程式在重新整理到磁碟的過程中，出現了異常，比如：程式被kill掉了，或者伺服器被重啟了。

這時候資料可能只重新整理了一部分，如何判斷上次刷盤的資料是完整的呢？

這就需要用到檔案尾部。

它裡面記錄了頁面的校驗和。

在資料重新整理到磁碟之前，會先計算一個頁面的校驗和。後面如果資料有更新的話，會計算一個新值。檔案頭部中也會記錄這個校驗和，由於檔案頭部在前面，會先被重新整理到磁碟上。

接下來，重新整理使用者記錄到磁碟的時候，假設重新整理了一部分，恰好程式出現異常了。這時，檔案尾部的校驗和，還是一箇舊值。資料庫會去校驗，檔案尾部的校驗和，不等於檔案頭部的新值，說明該資料頁的資料是不完整的。

7.頁頭部

通過上面介紹的內容，資料頁之間能夠輕鬆訪問了，但剩下還有個比較重要的問題，就是記錄的狀態資訊。

比如一頁資料到底儲存了多條記錄，或者頁目錄到底使用了多個槽等。這些資訊是實時統計，還是事先統計好了，儲存到某個地方？

為了效能考慮，上面的這些統計資料，當然是先統計好，儲存到一個地方。後面需要用到該資料時，再讀取出來會更好。這個儲存統計資料的地方，就是頁頭部。

當然頁頭部不僅僅只儲存：槽的數量、記錄條數等資訊。

它還記錄了：

已刪除記錄所佔的位元組數
最後插入記錄的位置
最大事務id
索引id
索引層級

其實還有很多，在這裡就不一一列舉了，有興趣的朋友可以找我私聊。

總結

多個資料頁之間通過頁號構成了雙向連結串列。而每一個資料頁的行資料之間，又通過下一條記錄的位置構成了單項鍊表。整體架構圖如下：

好了，本文內容先到這裡。如果小夥伴們有任何疑問的話，歡迎找我私聊。

順便預告一下，在innodb的儲存結構中，還有一個非常重要的內容沒講，它就是：索引。敬請期待，我們下期見。

最後說一句(求關注，別白嫖我)

如果這篇文章對您有所幫助，或者有所啟發的話，幫忙掃描下發二維碼關注一下，您的支援是我堅持寫作最大的動力。

求一鍵三連：點贊、轉發、在看。

關注公眾號：【蘇三說技術】，在公眾號中回覆：面試、程式碼神器、開發手冊、時間管理有超讚的粉絲福利，另外回覆：加群，可以跟很多BAT大廠的前輩交流和學習。

關於InnoDB表資料和索引資料的儲存
2022-07-18
索引
MySQL-07.InnoDB資料儲存結構
2024-04-27
MySql
從一條資料說起——InnoDB儲存資料結構
2020-05-07
資料結構
mysql儲存引擎InnoDB詳解，從底層看清InnoDB資料結構
2020-08-06
MySql儲存引擎資料結構
《MySQL 基礎篇》十二：InnoDB 儲存引擎的資料結構
2024-09-22
MySql儲存引擎資料結構
MySQL資料庫InnoDB儲存引擎中的鎖機制GV
2022-03-21
MySql資料庫儲存引擎
MyBatis Plus 批量資料插入功能，yyds！
2021-09-26
MyBatis
InnoDB 是如何解決幻讀的
2023-04-05
MySQL：如何快速的檢視Innodb資料檔案
2019-10-28
MySql
服務端指南資料儲存篇 | MySQL（02）儲存引擎的 InnoDB 與 MyISAM 之爭
2019-03-01
服務端MySql儲存引擎
原來大資料 Hadoop 是這樣儲存資料的
2021-01-04
大資料Hadoop
MySQL InnoDB儲存引擎
2024-05-25
MySql儲存引擎
InnoDB資料頁結構
2019-04-15
InnoDB儲存引擎簡介
2020-08-07
儲存引擎
如何在資料庫中儲存小數：FLOAT、DECIMAL還是BIGINT？
2024-03-13
資料庫Decimal
區塊鏈Yottachain到底是如何改變資料儲存模式？
2019-09-05
區塊鏈AI模式
面試題：InnoDB中一棵B+樹能存多少行資料？
2021-11-03
面試題
innodb儲存引擎鎖的實現(一)
2018-07-23
儲存引擎
MySQL:Innodb中數字的儲存方式
2020-07-28
MySql
Innodb 下null '' ' '的儲存表現的不同
2019-07-10
Null
什麼是YottaChain儲存，為什麼說是未來資料儲存的趨勢？
2019-08-15
AI
資料庫mysql儲存是什麼？可以存什麼?
2021-09-11
資料庫MySql
MySQL的varchar儲存原理：InnoDB記錄儲存結構
2023-05-15
MySql
MySQLInnoDB儲存引擎(一)：精談innodb的儲存結構
2021-01-05
MySql儲存引擎
億牛雲代理yyds資料化時代，我們即使要做個小小的資料分析
2021-12-15
【Mysql】InnoDB 引擎中的資料頁結構
2021-07-23
MySql
區塊鏈資訊儲存是如何實現安全儲存
2020-08-20
區塊鏈
使用Java8改造出來的模板方法真的是yyds
2021-12-14
Java
MySQL InnoDB儲存引擎更新Cardinality統計資訊的策略介紹
2018-06-19
MySql儲存引擎
MySQL InnoDB 儲存引擎探祕
2019-02-21
MySql儲存引擎
14.1 InnoDB 儲存引擎介紹
2020-10-28
儲存引擎
InnoDB記錄儲存結構
2019-03-13
MySQL InnoDB資料庫如何保證事務特性示例詳解
2019-10-14
MySql資料庫
MySQL儲存引擎：MyISAM和InnoDB的區別
2020-12-09
MySql儲存引擎
資料成本：雲端儲存成本高嗎如何節省資料儲存成本
2022-05-12
InnoDB的邏輯儲存結構是什麼，表空間組成包括哪些？
2022-05-02
如何延長儲存伺服器上資料的儲存時間？
2023-11-01
伺服器
InnoDB資料字典--字典表載入
2018-04-06