資料庫的最簡單實現

阮一峰發表於2014-07-04

資料庫

所有應用軟體之中，資料庫可能是最複雜的。

MySQL的手冊有3000多頁，PostgreSQL的手冊有2000多頁，Oracle的手冊更是比它們相加還要厚。

但是，自己寫一個最簡單的資料庫，做起來並不難。Reddit上面有一個帖子，只用了幾百個字，就把原理講清楚了。下面是我根據這個帖子整理的內容。

一、資料以文字形式儲存

第一步，就是將所要儲存的資料，寫入文字檔案。這個文字檔案就是你的資料庫。

為了方便讀取，資料必須分成記錄，每一條記錄的長度規定為等長。比如，假定每條記錄的長度是800位元組，那麼第5條記錄的開始位置就在3200位元組。

大多數時候，我們不知道某一條記錄在第幾個位置，只知道主鍵（primary key）的值。這時為了讀取資料，可以一條條比對記錄。但是這樣做效率太低，實際應用中，資料庫往往採用B樹（B-tree）格式儲存資料。

二、什麼是B樹？

要理解B樹，必須從二叉查詢樹（Binary search tree）講起。

二叉查詢樹

二叉查詢樹是一種查詢效率非常高的資料結構，它有三個特點。

（1）每個節點最多隻有兩個子樹。

（2）左子樹都為小於父節點的值，右子樹都為大於父節點的值。

（3）在n個節點中找到目標值，一般只需要log(n)次比較。

二叉查詢樹的結構不適合資料庫，因為它的查詢效率與層數相關。越處在下層的資料，就需要越多次比較。極端情況下，n個資料需要n次比較才能找到目標值。對於資料庫來說，每進入一層，就要從硬碟讀取一次資料，這非常致命，因為硬碟的讀取時間遠遠大於資料處理時間，資料庫讀取硬碟的次數越少越好。

B樹是對二叉查詢樹的改進。它的設計思想是，將相關資料儘量集中在一起，以便一次讀取多個資料，減少硬碟操作次數。

B-tree

B樹的特點也有三個。

（1）一個節點可以容納多個值。比如上圖中，最多的一個節點容納了4個值。

（2）除非資料已經填滿，否則不會增加新的層。也就是說，B樹追求"層"越少越好。

（3）子節點中的值，與父節點中的值，有嚴格的大小對應關係。一般來說，如果父節點有a個值，那麼就有a+1個子節點。比如上圖中，父節點有兩個值（7和16），就對應三個子節點，第一個子節點都是小於7的值，最後一個子節點都是大於16的值，中間的子節點就是7和16之間的值。

這種資料結構，非常有利於減少讀取硬碟的次數。假定一個節點可以容納100個值，那麼3層的B樹可以容納100萬個資料，如果換成二叉查詢樹，則需要20層！假定作業系統一次讀取一個節點，並且根節點保留在記憶體中，那麼B樹在100萬個資料中查詢目標值，只需要讀取兩次硬碟。

三、索引

資料庫以B樹格式儲存，只解決了按照"主鍵"查詢資料的問題。如果想查詢其他欄位，就需要建立索引（index）。

所謂索引，就是以某個欄位為關鍵字的B樹檔案。假定有一張"僱員表"，包含了員工號（主鍵）和姓名兩個欄位。可以對姓名建立索引檔案，該檔案以B樹格式對姓名進行儲存，每個姓名後面是其在資料庫中的位置（即第幾條記錄）。查詢姓名的時候，先從索引中找到對應第幾條記錄，然後再從表格中讀取。

這種索引查詢方法，叫做"索引順序存取方法"（Indexed Sequential Access Method），縮寫為ISAM。它已經有多種實現（比如C-ISAM庫和D-ISAM庫），只要使用這些程式碼庫，就能自己寫一個最簡單的資料庫。

四、高階功能

部署了最基本的資料存取（包括索引）以後，還可以實現一些高階功能。

（1）SQL語言是資料庫通用操作語言，所以需要一個SQL解析器，將SQL命令解析為對應的ISAM操作。

（2）資料庫連線（join）是指資料庫的兩張表透過"外來鍵"，建立連線關係。你需要對這種操作進行最佳化。

（3）資料庫事務（transaction）是指批次進行一系列資料庫操作，只要有一步不成功，整個操作都不成功。所以需要有一個"操作日誌"，以便失敗時對操作進行回滾。

（4）備份機制：儲存資料庫的副本。

（5）遠端操作：使得使用者可以在不同的機器上，透過TCP/IP協議運算元據庫。

（完）

自己實現一個最簡單的資料庫
2014-08-06
資料庫
最簡單的JAVA連線資料庫
2014-05-20
Java資料庫
SQL Server資料庫的簡單實現方法
2010-02-24
SQLServer資料庫
新手必看！最簡單的MySQL資料庫詳解
2021-09-02
MySql資料庫
PHP 實現簡單的資料採集併入庫
2019-12-15
PHP
基於json資料格式實現的簡單資料庫——jsonDB
2024-10-05
JSON資料庫
使用rails實現最簡單的CRUD
2019-03-04
AI
實現最簡單的模板替換
2018-08-10
Java實現最簡單的RPC框架
2017-11-14
JavaRPC框架
RUBY實踐—資料庫簡單操作
2010-04-29
資料庫
Redis中單機資料庫的實現
2018-09-11
Redis資料庫
SpringBoot基於資料庫實現簡單的分散式鎖
2019-07-19
Spring Boot資料庫分散式
Oracle 10g 手工建立一個最簡單的資料庫
2010-01-09
Oracle 10g資料庫
用最簡單的方法複製或遷移Oracle資料庫
2013-04-26
Oracle資料庫
這可能是實現高斯模糊（毛玻璃）最簡單的庫了
2018-03-28
帶你實現一個簡單的MYSQL資料庫生成實體類工具
2020-04-02
MySql資料庫
tensorflowrnn最簡單實現程式碼
2017-08-05
RNN
c#實現最簡單的socket通訊
2020-10-03
C#
最簡單的web伺服器實現(一）
2016-11-03
Web伺服器
最簡單的LRU演算法java實現
2013-11-26
演算法Java
UICollectionView(二)實現一個最簡單的UICollectionView
2016-03-08
UIView
如何最簡單的實現分散式快取
2009-12-16
分散式快取
從Object.defineProperty看vue響應式資料繫結最簡單的實現
2019-01-19
ObjectVue
修改SQL Server資料庫表的建立時間最簡單最直接有效的方法
2018-09-05
SQLServer資料庫
實現一個簡單的 dd 庫
2017-09-13
如何建立最簡單的 ABAP 資料庫表，以及編碼從資料庫表中讀取資料 (上)
2021-11-04
資料庫
基於 Hyperf+ SQL Server 實現的一個簡單資料庫 curd
2019-11-13
SQLServer資料庫
JavaScript實現簡單的雙向資料繫結
2018-04-23
JavaScript
PHP實現最簡單的聊天室應用
2015-07-03
PHP
Laravel 使用者認證最簡單的實現比 Jetstream 要簡單很多
2021-01-16
Laravel
如何快速簡單的實現 Excel資料按列提取
2020-05-13
Excel
前端資料渲染及mustache模板引擎的簡單實現
2021-04-30
前端
用最簡單的方法實現原生 JS 放大鏡特效
2019-12-15
JS特效
原生JS實現最簡單的圖片懶載入
2017-09-27
JS
原生 JS 實現最簡單的圖片懶載入
2017-08-22
JS
最簡單實現跨域的方法：用 Nginx 反向代理
2016-07-26
跨域Nginx
最簡單實現跨域的方法：使用nginx反向代理
2015-09-16
跨域Nginx
golang 簡單實現介面資料格式化
2019-12-24
Golang

資料庫的最簡單實現

一、資料以文字形式儲存

二、什麼是B樹？

三、索引

四、高階功能

相關文章