資料庫設計之思考

挑戰者V發表於2021-06-25

原文網址 : https://www.cnblogs.com/youcong/p/14932845.html

去年的時候寫了一篇文章叫Java程式設計師的兩項通用能力，這篇文章我提到對於Java程式設計師而言很重要的兩項通用能力(從程式設計的角度出發)，一是熟練掌握並深入理解Java程式語言，二是資料庫。關於深入理解Java程式語言，後續我會有一個專門的wiki來講這方面的東西，今天主要講資料庫設計方面的。我個人認為資料庫設計是”網際網路軟體三高架構體系(高併發、高可用、高效能)”的根基

一、為什麼說資料庫設計是”網際網路軟體三高架構體系”的根基？

以我這四年多做的SaaS應用為例，都離不開一個共性，即資料的儲存和處理，而資料的儲存就涉及到資料庫。而資料記錄會儲存在對應的表中，而表又是資料庫中的一個組成部分(表由表名、表的欄位、表的記錄等構成)。自下而上看，一個良好的資料庫設計，是由良好的資料表設計決定的，而一個良好的資料表設計，它能夠有效地達到”三降”目的:

(1)降低儲存成本；
(2)降低計算成本；
(2)降低維護成本。

而”三降”對於”網際網路三高架構體系”又顯得至關重要。所以我認為資料庫設計是”網際網路軟體三高架構體系”的根基，沒有這個根基，一切皆為空中樓閣。

二、資料庫設計需要考慮哪些方面？

1.業務層面

從業務層面出發，資料庫的設計必須圍繞業務層面進行思考，自頂而下。這裡的業務層面，主要是需求層面，弄清楚客戶的需求(與自己單幹做外包的原理一樣)，我在這篇文章提到過技術人對賺錢的思考與摸索
，其中一些文字，我用圖片表示:

我認為在做資料庫設計的思考，有以下這麼兩點，可以借鑑:

專案一定要調研很細，分清哪些能做，哪些不能做(不確定的不做，需求不明確的不做)；
調研需求前，列一個問題清單，面對面與客戶溝通時，把所有疑問拋給客戶(需求不明確或需求疑問得不到解答，直接慧導致很多無用功)。

2.架構層面

有人說，IT架構其實是計算、網路、儲存。其中資料庫就是儲存的主要代表。
資料庫架構也有四個原則(與網際網路三高體系有一定關係):

高可用；
高效能；
一致性；
擴充套件性。

從架構層面上看，常見的方案有如下:

主備架構(主庫提供讀寫服務，備庫冗餘做故障轉移)；
雙主架構(兩個主庫同時提供服務，負載均衡)；
主從架構(一主多從，讀寫分離)；
雙主+主從架構(具備雙主+主從的特點)。

但每種方案都需要考慮實際情況，能否落地是關鍵，不能落地的方案都是”空中樓閣”。這裡的實際情況指成本高低、與目前的業務是否匹配等。

3.規範層面

(1)阿里巴巴Java開發手冊終極版(1.3.0)

這裡我僅僅列舉三個，分別為建表規約、索引規約、SQL規約(這三個非常重要)。

a.建表規約

表達是與否概念的欄位，必須使用 is_xxx 的方式命名，資料型別是 unsigned tinyint（1 表示是，0 表示否）。

說明：任何欄位如果為非負數，必須是 unsigned。
注意：POJO 類中的任何布林型別的變數，都不要加 is 字首，所以，需要在設定從 is_xxx 到
Xxx 的對映關係。資料庫表示是與否的值，使用 tinyint 型別，堅持 is_xxx 的命名方式是為了明確其取值含義與取值範圍。

表名、欄位名必須使用小寫字母或數字，禁止出現數字開頭，禁止兩個下劃線中間只出現數字。資料庫欄位名的修改代價很大，因為無法進行預釋出，所以欄位名稱需要慎重考慮。

說明：MySQL 在 Windows 下不區分大小寫，但在 Linux 下預設是區分大小寫。因此，資料庫名、表名、
欄位名，都不允許出現任何大寫字母，避免節外生枝。

表名不使用複數名詞。

說明：表名應該僅僅表示表裡面的實體內容，不應該表示實體數量，對應於 DO 類名也是單數形式，符合表達習慣。

禁用保留字，如 desc、range、match、delayed 等，請參考 MySQL 官方保留字。

主鍵索引名為 pk_欄位名；唯一索引名為 uk_欄位名；普通索引名則為 idx_欄位名。

說明：pk_ 即 primary key；uk_ 即 unique key；idx_ 即 index 的簡稱。

小數型別為 decimal，禁止使用 float 和 double。

說明：在儲存的時候，float 和 double 都存在精度損失的問題，很可能在比較值的時候，得到不正確的
結果。如果儲存的資料範圍超過 decimal的範圍，建議將資料拆成整數和小數並分開儲存。

如果儲存的字串長度幾乎相等，使用 char 定長字串型別。

varchar是可變長字串，不預先分配儲存空間，長度不要超過 5000，如果儲存長度大於此值，定義欄位型別為 text，獨立出來一張表，用主鍵來對應，避免影響其它欄位索引效率。

表必備三欄位：id, create_time, update_time。

說明：其中 id 必為主鍵，型別為 bigint unsigned、單表時自增、步長為 1。create_time, update_time
的型別均為 datetime 型別，前者現在時表示主動式建立，後者過去分詞表示被動式更新。

表的命名最好是遵循“業務名稱_表的作用”。

庫名與應用名稱儘量一致。

如果修改欄位含義或對欄位表示的狀態追加時，需要及時更新欄位註釋。

欄位允許適當冗餘，以提高查詢效能，但必須考慮資料一致。冗餘欄位應遵循：

1）不是頻繁修改的欄位。
2）不是唯一索引的欄位。
3）不是 varchar 超長欄位，更不能是 text 欄位。

單錶行數超過 500 萬行或者單表容量超過 2GB，才推薦進行分庫分表。

說明：如果預計三年後的資料量根本達不到這個級別，請不要在建立表時就分庫分表。

合適的字元儲存長度，不但節約資料庫表空間、節約索引儲存，更重要的是提升檢索速度。

b.索引規約

業務上具有唯一特性的欄位，即使是組合欄位，也必須建成唯一索引。

說明：不要以為唯一索引影響了 insert 速度，這個速度損耗可以忽略，但提高查詢速度是明顯的；另外，
即使在應用層做了非常完善的校驗控制，只要沒有唯一索引，根據墨菲定律，必然有髒資料產生。

超過三個表禁止 join。需要 join 的欄位，資料型別保持絕對一致；多表關聯查詢時，保證被關聯的欄位需要有索引。

說明：即使雙表 join 也要注意表索引、SQL 效能。

在 varchar 欄位上建立索引時，必須指定索引長度，沒必要對全欄位建立索引，根據實際文字區分度決定索引長度。

說明：索引的長度與區分度是一對矛盾體，一般對字串型別資料，長度為 20 的索引，區分度會高達 90%以上，可以使用 count(distinct left(列名,索引長度))/count(*)的區分度來確定。

頁面搜尋嚴禁左模糊或者全模糊，如果需要請走搜尋引擎來解決。

說明：索引檔案具有 B-Tree 的最左字首匹配特性，如果左邊的值未確定，那麼無法使用此索引。

如果有 order by 的場景，請注意利用索引的有序性。order by 最後的欄位是組合索引的一部分，並且放在索引組合順序的最後，避免出現 file_sort 的情況，影響查詢效能。

利用覆蓋索引來進行查詢操作，避免回表。

說明：如果一本書需要知道第 11 章是什麼標題，會翻開第 11 章對應的那一頁嗎？目錄瀏覽一下就好，這
個目錄就是起到覆蓋索引的作用。

利用延遲關聯或者子查詢優化超多分頁場景。

說明：MySQL 並不是跳過 offset 行，而是取 offset+N 行，然後返回放棄前 offset 行，返回 N 行，那當
offset 特別大的時候，效率就非常的低下，要麼控制返回的總頁數，要麼對超過特定閾值的頁數進行 SQL
改寫。

SQL 效能優化的目標：至少要達到 range 級別，要求是 ref 級別，如果可以是 consts最好。

說明：

1） consts 單表中最多隻有一個匹配行（主鍵或者唯一索引），在優化階段即可讀取到資料。
2） ref 指的是使用普通的索引（normal index）。
3） range 對索引進行範圍檢索。

建組合索引的時候，區分度最高的在最左邊。

說明：存在非等號和等號混合判斷條件時，在建索引時，請把等號條件的列前置。如：where c>? and d=?
那麼即使 c 的區分度更高，也必須把 d 放在索引的最前列，即建立組合索引 idx_d_c。

防止因欄位型別不同造成的隱式轉換，導致索引失效。

建立索引時避免有如下極端誤解：

1）索引寧濫勿缺。認為一個查詢就需要建一個索引。
2）吝嗇索引的建立。認為索引會消耗空間、嚴重拖慢記錄的更新以及行的新增速度。
3）抵制惟一索引。認為惟一索引一律需要在應用層通過“先查後插”方式解決。

c.SQL語句

不要使用 count(列名)或 count(常量)來替代 count()，count()是 SQL92 定義的標準統計行數的語法，跟資料庫無關，跟 NULL 和非 NULL 無關。

說明：count(*)會統計值為 NULL 的行，而 count(列名)不會統計此列為 NULL 值的行。

count(distinct col) 計算該列除 NULL 之外的不重複行數，注意 count(distinct col1,col2) 如果其中一列全為 NULL，那麼即使另一列有不同的值，也返回為 0。

當某一列的值全是 NULL 時，count(col)的返回結果為 0，但 sum(col)的返回結果為NULL，因此使用 sum()時需注意 NPE 問題。

使用 ISNULL()來判斷是否為 NULL 值。

說明：NULL 與任何值的直接比較都為 NULL。
1） NULL<>NULL 的返回結果是 NULL，而不是 false。
2） NULL=NULL 的返回結果是 NULL，而不是 true。
3） NULL<>1 的返回結果是 NULL，而不是 true。

程式碼中寫分頁查詢邏輯時，若 count 為 0 應直接返回，避免執行後面的分頁語句。

不得使用外來鍵與級聯，一切外來鍵概念必須在應用層解決。

說明：（概念解釋）學生表中的 student_id 是主鍵，那麼成績表中的 student_id 則為外來鍵。如果更新學
生表中的 student_id，同時觸發成績表中的 student_id 更新，即為級聯更新。外來鍵與級聯更新適用於單機
低併發，不適合分散式、高併發叢集；級聯更新是強阻塞，存在資料庫更新風暴的風險；外來鍵影響資料庫
的插入速度。

禁止使用儲存過程，儲存過程難以除錯和擴充套件，更沒有移植性。

資料訂正（特別是刪除或修改記錄操作）時，要先 select，避免出現誤刪除，確認無誤才能執行更新語句。

對於資料庫中表記錄的查詢和變更，只要涉及多個表，都需要在列名前加表的別名（或表名）進行限定。

說明：對多表進行查詢記錄、更新記錄、刪除記錄時，如果對操作列沒有限定表的別名（或表名），並且操作列在多個表中存在時，就會拋異常。

SQL 語句中表的別名前加 as，並且以 t1、t2、t3、…的順序依次命名。

說明：

1）別名可以是表的簡稱，或者是依照表在 SQL 語句中出現的順序，以 t1、t2、t3 的方式命名。
2）別名前加 as 使別名更容易識別。

in 操作能避免則避免，若實在避免不了，需要仔細評估 in 後邊的集合元素數量，控制在 1000 個之內。

因國際化需要，所有的字元儲存與表示，均採用 utf8 字符集，那麼字元計數方法需要注意。

說明：
SELECT LENGTH(“輕鬆工作”)；返回為 12
SELECT CHARACTER_LENGTH(“輕鬆工作”)；返回為 4
如果需要儲存表情，那麼選擇 utf8mb4 來進行儲存，注意它與 utf8 編碼的區別。

TRUNCATE TABLE 比 DELETE 速度快，且使用的系統和事務日誌資源少，但 TRUNCATE無事務且不觸發 trigger，有可能造成事故，故不建議在開發程式碼中使用此語句。

說明：TRUNCATE TABLE 在功能上與不帶 WHERE 子句的 DELETE 語句相同。

(2)各博友總結概要

a.沒有完美的資料庫設計，只有符合業務的資料庫設計

b.在遵守資料庫設計三大正規化的同時，也要考慮使用者體驗

c.資料庫設計時必須要做的兩件事情(需求分析、考慮需求可能的變更)

d.資料庫設計注意事項

使用者輸入不能作為主鍵；
凡是有業務意義的不能作為主鍵；
除非是確定非空欄位，其他允許為空(約束簡單原則)；
不能缺少時間或日期欄位，並預留備註欄位；
業務時效性；
資料採集(寧濫勿缺)；
預先計劃(考慮使用者誤操作，非物理刪除與物理刪除)。

e.欄位是否允許為空(結合業務思考)

f.表增加欄位不要採用drop table或create table，最好用alter(保留原來的資料)。

g.多表操作必須使用事務

h.資料庫命名

使用名詞作為表名；
相關表採用統一的字首。

i.欄位的命名

根據動詞被動形式+描述性字尾；
時間區分當前和未來；
使用第三人稱複數；
區分單數和複數。

j.充分利用工具

Power Design；
Navicat Data Modeler。

k.獲取資料模式手冊

l.做新的資料庫設計時，要記住過去的教訓，古為今鑑

m.在物理實踐之前進行邏輯實現

n.建立資料字典和ER圖表

o.有意義的欄位命名

p.標準化和資料驅動

q.標準化不能過頭

r.小心保留字

s.仔細選擇數字型別

t.避免使用觸發器

u.文字欄位留足量

v.採用檢視

w.用儲存過程讓系統做活

x.建立模式

y.報表技巧

z.檢查各種變化

(3)我對規範層面的感受

從外包公司到至今，越來越體會到規範化的重要意義。從資料庫設計到編碼，簡直是一部血淚史。當年在某創業公司的時候，除了寫程式碼隨意之外，對於資料庫設計更是隨意，為了功能更好實現，給資料庫對應的表不斷增加欄位，最終造成大量冗餘，資料庫欄位冗餘，對應的Java程式碼也是如此。而後到某教育Saas公司才明白資料表不可輕易加欄位，需要從需求層面考慮，而不是從自身功能實現難易考慮。

【資料庫設計】資料庫的設計
2018-06-21
資料庫
Go Web 程式設計之資料庫
2020-01-21
GoWeb程式設計資料庫
MySQL之規範資料庫設計
2020-12-05
MySql資料庫
資料庫設計之欄位冗餘
2020-08-26
資料庫
資料庫表設計之儲存引擎
2021-06-28
資料庫儲存引擎
程式設計師面試之MySQL資料庫表的設計
2021-08-27
程式設計師面試MySql資料庫
如何實現一個資料庫的 UDF？圖資料庫 NebulaGraph UDF 功能背後的設計與思考
2023-09-20
資料庫
PowerDesigner設計資料庫
2024-01-13
資料庫
2024.11.5（資料庫設計）
2024-11-21
資料庫
KMC資料庫設計
2024-10-30
資料庫
MySQL預設資料庫之mysql庫
2019-07-21
MySql資料庫
MySQL預設資料庫之sys庫
2019-07-21
MySql資料庫
資料庫實驗五：資料庫程式設計
2024-06-16
資料庫程式設計
資料庫實驗八資料庫程式設計
2020-12-24
資料庫程式設計
通用許可權系統之資料庫表設計
2024-12-07
資料庫
IM 的資料庫設計
2018-10-23
資料庫
資料庫設計總結
2019-01-16
資料庫
資料庫設計基礎
2024-03-22
資料庫
Java資料庫框架設計
2024-08-17
Java資料庫框架
一文帶你瞭解「圖資料庫」Nebula 的儲存設計和思考
2022-05-07
資料庫
MySQL預設資料庫之performance_schema庫
2019-07-21
MySql資料庫ORM
MySQL預設資料庫之 information_schema庫
2019-07-21
MySql資料庫ORM
MySQL資料庫設計規範
2018-12-20
MySql資料庫
MySQL 資料庫設計總結
2019-03-11
MySql資料庫
openGauss 設定資料庫審計
2024-04-30
資料庫
資料庫系統設計概述
2020-08-02
資料庫
資料庫設計技巧14則
2020-04-06
資料庫
編寫資料庫設計文件
2020-04-05
資料庫
Javaweb-資料庫設計案例
2024-09-08
JavaWeb資料庫
設計資料庫關係模型
2018-04-01
資料庫模型
Python SQLite資料庫程式設計
2024-10-31
PythonSQLite資料庫程式設計
42. 資料庫程式設計
2024-12-05
資料庫程式設計
4，MySQL資料庫的設計
2024-11-10
MySql資料庫
好程式設計師大資料培訓分享之MySQL資料庫SQL簡介
2020-05-27
程式設計師大資料MySql資料庫
雲資料建模：為資料倉儲設計資料庫
2022-06-30
資料庫
暑期自學 Day 12 | 資料庫（五）- 多表，資料庫設計
2020-05-24
資料庫
架構設計之資料分片
2021-08-04
架構
好程式設計師大資料培訓分享之《MySQL資料庫》常用函式整理
2020-05-27
程式設計師大資料MySql資料庫函式