資料庫規約解讀

zping發表於2018-06-06

  適用場景:併發量大、資料量大的網際網路業務

基礎規範

1、必須使用InnoDB儲存引擎
解讀:支援事務、行級鎖、併發效能更好、CPU及記憶體快取頁優化使得資源利用率更高

2、新庫預設使用utf8mb4字符集
解讀:utf8mb4和utf8都是萬國碼,無需轉碼,無亂碼風險。其中utf8mb4是utf8的超集,emoji表情以及部分不常見漢字在utf8下會表現為亂碼,故需要升級至utf8mb4。

3、資料表、資料欄位必須加入中文註釋
解讀:N年後沒誰知道這個r1,r2,r3欄位是幹嘛的。
不過也有人提出,加入註釋會方便黑客,建議“註釋寫在文件裡,文件和資料庫同步更新”。
這個建議根據經驗來說是不太靠譜的:
(1)不能怕bug就不寫程式碼,怕黑客就不寫註釋,對吧?
(2)文件同步更新也不太現實,還是把註釋寫好,程式碼可讀性做好更可行,網際網路公司的文件管理?呆過網際網路公司的同學估計都清楚

4、禁止使用儲存過程、檢視、觸發器、Event
解讀:軍規的背景是“併發量大、資料量大的網際網路業務”,這類業務架構設計的重點往往是吞吐量,效能優先(和錢相關的少部分業務是一致性優先),對資料庫效能影響較大的資料庫特性較少使用。這類場景的架構方向是“解放資料庫CPU,把複雜邏輯計算放到服務層”,服務層具備更好的擴充套件性,容易實現“增機器就擴充效能”,資料庫擅長儲存與索引,勿讓資料庫揹負過重的任務。

有人質疑某些軍規不合理,完全做到不可能,任何事情都沒有百分之百,針對業務特性設計架構,總有方案替代,等單庫吞吐量到了幾千上萬,就明白這些軍規的重要性了。

5、禁止儲存大檔案或者大照片
解讀:為何要讓資料庫做它不擅長的事情?大檔案和照片儲存在檔案系統,資料庫裡存URI多好


命名規範

6、只允許使用內網域名,而不是ip連線資料庫
解讀:不只是資料庫,快取(memcache、redis)的連線,服務(service)的連線都必須使用內網域名,機器遷移/平滑升級/運維管理......太多太多的好處

7、線上環境、開發環境、測試環境資料庫內網域名遵循命名規範
業務名稱:xxx
線上環境:dj.xxx.db
開發環境:dj.xxx.rdb
測試環境:dj.xxx.tdb
從庫在名稱後加-s標識,備庫在名稱後加-ss標識
線上從庫:dj.xxx-s.db
線上備庫:dj.xxx-sss.db

8、庫名、表名、欄位名:小寫,下劃線風格,不超過32個字元,必須見名知意,禁止拼音英文混用

9、表名t_xxx,非唯一索引名idx_xxx,唯一索引名uniq_xxx


表設計規範

10、單例項表數目必須小於500

11、單表列數目必須小於30

12、表必須有主鍵,例如自增主鍵
解讀:
a)主鍵遞增,資料行寫入可以提高插入效能,可以避免page分裂,減少表碎片提升空間和記憶體的使用
b)主鍵要選擇較短的資料型別, Innodb引擎普通索引都會儲存主鍵的值,較短的資料型別可以有效的減少索引的磁碟空間,提高索引的快取效率
c) 無主鍵的表刪除,在row模式的主從架構,會導致備庫夯住

13、禁止使用外來鍵,如果有外來鍵完整性約束,需要應用程式控制
解讀:外來鍵會導致表與表之間耦合,update與delete操作都會涉及相關聯的表,十分影響sql 的效能,甚至會造成死鎖。高併發情況下容易造成資料庫效能,大資料高併發業務場景資料庫使用以效能優先


欄位設計規範

14、必須把欄位定義為NOT NULL並且提供預設值
解讀:
a)null的列使索引/索引統計/值比較都更加複雜,對MySQL來說更難優化
b)null 這種型別MySQL內部需要進行特殊處理,增加資料庫處理記錄的複雜性;同等條件下,表中有較多空欄位的時候,資料庫的處理效能會降低很多
c)null值需要更多的儲存空,無論是表還是索引中每行中的null的列都需要額外的空間來標識
d)對null 的處理時候,只能採用is null或is not null,而不能採用=、in、<、<>、!=、not in這些操作符號。如:where name!=’shenjian’,如果存在name為null值的記錄,查詢結果就不會包含name為null值的記錄

15、禁止使用TEXT、BLOB型別
解讀:會浪費更多的磁碟和記憶體空間,非必要的大量的大欄位查詢會淘汰掉熱資料,導致記憶體命中率急劇降低,影響資料庫效能

16、禁止使用小數儲存貨幣
解讀:使用整數吧,小數容易導致錢對不上。
有人可能會問儲存前乘以100,取出後除以100是否可行,個人建議“儘量少的使用除法”。
曾經踩過這樣的坑,100元分3天攤銷,每天攤銷100/3元,結果得到3個33.33。
後來實施對賬系統,始終有幾分錢對不齊,鬱悶了很久,最後發現是除法惹的禍。
解決方案:使用“分”作為單位,這樣資料庫裡就是整數了。

17、必須使用varchar(20)儲存手機號
解讀:
a)涉及到區號或者國家代號,可能出現+-()
b)手機號會去做數學運算麼?
c)varchar可以支援模糊查詢,例如:like“138%”

18、禁止使用ENUM,可使用TINYINT代替
解讀:
a)增加新的ENUM值要做DDL操作
b)ENUM的內部實際儲存就是整數,你以為自己定義的是字串?


索引設計規範

19、單表索引建議控制在5個以內

20、單索引欄位數不允許超過5個
解讀:欄位超過5個時,實際已經起不到有效過濾資料的作用了

21、禁止在更新十分頻繁、區分度不高的屬性上建立索引
解讀:
a)更新會變更B+樹,更新頻繁的欄位建立索引會大大降低資料庫效能
b)“性別”這種區分度不大的屬性,建立索引是沒有什麼意義的,不能有效過濾資料,效能與全表掃描類似

22、建立組合索引,必須把區分度高的欄位放在前面
解讀:能夠更加有效的過濾資料


SQL使用規範

23、禁止使用SELECT ,只獲取必要的欄位,需要顯示說明列屬性
解讀:
a)讀取不需要的列會增加CPU、IO、NET消耗
b)不能有效的利用覆蓋索引
c)使用SELECT
容易在增加或者刪除欄位後出現程式BUG

24、禁止使用INSERT INTO t_xxx VALUES(xxx),必須顯示指定插入的列屬性
解讀:容易在增加或者刪除欄位後出現程式BUG

25、禁止使用屬性隱式轉換
解讀:SELECT uid FROM t_user WHERE phone=13812345678 會導致全表掃描,而不能命中phone索引。
phone是varchar型別,SQL語句帶入的是整形,故不會命中索引,加個引號就好了:
SELECT uid FROM t_user WHERE phone=’13812345678’

26、禁止在WHERE條件的屬性上使用函式或者表示式
解讀:SELECT uid FROM t_user WHERE from_unixtime(day)>='2017-02-15' 會導致全表掃描
正確的寫法是:SELECT uid FROM t_user WHERE day>= unix_timestamp('2017-02-15 00:00:00')

27、禁止負向查詢,以及%開頭的模糊查詢
解讀:
a)負向查詢條件:NOT、!=、<>、!<、!>、NOT IN、NOT LIKE等,會導致全表掃描
b)%開頭的模糊查詢,會導致全表掃描

28、禁止大表使用JOIN查詢,禁止大表使用子查詢
解讀:會產生臨時表,消耗較多記憶體與CPU,極大影響資料庫效能

29、禁止使用OR條件,必須改為IN查詢
解讀:舊版本Mysql的OR查詢是不能命中索引的,即使能命中索引,為何要讓資料庫耗費更多的CPU幫助實施查詢優化呢?

30、應用程式必須捕獲SQL異常,並有相應處理


行為準則

31、禁止使用應用程式配置檔案內的帳號手工訪問線上資料庫
32、禁止非DBA對線上資料庫進行寫操作,修改線上資料需要提交工單,由DBA執行,提交的SQL語句必須經過測試
33、分配非DBA以只讀帳號,必須通過VPN+跳板機訪問授權的從庫
34、開發、測試、線上環境隔離

相關文章