關聯式資料庫正規化詳解(Normal form,簡稱NF)

folio發表於2024-03-15

引言

關聯式資料庫中的關係滿足一定要求的,滿足不同程度要求的為不同的正規化,共有6種正規化。
滿足最低要求的叫第一正規化,簡稱 1NF;在第一正規化的基礎上滿足進一步要求的稱為第二正規化,簡稱 2NF; 其餘正規化以此類推。
對於各種正規化之間有如下關係:
5NF ∈ 4NF ∈ BCNF ∈ 3NF ∈ 2NF ∈ 1NF
各種正規化之間的關係

第一正規化 1NF

  • 定義: 屬於第一正規化關係的所有屬性都不可再分,即資料項不可分。
  • 理解: 第一正規化強調資料表的原子性,是其他正規化的基礎。如下圖所示資料庫就不符合第一正規化:
公司名稱 地址
商品
電話
名稱 數量
上表將商品這一資料項又劃分為名稱和數量兩個資料項,故不符合第一正規化關係。改正之後如下圖所示:
公司名稱 地址 商品名稱 商品數量 電話

上表就符合第一正規化關係。
但日常生活中僅用第一正規化來規範表格是遠遠不夠的,依然會存在資料冗餘過大、刪除異常、插入異常、修改異常的問題,此時就需要引入規範化概念,將其轉化為更標準化的表格,減少資料依賴。

  • 規範化: 一個低一級的關係模式透過模式分解可以轉化為若干個高一級正規化的關係模式的集合,這個過程叫做規範化。

第二正規化 2NF

  • 定義: 若某關係 R 屬於第一正規化,且每一個非主屬性完全函式依賴於任何一個候選碼,則關係 R 屬於第二正規化。
    此處我們需要理解非主屬性、候選碼和完全函式依賴的概念。
  • 候選碼: 若關係中的某一屬性組的值能唯一地標識一個元組,而其子集不能,則稱該屬性組為候選碼。若一個關係中有多個候選碼,則選定其中一個為主碼。
    以下所有內容中,主碼或候選碼都簡稱為碼。

例如

下圖所示的學生表中,學號和姓名都可以唯一標識一個元組,故該表的候選碼為學號和姓名,主碼我們可以隨便選定其中一個,則選學號為主碼。

學號 姓名 年齡 性別
101 劉晨 19
102 王琪 21
103 張宇 20
104 李琛 19
105 歐陽慧 20
  • 主屬性: 所有候選碼的屬性稱為主屬性。不包含在任何候選碼中的屬性稱為非主屬性或非碼屬性。

在上面的學生表中,學號和姓名就是該關係的主屬性,年齡和性別就是非主屬性。

  • 函式依賴: 設 R (U) 是屬性集 U 上的關係模式,X、Y 是 U 的子集。若對於 R (U) 的任意一個可能的關係 r,r 中不可能存在兩個元組在 X 上的屬性值相等,而在 Y 上的屬性值不等,則稱 Y 函式依賴於 X 或 X 函式確定 Y。
  • 完全函式依賴: 設 R (U) 是屬性集 U 上的關係模式,X、Y 是 U 的子集。如果 Y 函式依賴於 X,且對於 X 的任何一個真子集 X’,都有 Y 不函式依賴於 X’,則稱 Y 對 X 完全函式依賴。記作:如果 Y 函式依賴於 X,但 Y 不完全函式依賴於 X,則稱 Y 對 X 部分函式依賴。
      X ---> Y   Y 函式依賴於 X
      X -F-> Y   Y 函式完全依賴於 X
      X -P-> Y   Y 函式部分依賴於 X
  • 理解: 第二正規化是指每個表必須有一個(有且僅有一個)資料項作為關鍵字或主鍵(primary key),其他資料項與關鍵字或者主鍵一一對應,即其他資料項完全依賴於關鍵字或主鍵。由此可知單主屬性的關係均屬於第二正規化。

判斷一個關係是否屬於第二正規化:

  1. 找出資料表中的所有碼;
  2. 找出所有主屬性和非主屬性;
  3. 判斷所有的非主屬性對碼的部分函式依賴。

以上面的學生表為例,表中的碼為學號(碼可以為學號或者姓名,此處假定碼為學號),非主屬性為性別、年齡(其餘都為主屬性),當學號確定時,性別、年齡也都惟一的被確定為,故學生表的設計滿足第二正規化(學生表為單主屬性的關係)。

例如

下面舉一個不滿足第二正規化的關係。
有關係模式 S-L-C (Sno, Sdept, Sloc, Cno, Grade),其中 Sno, Sdept, Sloc, Cno, Grade 依次表示學生的學號、所在的系、住處、課程號、班級,並且每個系的學生住在同一個地方。可知 S-L-C 的碼為(Sno, Cno),則存在以下函式依賴:

      (Sno, Cno)  -F->  Ggrade
       Sno --->  Sdept ,  (Sno, Cno)  -P->  Sdept
       Sno --->  Sloc ,   (Sno, Cno)  -P->  Sloc ,  Sdept --->  Sloc (每個系的學生住在同一個地方)

可以看到,非主屬性 Sloc、Sdept 並不完全函式依賴於碼,因此關係模式 S-L-C (Sno, Sdept, Sloc, Cno, Grade) 不符合第二正規化。

第三正規化 3NF

  • 定義: 非主屬性既不傳遞依賴於碼,也不部分依賴於碼。

首先我們要理解傳遞函式依賴的概念。

在R(U)中,若X-->Y,Y-/->X,Y-->Z,Z不屬於Y,則稱Z對X傳遞函式依賴。記作 X -傳遞-> Z。

  • 理解: 第三正規化要求在滿足第二正規化的基礎上,任何非主屬性不依賴於其他非主屬性,即在第二正規化的基礎上,消除了傳遞依賴。

在下圖 S-L 關係中,Sloc 對 Sno 傳遞函式依賴,故該關係不屬於第三正規化。

graph LR A(Sno) --> B(Sdept) B --> C(Sloc) A --> C

BC正規化 BCFN

  • 定義: 關係模式 R 中,若每一個決定因素都包含碼,則 R 屬於 BCFN。
  • 理解: 根據定義我們可以得到結論,一個滿足 BC 正規化的關係模式有:
    1. 所有非主屬性對每一個碼都是完全函式依賴;
    2. 所有主屬性對每一個不包含它的碼也是完全函式依賴;
    3. 沒有任何屬性完全函式依賴於非碼的任何一組屬性。

例如有關係模式 C (Cno, Cname, Pcno),Cno, Cname, Pcno 依次表示課程號、課程名、先修課。可知關係 C 只有一個碼 Cno,且沒有任何屬性對 Cno 部分函式依賴或傳遞函式依賴,所以關係 C 屬於第三正規化,同時 Cno 是 C 中的唯一決定因素,所以 C 也屬於 BC 正規化。

第四正規化 4NF

  • 定義: 限制關係模式的屬性之間不允許有非平凡且非函式依賴的多值依賴。
  • 理解: 顯然一個關係模式是 4NF,則必為 BCNF。也就是說,當一個表中的非主屬性互相獨立時(3NF),這些非主屬性不應該有多值,若有多值就違反了 4NF。

第五正規化 5NF

第五正規化有以下要求:

  1. 必須滿足第四正規化;
  2. 表必須可以分解為較小的表,除非那些表在邏輯上擁有與原始表相同的主鍵。

第五正規化是在第四正規化的基礎上做的進一步規範化。第四正規化處理的是相互獨立的多值情況,而第五正規化則處理相互依賴的多值情況。

落之~

相關文章