資料庫表連線的簡單解釋

阮一峰發表於2019-01-15

關係型資料庫最難的地方,就是建模(model)。

錯綜複雜的資料,需要建立模型,才能儲存在資料庫。所謂"模型"就是兩樣東西:實體(entity)+ 關係(relationship)。

實體指的是那些實際的物件,帶有自己的屬性,可以理解成一組相關屬性的容器。關係就是實體之間的聯絡,通常可以分成"一對一"、"一對多"和"多對多"等型別。

在關係型資料庫裡面,每個實體有自己的一張表(table),所有屬性都是這張表的欄位(field),表與表之間根據關聯欄位"連線"(join)在一起。所以,表的連線是關係型資料庫的核心問題。

表的連線分成好幾種型別。

  • 內連線(inner join)
  • 外連線(outer join)
  • 左連線(left join)
  • 右連線(right join)
  • 全連線(full join)

以前,很多文章採用維恩圖(兩個圓的集合運算),解釋不同連線的差異。

上週,我讀到一篇文章,認為還有比維恩圖更好的解釋方式。我發現確實如此,換一個角度解釋,更容易懂。

所謂"連線",就是兩張表根據關聯欄位,組合成一個資料集。問題是,兩張表的關聯欄位的值往往是不一致的,如果關聯欄位不匹配,怎麼處理?比如,表 A 包含張三和李四,表 B 包含李四和王五,匹配的只有李四這一條記錄。

很容易看出,一共有四種處理方法。

  • 只返回兩張表匹配的記錄,這叫內連線(inner join)。
  • 返回匹配的記錄,以及表 A 多餘的記錄,這叫左連線(left join)。
  • 返回匹配的記錄,以及表 B 多餘的記錄,這叫右連線(right join)。
  • 返回匹配的記錄,以及表 A 和表 B 各自的多餘記錄,這叫全連線(full join)。

下圖就是四種連線的圖示。我覺得,這張圖比維恩圖更易懂,也更準確。

上圖中,表 A 的記錄是 123,表 B 的記錄是 ABC,顏色表示匹配關係。返回結果中,如果另一張表沒有匹配的記錄,則用 null 填充。

這四種連線,又可以分成兩大類:內連線(inner join)表示只包含匹配的記錄,外連線(outer join)表示還包含不匹配的記錄。所以,左連線、右連線、全連線都屬於外連線。

這四種連線的 SQL 語句如下。


SELECT * FROM A  
INNER JOIN B ON A.book_id=B.book_id;

SELECT * FROM A  
LEFT JOIN B ON A.book_id=B.book_id;

SELECT * FROM A  
RIGHT JOIN B ON A.book_id=B.book_id;

SELECT * FROM A  
FULL JOIN B ON A.book_id=B.book_id;

上面的 SQL 語句還可以加上where條件從句,對記錄進行篩選,比如只返回表 A 裡面不匹配表 B 的記錄。


SELECT * FROM A
LEFT JOIN B
ON A.book_id=B.book_id
WHERE B.id IS null;

另一個例子,返回表 A 或表 B 所有不匹配的記錄。


SELECT * FROM A
FULL JOIN B
ON A.book_id=B.book_id
WHERE A.id IS null OR B.id IS null;

此外,還存在一種特殊的連線,叫做"交叉連線"(cross join),指的是表 A 和表 B 不存在關聯欄位,這時表 A(共有 n 條記錄)與表 B (共有 m 條記錄)連線後,會產生一張包含 n x m 條記錄的新表(見下圖)。

(完)

相關文章