閱讀翻譯Mathematics for Machine Learning之2.7 Linear Mappings

shizidushu發表於2024-07-23

原文網址 : https://www.cnblogs.com/shizidushu/p/18317385

閱讀翻譯Mathematics for Machine Learning之2.7 Linear Mappings

關於：

首次發表日期：2024-07-23
Mathematics for Machine Learning官方連結： https://mml-book.com
ChatGPT和KIMI機翻，人工潤色
非數學專業，如有錯誤，請不吝指出

2.7 線性對映

在接下來的內容中，我們將研究保持向量空間結構的對映，這將使我們能夠定義座標的概念。在本章的開頭，我們提到向量是可以相加和乘以標量的物件，且結果仍然是向量。當應用對映時，我們希望保持這一性質：考慮兩個實向量空間 \(V, W\)。如果對映 \(\Phi: V \rightarrow W\) 滿足以下條件，則它保持向量空間的結構：

\[\begin{align*} \Phi(\boldsymbol{x}+\boldsymbol{y}) & =\Phi(\boldsymbol{x})+\Phi(\boldsymbol{y}) \tag{2.85} \\ \Phi(\lambda \boldsymbol{x}) & =\lambda \Phi(\boldsymbol{x}) \tag{2.86} \end{align*} \]

對於所有 \(\boldsymbol{x}, \boldsymbol{y} \in V\) 和 \(\lambda \in \mathbb{R}\) 成立。我們可以用以下定義來總結這一點：

定義 2.15（線性對映）。對於向量空間 \(V, W\)，一個對映 \(\Phi: V \rightarrow W\) 被稱為線性對映（或向量空間同態/線性變換），如果

\[\forall \boldsymbol{x}, \boldsymbol{y} \in V \ \forall \lambda, \psi \in \mathbb{R}: \Phi(\lambda \boldsymbol{x}+\psi \boldsymbol{y})=\lambda \Phi(\boldsymbol{x})+\psi \Phi(\boldsymbol{y}) \tag{2.87} \]

結果表明，我們可以將線性對映表示為矩陣（見第 2.7.1 節）。回想一下，我們也可以將一組向量作為矩陣的列。在使用矩陣時，我們必須記住矩陣代表的是什麼：是線性對映還是向量的集合。我們將在第 4 章中詳細討論線性對映。在繼續之前，我們將簡要介紹一些特殊的對映。

定義 2.16（單射、滿射、雙射）。考慮一個對映 \(\Phi\) : \(\mathcal{V} \rightarrow \mathcal{W}\)，其中 \(\mathcal{V}\) 和 \(\mathcal{W}\) 可以是任意集合。那麼 \(\Phi\) 被稱為：

單射（Injective），如果 \(\forall \boldsymbol{x}, \boldsymbol{y} \in \mathcal{V}\)，有 \(\Phi(\boldsymbol{x})=\Phi(\boldsymbol{y}) \Longrightarrow \boldsymbol{x}=\boldsymbol{y}\)。
滿射（Surjective），如果 \(\Phi(\mathcal{V})=\mathcal{W}\)。
雙射（Bijective），如果它既是單射又是滿射。

如果 \(\Phi\) 是滿射，那麼 \(\mathcal{W}\) 中的每個元素都可以透過 \(\Phi\) 從 \(\mathcal{V}\) 中“到達”。雙射 \(\Phi\) 可以“被逆”，即存在一個對映 \(\Psi\) : \(\mathcal{W} \rightarrow \mathcal{V}\) 使得 \(\Psi \circ \Phi(\boldsymbol{x})=\boldsymbol{x}\)。這個對映 \(\Psi\) 被稱為 \(\Phi\) 的逆對映，通常記作 \(\Phi^{-1}\)。

有了這些定義，我們介紹以下向量空間 \(V\) 和 \(W\) 之間的線性對映的特例：

同構（Isomorphism）：\(\Phi: V \rightarrow W\) 線性且雙射
自同態（Endomorphism）：\(\Phi: V \rightarrow V\) 線性
自同構（Automorphism）：\(\Phi: V \rightarrow V\) 線性且雙射
我們定義 \(\operatorname{id}_V: V \rightarrow V, \boldsymbol{x} \mapsto \boldsymbol{x}\) 為 \(V\) 中的恆等對映或恆等自同構。

**例 2.19（同態（Homomorphism））**

對映 \(\Phi: \mathbb{R}^2 \rightarrow \mathbb{C}, \Phi(\boldsymbol{x})=x_1+i x_2\) 是一個同態：

\[\begin{aligned} \Phi\left(\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]+\left[\begin{array}{l} y_1 \\ y_2 \end{array}\right]\right) & =\left(x_1+y_1\right)+i\left(x_2+y_2\right)=x_1+i x_2+y_1+i y_2 \\ & =\Phi\left(\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]\right)+\Phi\left(\left[\begin{array}{l} y_1 \\ y_2 \end{array}\right]\right) \\ \Phi\left(\lambda\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]\right) & =\lambda x_1+\lambda i x_2=\lambda\left(x_1+i x_2\right)=\lambda \Phi\left(\left[\begin{array}{l} x_1 \\ x_2 \end{array}\right]\right) . \end{aligned} \tag{2.88} \]

這也說明了為什麼複數可以表示為 \(\mathbb{R}^2\) 中的元組：存在一個雙射線性對映，可以將 \(\mathbb{R}^2\) 中元組的逐元素加法轉換為對應加法的複數集合。請注意，我們這裡只展示了線性性，而不是雙射性。

定理 2.17（Axler (2015) 的定理 3.59）。有限維向量空間 \(V\) 和 \(W\) 是同構的，當且僅當 \(\operatorname{dim}(V)=\operatorname{dim}(W)\)。

定理 2.17 表明，存在一個線性、雙射的對映在兩個相同維度的向量空間之間。直觀上，這意味著相同維度的向量空間在某種程度上是相同的，因為它們可以互相轉換而不會遭受任何損失。

定理 2.17 還為我們提供了將 \(\mathbb{R}^{m \times n}\)（\(m \times n\) 矩陣的向量空間）和 \(\mathbb{R}^{mn}\)（長度為 \(mn\) 的向量的向量空間）視為相同的理由，因為它們的維度都是 \(mn\)，並且存在一個線性、雙射的對映將一個轉換為另一個。

備註。考慮向量空間 \(V, W, X\)。那麼：

對於線性對映 \(\Phi: V \rightarrow W\) 和 \(\Psi: W \rightarrow X\)，對映 \(\Psi \circ \Phi: V \rightarrow X\) 也是線性的。
如果 \(\Phi: V \rightarrow W\) 是同構（isomorphism），那麼 \(\Phi^{-1}: W \rightarrow V\) 也是同構。
如果 \(\Phi: V \rightarrow W, \Psi: V \rightarrow W\) 是線性的，那麼 \(\Phi+\Psi\) 和 \(\lambda \Phi, \lambda \in \mathbb{R}\)，也是線性的。

2.7.1 線性對映的矩陣表示

任何 \(n\) 維向量空間都與 \(\mathbb{R}^n\) 同構（定理 2.17）。我們考慮一個 \(n\) 維向量空間 \(V\) 的基 \(\left\{\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right\}\)。在接下來的內容中，基向量的順序很重要。因此，我們寫作

\[B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right) \tag{2.89} \]

並稱這個 \(n\) 元組為 \(V\) 的有序基。

備註（符號）。我們現在使用的符號有點複雜，因此我們在這裡總結一些部分。\(B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right)\) 是一個有序基，\(\mathcal{B}=\left\{\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right\}\) 是一個（無序）基，\(\boldsymbol{B}=\left[\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right]\) 是一個矩陣，其列是向量 \(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\)。

定義 2.18（座標）。考慮一個向量空間 \(V\) 和其有序基 \(B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right)\)。對於任何 \(\boldsymbol{x} \in V\)，我們可以得到一個唯一的表示（線性組合）

\[\boldsymbol{x}=\alpha_1 \boldsymbol{b}_1+\ldots+\alpha_n \boldsymbol{b}_n \]

其中 \(\alpha_1, \ldots, \alpha_n\) 是 \(\boldsymbol{x}\) 相對於 \(B\) 的座標，並且向量

\[\boldsymbol{\alpha}=\left[\begin{array}{c} \alpha_1 \\ \vdots \\ \alpha_n \end{array}\right] \in \mathbb{R}^n \]

是 \(\boldsymbol{x}\) 相對於有序基 \(B\) 的座標向量/座標表示。

一個基實際上定義了一個座標系。我們熟悉的二維笛卡爾座標系是由標準基向量 \(\boldsymbol{e}_1, \boldsymbol{e}_2\) 張成的。在這個座標系中，向量 \(\boldsymbol{x} \in \mathbb{R}^2\) 有一個表示，它告訴我們如何線性組合 \(\boldsymbol{e}_1\) 和 \(\boldsymbol{e}_2\) 來得到 \(\boldsymbol{x}\)。然而，\(\mathbb{R}^2\) 的任何基都定義了一個有效的座標系，並且相同的向量 \(\boldsymbol{x}\) 在基 \(\left(\boldsymbol{b}_1, \boldsymbol{b}_2\right)\) 中可能有不同的座標表示。在圖 2.8 中，向量 \(\boldsymbol{x}\) 相對於標準基 \(\left(\boldsymbol{e}_1, \boldsymbol{e}_2\right)\) 的座標是 \([2,2]^{\top}\)。然而，相對於基 \(\left(\boldsymbol{b}_1, \boldsymbol{b}_2\right)\)，相同的向量 \(\boldsymbol{x}\) 表示為 \([1.09,0.72]^{\top}\)，即 \(\boldsymbol{x}=1.09 \boldsymbol{b}_1+0.72 \boldsymbol{b}_2\)。在接下來的部分中，我們將探討如何獲得這種表示。

**例 2.20**

我們來看一個幾何向量 \(\boldsymbol{x} \in \mathbb{R}^2\)，其相對於 \(\mathbb{R}^2\) 的標準基 \(\left(\boldsymbol{e}_1, \boldsymbol{e}_2\right)\) 的座標為 \([2,3]^{\top}\)。這意味著，我們可以寫作 \(\boldsymbol{x}=2 \boldsymbol{e}_1+3 \boldsymbol{e}_2\)。然而，我們不必選擇標準基來表示這個向量。如果我們使用基向量 \(\boldsymbol{b}_1=[1,-1]^{\top}\) 和 \(\boldsymbol{b}_2=[1,1]^{\top}\)，我們將得到座標 \(\frac{1}{2}[-1,5]^{\top}\) 來表示相對於 \(\left(\boldsymbol{b}_1, \boldsymbol{b}_2\right)\) 的相同向量（見圖 2.9）。

備註。對於一個 \(n\) 維向量空間 \(V\) 和 \(V\) 的一個有序基 \(B\)，對映 \(\Phi: \mathbb{R}^n \rightarrow V, \Phi\left(\boldsymbol{e}_i\right)=\boldsymbol{b}_i, i=1, \ldots, n\) 是線性的（根據定理 2.17，是一個同構），其中 \(\left(\boldsymbol{e}_1, \ldots, \boldsymbol{e}_n\right)\) 是 \(\mathbb{R}^n\) 的標準基。

現在我們已經準備好明確地建立矩陣與有限維向量空間之間的線性對映之間的聯絡。

定義 2.19（變換矩陣）。考慮向量空間 \(V\) 和 \(W\)，它們分別有對應的（有序）基 \(B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right)\) 和 \(C=\left(\boldsymbol{c}_1, \ldots, \boldsymbol{c}_m\right)\)。此外，我們考慮一個線性對映 \(\Phi: V \rightarrow W\)。對於 \(j \in\{1, \ldots, n\}\)，

\[\Phi\left(\boldsymbol{b}_j\right)=\alpha_{1 j} \boldsymbol{c}_1+\cdots+\alpha_{m j} \boldsymbol{c}_m=\sum_{i=1}^m \alpha_{i j} \boldsymbol{c}_i \tag{2.92} \]

是 \(\Phi\left(\boldsymbol{b}_j\right)\) 相對於 \(C\) 的唯一表示。然後，我們稱 \(m \times n\) 矩陣 \(\boldsymbol{A}_{\Phi}\)，其元素由下式給出

\[A_{\Phi}(i, j)=\alpha_{i j}, \tag{2.93} \]

為 \(\Phi\) 的變換矩陣（相對於 \(V\) 的有序基 \(B\) 和 \(W\) 的有序基 \(C\)）。

\(\Phi\left(\boldsymbol{b}_j\right)\) 相對於 \(W\) 的有序基 \(C\) 的座標是 \(\boldsymbol{A}_{\Phi}\) 的第 \(j\) 列。考慮（有限維）向量空間 \(V, W\) 具有有序基 \(B, C\) 和線性對映 \(\Phi: V \rightarrow W\) 及其變換矩陣 \(\boldsymbol{A}_{\Phi}\)。如果 \(\hat{\boldsymbol{x}}\) 是 \(\boldsymbol{x} \in V\) 相對於 \(B\) 的座標向量，\(\hat{\boldsymbol{y}}\) 是 \(\boldsymbol{y}=\Phi(\boldsymbol{x}) \in W\) 相對於 \(C\) 的座標向量，那麼

\[\hat{\boldsymbol{y}}=\boldsymbol{A}_{\Phi} \hat{\boldsymbol{x}} . \tag{2.94} \]

這意味著變換矩陣可以用來將相對於 \(V\) 中有序基的座標對映為相對於 \(W\) 中有序基的座標。

**例 2.21（變換矩陣）**

考慮一個同態 \(\Phi: V \rightarrow W\) 以及 \(V\) 的有序基 \(B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_3\right)\) 和 \(W\) 的有序基 \(C=\left(\boldsymbol{c}_1, \ldots, \boldsymbol{c}_4\right)\)。給定

\[\begin{aligned} & \Phi\left(b_1\right)=c_1-c_2+3 c_3-c_4, \\ & \Phi\left(b_2\right)=2 c_1+c_2+7 c_3+2 c_4, \\ & \Phi\left(b_3\right)=3 c_2+c_3+4 c_4, \end{aligned} \tag{2.95} \]

相對於 \(B\) 和 \(C\) 的變換矩陣 \(\boldsymbol{A}_{\Phi}\) 滿足 \(\Phi\left(\boldsymbol{b}_k\right)=\sum_{i=1}^4 \alpha_{i k} \boldsymbol{c}_i, k=1, \ldots, 3\)，其表示為

\[\boldsymbol{A}_{\Phi}=\left[\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \boldsymbol{\alpha}_3\right]=\left[\begin{array}{ccc} 1 & 2 & 0 \\ -1 & 1 & 3 \\ 3 & 7 & 1 \\ -1 & 2 & 4 \end{array}\right], \tag{2.96} \]

其中 \(\boldsymbol{\alpha}_j, j=1,2,3\)，是 \(\Phi\left(\boldsymbol{b}_j\right)\) 相對於 \(C\) 的座標向量。

圖 2.10 給出了一組向量的三個線性變換示例。圖 2.10(a) 展示了 \(\mathbb{R}^2\) 中的 400 個向量，每個向量由相應的 \((x_1, x_2)\) 座標處的一個點表示。這些向量被排列在一個正方形中。當我們使用矩陣 \(\boldsymbol{A}_1\)（在公式 2.97 中）對這些向量的每一個進行線性變換時，我們得到了圖 2.10(b) 中的旋轉正方形。如果我們應用由 \(\boldsymbol{A}_2\) 表示的線性對映，我們將得到圖 2.10(c) 中的矩形，其中每個 \(x_1\) 座標被拉伸了 2 倍。圖 2.10(d) 展示了使用 \(\boldsymbol{A}_3\) 進行線性變換後的原始正方形，它結合了反射、旋轉和拉伸的效果。

2.7.2 基變換

在接下來的內容中，我們將更仔細地研究線性對映 \(\Phi: V \rightarrow W\) 的變換矩陣在我們改變 \(V\) 和 \(W\) 中的基時是如何變化的。考慮 \(V\) 的兩個有序基

\[B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right), \quad \tilde{B}=\left(\tilde{\boldsymbol{b}}_1, \ldots, \tilde{\boldsymbol{b}}_n\right) \tag{2.98} \]

和 \(W\) 的兩個有序基

\[C=\left(\boldsymbol{c}_1, \ldots, \boldsymbol{c}_m\right), \quad \tilde{C}=\left(\tilde{\boldsymbol{c}}_1, \ldots, \tilde{\boldsymbol{c}}_m\right) \tag{2.99} \]

此外，\(A_{\Phi} \in \mathbb{R}^{m \times n}\) 是相對於基 \(B\) 和 \(C\) 的線性對映 \(\Phi: V \rightarrow W\) 的變換矩陣，而 \(\tilde{\boldsymbol{A}}_{\Phi} \in \mathbb{R}^{m \times n}\) 是相對於 \(\tilde{B}\) 和 \(\tilde{C}\) 的相應變換矩陣。接下來，我們將研究 \(\boldsymbol{A}\) 和 \(\tilde{\boldsymbol{A}}\) 是如何關聯的，即如果我們選擇從 \(B, C\) 改變基到 \(\tilde{B}, \tilde{C}\)，我們是否可以/如何將 \(\boldsymbol{A}_{\Phi}\) 轉換為 \(\tilde{A}_{\Phi}\)。

備註。我們實際上得到了恆等對映 \(\mathrm{id}_V\) 的不同座標表示。在圖 2.9 的上下文中，這意味著在不改變向量 \(\boldsymbol{x}\) 的情況下，將相對於 \(\left(\boldsymbol{e}_1, \boldsymbol{e}_2\right)\) 的座標對映到相對於 \(\left(b_1, b_2\right)\) 的座標。透過改變基和相應地改變向量的表示，相對於這個新基的變換矩陣可以有一個特別簡單的形式，這允許進行直接的計算。

**例 2.23（基變換）**

考慮一個相對於 \(\mathbb{R}^2\) 中的標準基的變換矩陣

\[\boldsymbol{A}=\left[\begin{array}{ll} 2 & 1 \\ 1 & 2 \end{array}\right] \tag{2.100} \]

如果我們定義一個新的基

\[B=\left(\left[\begin{array}{l} 1 \\ 1 \end{array}\right],\left[\begin{array}{c} 1 \\ -1 \end{array}\right]\right) \tag{2.101} \]

我們將獲得一個對角變換矩陣

\[\tilde{\boldsymbol{A}}=\left[\begin{array}{ll} 3 & 0 \\ 0 & 1 \end{array}\right] \tag{2.102} \]

相對於基 \(B\)，其比 \(\boldsymbol{A}\) 更容易處理。

接下來，我們將研究將一個基下的座標向量變換為另一個基下的座標向量的對映。我們將首先陳述主要結果，然後提供解釋。

定理 2.20（基變換）。對於線性對映 \(\Phi: V \rightarrow W\)，\(V\) 的有序基

\[B=\left(\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n\right), \quad \tilde{B}=\left(\tilde{\boldsymbol{b}}_1, \ldots, \tilde{\boldsymbol{b}}_n\right) \tag{2.103} \]

和 \(W\) 的有序基

\[C=\left(\boldsymbol{c}_1, \ldots, \boldsymbol{c}_m\right), \quad \tilde{C}=\left(\tilde{\boldsymbol{c}}_1, \ldots, \tilde{\boldsymbol{c}}_m\right) \tag{2.104} \]

以及相對於基 \(B\) 和 \(C\) 的 \(\Phi\) 的變換矩陣 \(\boldsymbol{A}_{\Phi}\)，相對於基 \(\tilde{B}\) 和 \(\tilde{C}\) 的相應變換矩陣 \(\tilde{A}_{\Phi}\) 由下式給出：

\[\tilde{A}_{\Phi}=\boldsymbol{T}^{-1} \boldsymbol{A}_{\Phi} S \tag{2.105} \]

這裡，\(S \in \mathbb{R}^{n \times n}\) 是將相對於 \(\tilde{B}\) 的座標對映到相對於 \(B\) 的座標的 \(\mathrm{id}_V\) 的變換矩陣，而 \(\boldsymbol{T} \in \mathbb{R}^{m \times m}\) 是將相對於 \(\tilde{C}\) 的座標對映到相對於 \(C\) 的座標的 \(\mathrm{id}_W\) 的變換矩陣。

證明遵循 Drumm 和 Weil (2001) 的方法，我們可以將 \(V\) 的新基 \(\tilde{B}\) 的向量表示為基 \(B\) 的基向量的線性組合，使得

\[\tilde{\boldsymbol{b}}_j=s_{1 j} \boldsymbol{b}_1+\cdots+s_{n j} \boldsymbol{b}_n=\sum_{i=1}^n s_{i j} \boldsymbol{b}_i, \quad j=1, \ldots, n . \tag{2.106} \]

同樣，我們將 \(W\) 的新基向量 \(\tilde{C}\) 表示為基 \(C\) 的基向量的線性組合，得到

\[\tilde{\boldsymbol{c}}_k=t_{1 k} \boldsymbol{c}_1+\cdots+t_{m k} \boldsymbol{c}_m=\sum_{l=1}^m t_{l k} \boldsymbol{c}_l, \quad k=1, \ldots, m . \tag{2.107} \]

我們定義 \(\boldsymbol{S} = (s_{ij}) \in \mathbb{R}^{n \times n}\) 為變換矩陣，它將相對於 \(\tilde{B}\) 的座標對映到相對於 \(B\) 的座標，定義 \(\boldsymbol{T} = (t_{lk}) \in \mathbb{R}^{m \times m}\) 為變換矩陣，它將相對於 \(\tilde{C}\) 的座標對映到相對於 \(C\) 的座標。特別地，\(\boldsymbol{S}\) 的第 \(j\) 列是 \(\tilde{\boldsymbol{b}}_j\) 相對於 \(B\) 的座標表示，\(\boldsymbol{T}\) 的第 \(k\) 列是 \(\tilde{\boldsymbol{c}}_k\) 相對於 \(C\) 的座標表示。注意，\(\boldsymbol{S}\) 和 \(\boldsymbol{T}\) 都是正則矩陣。

我們將從兩個角度來觀察 \(\Phi(\tilde{\boldsymbol{b}}_j)\)。首先，應用對映 \(\Phi\)，我們得到對於所有的 \(j=1, \ldots, n\)：

其中我們首先將新的基向量 \(\tilde{\boldsymbol{c}}_k \in W\) 表示為基向量 \(\boldsymbol{c}_l \in W\) 的線性組合，然後交換求和的順序。

或者，當我們將 \(\tilde{\boldsymbol{b}}_j \in V\) 表示為 \(\boldsymbol{b}_j \in V\) 的線性組合時，我們得到

在這裡，我們利用了 \(\Phi\) 的線性特性。比較公式 (2.108) 和 (2.109b)，可以得出對於所有的 \(j=1, \ldots, n\) 和 \(l=1, \ldots, m\) 有

\[\sum_{k=1}^m t_{l k} \tilde{a}_{k j}=\sum_{i=1}^n a_{l i} s_{i j} \tag{2.110} \]

因此，

\[\boldsymbol{T} \tilde{\boldsymbol{A}}_{\Phi}=\boldsymbol{A}_{\Phi} \boldsymbol{S} \in \mathbb{R}^{m \times n}, \tag{2.111} \]

這樣就有

\[\tilde{A}_{\Phi}=T^{-1} A_{\Phi} S, \tag{2.112} \]

這證明了定理 2.20。

定理 2.20 告訴我們，當 \(V\) 中的基（\(B\) 被 \(\tilde{B}\) 取代）和 \(W\) 中的基（\(C\) 被 \(\tilde{C}\) 取代）發生變化時，線性對映 \(\Phi: V \rightarrow W\) 的變換矩陣 \(\boldsymbol{A}_{\Phi}\) 被替換為等效矩陣 \(\tilde{\boldsymbol{A}}_{\Phi}\)，其關係為：

\[\tilde{A}_{\Phi}=T^{-1} A_{\Phi} S . \tag{2.113} \]

圖 2.11 說明了這種關係：考慮一個同態對映 \(\Phi: V \rightarrow W\) 及 \(V\) 的有序基 \(B, \tilde{B}\) 和 \(W\) 的有序基 \(C, \tilde{C}\)。對映 \(\Phi_{C B}\) 是 \(\Phi\) 的一個例項，將 \(B\) 的基向量對映到 \(C\) 的基向量的線性組合。假設我們知道 \(\Phi_{C B}\) 的變換矩陣 \(\boldsymbol{A}_{\Phi}\)，對應於有序基 \(B, C\)。當我們在 \(V\) 中從 \(B\) 到 \(\tilde{B}\) 和在 \(W\) 中從 \(C\) 到 \(\tilde{C}\) 進行基變換時，我們可以確定相應的變換矩陣 \(\tilde{\boldsymbol{A}}_{\Phi}\) 如下

首先，我們找到線性對映 \(\Psi_{B \tilde{B}}: V \rightarrow V\) 的矩陣表示，該對映將相對於新基 \(\tilde{B}\) 的座標對映到（唯一的）相對於“舊”基 \(B\) 的座標（在 \(V\) 中）。
然後，我們使用 \(\Phi_{C B}: V \rightarrow W\) 的變換矩陣 \(\boldsymbol{A}_{\Phi}\) 將這些座標對映到 \(W\) 中相對於 \(C\) 的座標。
最後，我們使用線性對映 \(\Xi_{\tilde{C} C}: W \rightarrow W\) 將相對於 \(C\) 的座標對映到相對於 \(\tilde{C}\) 的座標。因此，我們可以將線性對映 \(\Phi_{\tilde{C} \tilde{B}}\) 表示為涉及“舊”基的線性對映的組合：

\[\Phi_{\tilde{C} \tilde{B}}=\Xi_{\tilde{C} C} \circ \Phi_{C B} \circ \Psi_{B \tilde{B}}=\Xi_{C \tilde{C}}^{-1} \circ \Phi_{C B} \circ \Psi_{B \tilde{B}} . \tag{2.114} \]

具體來說，我們使用 \(\Psi_{B \tilde{B}}=\operatorname{id}_V\) 和 \(\Xi_{C \tilde{C}}=\mathrm{id}_W\)，即將向量對映到其自身的恆等對映，但相對於不同的基。

圖 2.11 對於同態對映 \(\Phi: V \rightarrow W\) 以及 \(V\) 的有序基 \(B, \tilde{B}\) 和 \(W\) 的有序基 \(C, \tilde{C}\)（用藍色標記），我們可以將相對於基 \(\tilde{B}, \tilde{C}\) 的對映 \(\Phi_{\tilde{C} \tilde{B}}\) 等效地表示為同態對映 \(\Phi_{\tilde{C} \tilde{B}}=\) \(\Xi_{\tilde{C} C} \circ \Phi_{C B} \circ \Psi_{B \tilde{B}}\) 的組合，其下標表示了相應的基。相應的變換矩陣用紅色標出。

定義 2.21（等價）。如果存在正則矩陣 \(S \in \mathbb{R}^{n \times n}\) 和 \(\boldsymbol{T} \in \mathbb{R}^{m \times m}\)，使得 \(\tilde{A} = T^{-1} A S\)，那麼兩個矩陣 \(\boldsymbol{A}, \tilde{A} \in \mathbb{R}^{m \times n}\) 是等價的。

定義 2.22（相似）。如果存在正則矩陣 \(S \in \mathbb{R}^{n \times n}\) 使得 \(\tilde{A} = \boldsymbol{S}^{-1} \boldsymbol{A} \boldsymbol{S}\)，那麼兩個矩陣 \(\boldsymbol{A}, \tilde{A} \in \mathbb{R}^{n \times n}\) 是相似的。

備註。相似矩陣總是等價的。然而，等價矩陣不一定是相似的。

備註。考慮向量空間 \(V, W, X\)。從定理 2.17 後的備註中我們已經知道，對於線性對映 \(\Phi: V \rightarrow W\) 和 \(\Psi: W \rightarrow X\)，對映 \(\Psi \circ \Phi: V \rightarrow X\) 也是線性的。對於相應對映的變換矩陣 \(\boldsymbol{A}_{\Phi}\) 和 \(\boldsymbol{A}_{\Psi}\)，整體變換矩陣為 \(\boldsymbol{A}_{\Psi \circ \Phi} = \boldsymbol{A}_{\Psi} \boldsymbol{A}_{\Phi}\)。

根據這一說明，我們可以從組合線性對映的角度來看待基變換：

\(\boldsymbol{A}_{\Phi}\) 是相對於基 \(B, C\) 的線性對映 \(\Phi_{C B}: V \rightarrow W\) 的變換矩陣。
\(\tilde{A}_{\Phi}\) 是相對於基 \(\tilde{B}, \tilde{C}\) 的線性對映 \(\Phi_{\tilde{C} \tilde{B}}: V \rightarrow W\) 的變換矩陣。
\(S\) 是相對於基 \(B, \tilde{B}\) 的線性對映 \(\Psi_{B \tilde{B}}: V \rightarrow V\)（自同構）的變換矩陣，它用 \(B\) 來表示 \(\tilde{B}\)。通常，\(\Psi=\mathrm{id}_V\) 是 \(V\) 中的恆等對映。
\(\boldsymbol{T}\) 是相對於基 \(C, \tilde{C}\) 的線性對映 \(\Xi_{C \tilde{C}}: W \rightarrow W\)（自同構）的變換矩陣，它用 \(C\) 來表示 \(\tilde{C}\)。通常，\(\Xi=\mathrm{id}_W\) 是 \(W\) 中的恆等對映。

如果我們（非正式地）只根據基來寫下這些變換，那麼 \(\boldsymbol{A}_{\Phi}: B \rightarrow C, \tilde{\boldsymbol{A}}_{\Phi}: \tilde{B} \rightarrow \tilde{C}, \boldsymbol{S}: \tilde{B} \rightarrow B, \boldsymbol{T}: \tilde{C} \rightarrow C\) 和 \(\boldsymbol{T}^{-1}: C \rightarrow \tilde{C}\)，並且

\[\begin{align*} \tilde{B} \rightarrow \tilde{C} & =\tilde{B} \rightarrow B \rightarrow C \rightarrow \tilde{C} \tag{2.115} \\ \tilde{\boldsymbol{A}}_{\Phi} & =\boldsymbol{T}^{-1} \boldsymbol{A}_{\Phi} \boldsymbol{S} .\tag{2.116} \end{align*} \]

注意，公式 (2.116) 中的執行順序是從右到左的，因為向量是在右側進行相乘的，所以 \(\boldsymbol{x} \mapsto \boldsymbol{S} \boldsymbol{x} \mapsto \boldsymbol{A}_{\Phi}(\boldsymbol{S} \boldsymbol{x}) \mapsto T^{-1}\left(A_{\Phi}(S x)\right)=\tilde{\boldsymbol{A}}_{\Phi} x\)。

**示例 2.24（基變換）**

考慮一個線性對映 \(\Phi: \mathbb{R}^3 \rightarrow \mathbb{R}^4\)，其變換矩陣為

\[\boldsymbol{A}_{\Phi}=\left[\begin{array}{ccc} 1 & 2 & 0 \\ -1 & 1 & 3 \\ 3 & 7 & 1 \\ -1 & 2 & 4 \end{array}\right] \tag{2.117} \]

相對於標準基

\[B=\left(\left[\begin{array}{l} 1 \\ 0 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 0 \\ 1 \end{array}\right]\right), \quad C=\left(\left[\begin{array}{l} 1 \\ 0 \\ 0 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 1 \\ 0 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 0 \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 0 \\ 0 \\ 1 \end{array}\right]\right) . \tag{2.118} \]

我們要找出相對於新基

\[\tilde{B}=\left(\left[\begin{array}{l} 1 \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 1 \\ 1 \end{array}\right],\left[\begin{array}{l} 1 \\ 0 \\ 1 \end{array}\right]\right) \in \mathbb{R}^3, \quad \tilde{C}=\left(\left[\begin{array}{l} 1 \\ 1 \\ 0 \\ 0 \end{array}\right],\left[\begin{array}{l} 1 \\ 0 \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 1 \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{l} 1 \\ 0 \\ 0 \\ 1 \end{array}\right]\right) . \tag{2.119} \]

下的變換矩陣 \(\tilde{\boldsymbol{A}}_{\Phi}\)。

則

\[\boldsymbol{S}=\left[\begin{array}{lll} 1 & 0 & 1 \\ 1 & 1 & 0 \\ 0 & 1 & 1 \end{array}\right], \quad \boldsymbol{T}=\left[\begin{array}{llll} 1 & 1 & 0 & 1 \\ 1 & 0 & 1 & 0 \\ 0 & 1 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{array}\right] \tag{2.120} \]

其中 \(S\) 的第 \(i\) 列是 \(\tilde{\boldsymbol{b}}_i\) 相對於基 \(B\) 的座標表示。由於 \(B\) 是標準基，座標表示很容易找到。對於一般基 \(B\)，我們需要解線性方程組以找到 \(\lambda_i\) 使得 \(\sum_{i=1}^3 \lambda_i \boldsymbol{b}_i=\tilde{\boldsymbol{b}}_j, j=1, \ldots, 3\)。類似地，\(T\) 的第 \(j\) 列是 \(\tilde{c}_j\) 相對於基 \(C\) 的座標表示。

因此，我們得到

\[\begin{align*} \tilde{\boldsymbol{A}}_{\Phi} & =\boldsymbol{T}^{-1} \boldsymbol{A}_{\Phi} \boldsymbol{S}=\frac{1}{2}\left[\begin{array}{cccc} 1 & 1 & -1 & -1 \\ 1 & -1 & 1 & -1 \\ -1 & 1 & 1 & 1 \\ 0 & 0 & 0 & 2 \end{array}\right]\left[\begin{array}{ccc} 3 & 2 & 1 \\ 0 & 4 & 2 \\ 10 & 8 & 4 \\ 1 & 6 & 3 \end{array}\right] \tag{2.121a} \\ & =\left[\begin{array}{ccc} -4 & -4 & -2 \\ 6 & 0 & 0 \\ 4 & 8 & 4 \\ 1 & 6 & 3 \end{array}\right] . \tag{2.121b} \end{align*} \]

在第4章中，我們將能夠利用基變換的概念找到一個基，使得自同態的變換矩陣具有特別簡單的（對角）形式。在第10章中，我們將研究一個資料壓縮問題，並找到一個方便的基，我們可以將資料投影到這個基上，同時最小化壓縮損失。

3.7.3 像和核

線性對映的像和核是具有某些重要性質的向量子空間。接下來，我們將更仔細地描述它們。

定義 2.23（像和核）。

對於 \(\Phi: V \rightarrow W\)，我們定義 核/零空間

\[\operatorname{ker}(\Phi):=\Phi^{-1}\left(\mathbf{0}_W\right)=\left\{\boldsymbol{v} \in V: \Phi(\boldsymbol{v})=\mathbf{0}_W\right\} \]

和 像/值域

\[\operatorname{Im}(\Phi):=\Phi(V)=\{\boldsymbol{w} \in W \mid \exists \boldsymbol{v} \in V: \Phi(\boldsymbol{v})=\boldsymbol{w}\} \]

我們也分別稱 \(V\) 和 \(W\) 為 \(\Phi\) 的定義域和值域。

直觀上，核是 \(\Phi\) 對映到 \(W\) 中的中性元素 \(\mathbf{0}_W \in W\) 的向量集 \(\boldsymbol{v} \in V\)。像是可以透過 \(\Phi\) 從 \(V\) 中任何向量“到達”的向量 \(\boldsymbol{w} \in W\) 的集合。圖 2.12 中給出了一個示意圖。

備註。考慮一個線性對映 \(\Phi: V \rightarrow W\)，其中 \(V, W\) 是向量空間。

\(\Phi\left(\mathbf{0}_V\right)=\mathbf{0}_W\) 總是成立，因此 \(\mathbf{0}_V \in \operatorname{ker}(\Phi)\)。特別是，零空間永遠不會為空。
\(\operatorname{Im}(\Phi) \subseteq W\) 是 \(W\) 的一個子空間，而 \(\operatorname{ker}(\Phi) \subseteq V\) 是 \(V\) 的一個子空間。
當且僅當 \(\operatorname{ker}(\Phi)=\{\mathbf{0}\}\) 時，\(\Phi\) 是單射（injective）（一一對應）。

註釋（零空間和列空間）。我們考慮 \(\boldsymbol{A} \in \mathbb{R}^{m \times n}\) 和一個線性對映 \(\Phi: \mathbb{R}^n \rightarrow \mathbb{R}^m, \boldsymbol{x} \mapsto \boldsymbol{A x}\)。

對於 \(\boldsymbol{A}=\left[\boldsymbol{a}_1, \ldots, \boldsymbol{a}_n\right]\)，其中 \(\boldsymbol{a}_i\) 是 \(\boldsymbol{A}\) 的列，我們得到

\[\begin{align*} \operatorname{Im}(\Phi) & =\left\{\boldsymbol{A} \boldsymbol{x}: \boldsymbol{x} \in \mathbb{R}^n\right\}=\left\{\sum_{i=1}^n x_i \boldsymbol{a}_i: x_1, \ldots, x_n \in \mathbb{R}\right\} \tag{2.124a} \\ & =\operatorname{span}\left[\boldsymbol{a}_1, \ldots, \boldsymbol{a}_n\right] \subseteq \mathbb{R}^m \tag{2.124b} \end{align*} \]

即，像是 \(\boldsymbol{A}\) 列的張成空間，也稱為 列空間。因此，列空間（像）是 \(\mathbb{R}^m\) 的一個子空間，其中 \(m\) 是矩陣的“高度”。

\(\operatorname{rk}(\boldsymbol{A})=\operatorname{dim}(\operatorname{Im}(\Phi))\)。
核/零空間 \(\operatorname{ker}(\Phi)\) 是齊次線性方程組（homogeneous system of linear equations） \(\boldsymbol{A x}=\mathbf{0}\) 的通解，並且包含了所有可能的 \(\mathbb{R}^n\) 中的元素的線性組合，它們產生 \(\mathbf{0} \in \mathbb{R}^m\)。
核是 \(\mathbb{R}^n\) 的一個子空間，其中 \(n\) 是矩陣的“寬度”。
核關注列之間的關係，我們可以用它來確定是否/如何將一列表示為其他列的線性組合。

**示例 2.25（線性對映的像和核）**

對映

\[\begin{align*} \Phi: \mathbb{R}^4 \rightarrow \mathbb{R}^2, \quad\left[\begin{array}{l} x_1 \\ x_2 \\ x_3 \\ x_4 \end{array}\right] & \mapsto\left[\begin{array}{cccc} 1 & 2 & -1 & 0 \\ 1 & 0 & 0 & 1 \end{array}\right]\left[\begin{array}{l} x_1 \\ x_2 \\ x_3 \\ x_4 \end{array}\right]=\left[\begin{array}{c} x_1+2 x_2-x_3 \\ x_1+x_4 \end{array}\right] \tag{2.125a} \\ & =x_1\left[\begin{array}{l} 1 \\ 1 \end{array}\right]+x_2\left[\begin{array}{l} 2 \\ 0 \end{array}\right]+x_3\left[\begin{array}{c} -1 \\ 0 \end{array}\right]+x_4\left[\begin{array}{l} 0 \\ 1 \end{array}\right] \tag{2.125b} \end{align*} \]

是線性的。為了確定 \(\operatorname{Im}(\Phi)\)，我們可以取變換矩陣列的張成空間，得到

\[\operatorname{Im}(\Phi)=\operatorname{span}\left[\left[\begin{array}{l} 1 \\ 1 \end{array}\right],\left[\begin{array}{l} 2 \\ 0 \end{array}\right],\left[\begin{array}{c} -1 \\ 0 \end{array}\right],\left[\begin{array}{l} 0 \\ 1 \end{array}\right]\right] \tag{2.126} \]

為了計算 \(\Phi\) 的核（零空間），我們需要解 \(\boldsymbol{A} \boldsymbol{x}=\mathbf{0}\)，即需要解一個齊次方程組。為此，我們使用高斯消元法將 \(\boldsymbol{A}\) 轉換為簡化行最簡形式：

\[\left[\begin{array}{cccc} 1 & 2 & -1 & 0 \\ 1 & 0 & 0 & 1 \end{array}\right] \rightsquigarrow \cdots \rightsquigarrow\left[\begin{array}{cccc} 1 & 0 & 0 & 1 \\ 0 & 1 & -\frac{1}{2} & -\frac{1}{2} \end{array}\right] . \tag{2.127} \]

這個矩陣是簡化行最簡形式，我們可以使用 Minus 1 Trick 計算核的一個基（參見第 2.3.3 節）。或者，我們可以將非主元列（第 3 列和第 4 列）表示為主元列（第 1 列和第 2 列）的線性組合。第三列 \(\boldsymbol{a}_3\) 等於 \(-\frac{1}{2}\) 倍的第二列 \(\boldsymbol{a}_2\)。因此，\(\mathbf{0}=\boldsymbol{a}_3+\frac{1}{2} \boldsymbol{a}_2\)。同樣地，我們看到 \(\boldsymbol{a}_4=\boldsymbol{a}_1-\frac{1}{2} \boldsymbol{a}_2\)，因此 \(\mathbf{0}=\boldsymbol{a}_1-\frac{1}{2} \boldsymbol{a}_2-\boldsymbol{a}_4\)。總的來說，這給出了核（零空間）為

\[\operatorname{ker}(\Phi)=\operatorname{span}[\left[\begin{array}{l} 0 \\ \frac{1}{2} \\ 1 \\ 0 \end{array}\right],\left[\begin{array}{c} -1 \\ \frac{1}{2} \\ 0 \\ 1 \end{array}\right]] \tag{2.128} \]

定理 2.24（秩-零化度定理）。對於 向量空間 \(V\) 和 \(W\) 以及 線性對映 \(\Phi: V \rightarrow W\)，有

\[\operatorname{dim}(\operatorname{ker}(\Phi))+\operatorname{dim}(\operatorname{Im}(\Phi))=\operatorname{dim}(V) . \tag{2.129} \]

秩-零化度定理也被稱為線性對映的基本定理（Axler, 2015, 定理 3.22）。以下是定理 2.24 的直接推論：

如果 \(\operatorname{dim}(\operatorname{Im}(\Phi)) < \operatorname{dim}(V)\)，則 \(\operatorname{ker}(\Phi)\) 是非平凡的，即核包含除了 \(\mathbf{0}_V\) 之外的元素，且 \(\operatorname{dim}(\operatorname{ker}(\Phi)) \geqslant 1\)。
如果 \(\boldsymbol{A}_{\Phi}\) 是相對於某個有序基的 \(\Phi\) 的變換矩陣，並且 \(\operatorname{dim}(\operatorname{Im}(\Phi)) < \operatorname{dim}(V)\)，則線性方程組 \(\boldsymbol{A}_{\Phi} \boldsymbol{x} = \mathbf{0}\) 有無窮多解。
如果 \(\operatorname{dim}(V) = \operatorname{dim}(W)\)，則以下三者等價：

\[\Phi \text{ 是單射 } \Longleftrightarrow \Phi \text{ 是滿射 } \Longleftrightarrow \Phi \text{ 是雙射 } \]

因為 \(\operatorname{Im}(\Phi) \subseteq W\)。

閱讀翻譯Mathematics for Machine Learning之2.5 Linear Independence
2024-07-18
Mac
閱讀翻譯Mathematics for Machine Learning之2.8 Affine Subspaces
2024-07-24
Mac
閱讀翻譯Mathematics for Machine Learning之2.6 Generating Set and Basis
2024-07-19
Mac
Extreme Learning Machine 翻譯
2019-01-20
REMMac
Machine Learning (1) - Linear Regression
2019-04-14
Mac
論文閱讀翻譯之Deep reinforcement learning from human preferences
2024-09-11
論文閱讀：《Learning by abstraction: The neural state machine》
2022-04-10
Mac
Machine Learning Mastery 部落格文章翻譯：深度學習與 Keras
2019-04-11
MacAST深度學習Keras
Mathematics for Machine Learning--學習筆記(線性代數篇)
2020-10-23
Mac筆記
[翻譯] TensorFlow 分散式之論文篇 "TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Systems"
2022-03-12
分散式Mac
閱讀翻譯Prompting Engineering Guides之Introduction（提示工程簡介）
2024-07-19
GUIIDE
2006考研閱讀Text2翻譯
2018-08-10
閱讀翻譯Hugging Face Community Computer Vision Course之Feature Matching （特徵匹配）
2024-07-20
Hugging FaceUnity特徵
《machine learning》引言
2020-10-13
Mac
Machine Learning with Sklearn
2020-12-11
Mac
【題解】程式設計作業ex5: Regularized Linear Regression and Bias/Variance (Machine Learning)
2020-10-09
程式設計ZedMac
Machine Learning (12) - Support Vector Machine (SVM)
2019-06-10
Mac
Machine Learning－Introduction
2019-04-03
Mac
Machine Learning - Basic points
2020-01-17
Mac
閱讀論文：《Compositional Attention Networks for Machine Reasoning》
2022-04-10
Mac
翻譯 | Learning React Without Using React Part 2
2019-02-24
React
翻譯 | Learning React Without Using React Part 1
2018-12-20
React
pages bookmarks for machine learning domain
2018-12-05
MacAI
Machine Learning（13）- Random Forest
2019-06-12
MacrandomREST
Machine Learning (10) - Decision Tree
2019-06-09
Mac
Machine learning terms_01
2021-04-07
Mac
Deep Transfer Learning綜述閱讀筆記
2023-03-24
筆記
論文閱讀 Inductive Representation Learning on Temporal Graphs
2022-07-11
Machine Learning (5) - Training and Testing Data
2019-06-06
MacAI
SciTech-BigDataAIML-Machine Learning Tutorials
2024-08-12
AIMac
[論文閱讀] 顏色遷移-Linear Monge-Kantorovitch(MKL)
2022-12-04
推薦VSCode註釋翻譯外掛，方便快速閱讀原始碼
2019-04-16
VSCode原始碼
QGRL: Quaternion Graph Representation Learning for Heterogeneous Feature Data Clustering翻譯
2024-12-08
《深度學習》PDF Deep Learning: Adaptive Computation and Machine Learning series
2019-12-17
深度學習APTMac
論文閱讀-Causality Inspired Representation Learning for Domain Generalization
2024-04-09
AI
Flux 深度解讀(翻譯)
2019-03-04
UX
Machine Learning Yearning 要點筆記
2018-10-24
Mac筆記
Machine Learning（14） - K Fold Cross Validation
2019-06-18
MacROS

閱讀翻譯Mathematics for Machine Learning之2.7 Linear Mappings

閱讀翻譯Mathematics for Machine Learning之2.7 Linear Mappings

關於：

2.7 線性對映

2.7.1 線性對映的矩陣表示

2.7.2 基變換

3.7.3 像和核

相關文章