1. 習題一(multi-dimension PCA)
符號表示:
\[\text{Cov}(x) = \frac{1}{N} \sum (x_i - \bar{x})(x_i - \bar{x})^T
\]
在一維 PCA 降維中,我們有:
\[x_i \approx \bar{x} + \xi_1^T (x_i - \bar{x})\xi_1
\]
(a)
令\(y_i = x_i - \xi_1^T (x_i - \bar{x})\xi_1\), 已知\(\text{Cov}(x) = \sum \lambda_i \xi_i \xi_i^T\),則有:
\(\bar{y}\)可以表示為
\[\bar{y} = \frac{1}{N} \sum (x_i - \xi_1^T (x_i - \bar{x})\xi_1) = \bar{x} - \xi_1^T (\bar{x} - \bar{x})\xi_1 = \bar{x}
\]
同時由 ONB 特徵向量定義,可得
\[x_i - \bar{x} = \sum_{j=1}^D \xi_j^T (x_i - \bar{x})\xi_j
\]
於是,有
\[\text{Cov}(y) = \frac{1}{N} \sum_{i=1}^N (\sum_{j=2}^D \xi_j^T (x_i - \bar{x})\xi_j)(\sum_{j=2}^D \xi_j^T (x_i - \bar{x})\xi_j)^T
\]
其中內部求和部分為
\[\frac{1}{N} \sum_{i=1}^N \sum_{j=2}^D \sum_{k=2}^D (\xi_j^T (x_i - \bar{x})) (\xi_k^T (x_i - \bar{x})) \xi_j \xi_k^T \\
= \sum_{j=2}^D \sum_{k=2}^D \xi_j \xi_j^T \frac{1}{N} \sum_{i=1}^N (x_i - \bar{x}) (x_i - \bar{x})^T \xi_k^T \xi_k^T\\=
\sum_{j=2}^D \sum_{k=2}^D \xi_j \xi_j^T \text{Cov}(x) \xi_k \xi_k^T \\=
\sum_{j=2}^D \sum_{k=2}^D \xi_j \xi_j^T \lambda_k \xi_k \xi_k^T = \sum_{j=2}^D \lambda_j \xi_j \xi_j^T
\]
因此,在多維 PCA 降維中,\(\text{Cov}(y) = \sum_{j=2}^D \xi_j \xi_j^T\),即在降\(p\)維後,剩下的資料繼續降維會沿著剩餘特徵值最大的方向。
(b)
驗證(a)中的結論
2 習題二(瑞利商)
給定\(S_B\)與\(S_W\)為兩個\(n\times n\)的實對稱矩陣,若存在\(\lambda\)使得\(S_Bw= \lambda S_W w\)則稱\(\lambda\)為廣義特徵值。
(a)
求廣義特徵向量之間帶權正交,即證明\(i=j\)時,\(w_i^TS_Ww_j = 1\),否則為 0
對於 cholesky 分解,假設\(S_W\)是real symmetric positive definite matrix
,有\(S_W = LL^T\),則有
\[S_Bw= \lambda LL^T w
\]
其中 L 為滿秩矩陣,因此有
\[L^{-1}SL^{-T}L^Tw = \lambda L^Tw
\]
由於\(L^{-1}SL^{-T}\)是對稱矩陣,因此有\(L^Tw\)是一組 ONB,其中
\[w^T L L^T w = w^T S_W w = 1
\]
(b)
求廣義瑞利商\(J(w) = \frac{w^T S_B w}{w^T S_W w}\)的最大值
沿用上一問的假設與結論,有\(w = \sum_i^D \alpha_i w_i\),其中的\(w_i\) 為 orthogonormal basis, 於是有
\[J(w) = \frac{w^T S_B w}{w^T S_W w} = \frac{\sum_i^D \alpha_i^2 \lambda_i}{\sum_i^D \alpha_i^2}
\]
最佳化問題可以定義為
\[\sum_i^D \alpha_i^2 \lambda_i \to \max/\min, \\\quad s.t. \sum_i^D \alpha_i^2 = 1
\]
於是可知,\(\max J(w) = \lambda_1\), \(\min J(w) = \lambda_n\)