Chapter 1:多元統計分析基礎
一、隨機向量
Part 1:隨機向量的分佈
聯合分佈函式:設 \(X=\left(X_1,X_2,\cdots,X_p\right)'\) 是一個 \(p\) 維隨機向量,定義 \(p\) 元函式
稱 \(F(x_1,x_2,\cdots,x_p)\) 為 \(X\) 的聯合分佈函式。
聯合密度函式:如果存在一個 \(p\) 元非負函式 \(f(x_1,x_2,\cdots,x_p)\) ,使得對一切 \((x_1,x_2,\cdots,x_p)\) 都有
則稱 \(f(x_1,x_2,\cdots,x_p)\) 為 \(X\) 的聯合密度函式。
邊際密度函式:設 \(X^{(1)}\) 為 \(r\) 維隨機向量,\(X^{(2)}\) 為 \(p-r\) 為隨機向量,且 \(X^{(1)}\) 和 \(X^{(2)}\) 都是隨機向量 \(X\) 的部分分量,滿足
定義 \(X^{(1)}\) 的邊際密度函式為
定義 \(X^{(2)}\) 的邊際密度函式為
條件密度函式:當 \(X\) 的密度函式可以寫為 \(f(x^{(1)},x^{(2)})\) 時,定義給定 \(X^{(2)}\) 時 \(X^{(1)}\) 的條件密度函式為
分量的獨立性:設 \(X_1,X_2,\cdots,X_p\) 是 \(p\) 個隨機變數,則 \(X_1,X_2,\cdots,X_p\) 相互獨立當且僅當
若 \(X=\left(X_1,X_2,\cdots,X_p\right)'\) 的聯合密度函式及其各個分量的密度函式均存在,則 \(X_1,X_2,\cdots,X_p\) 相互獨立當且僅當
Part 2:隨機向量的數字特徵
隨機向量的均值向量:設 \(X=(X_1,X_2,\cdots,X_p)'\) 是一個 \(p\) 維隨機向量,如果對 \(X\) 的任何分量 \(X_i\) 都有均值 \({\rm E}(X_i)=\mu_i\) 存在,則定義隨機向量 \(X\) 的均值向量為
隨機向量的協方差陣:設 \(X=(X_1,X_2,\cdots,X_p)'\) 是一個 \(p\) 維隨機向量,如果對 \(X\) 的任何兩個分量 \(X_i\) 和 \(X_j\) 都有協方差 \({\rm Cov}(X_i,X_j)=\sigma_{ij}\) 存在,則定義隨機向量 \(X\) 的協方差陣為
隨機向量的相關係數矩陣:設 \(X=(X_1,X_2,\cdots,X_p)'\) 是一個 \(p\) 維隨機向量,若 \(X\) 的協方差陣 \(\Sigma=\left(\sigma_{ij}\right)_{p\times p}\) 存在,則定義隨機向量 \(X\) 的相關係數矩陣為:
其中
如果記 \(V^{1/2}={\rm diag}\left(\sqrt{\sigma_{11}},\sqrt{\sigma_{22}},\cdots,\sqrt{\sigma_{pp}}\right)\) 為 \(X\) 的標準差矩陣,則協方差陣和相關係數矩陣的關係為
兩個隨機向量的協方差陣:設 \(X=(X_1,X_2,\cdots,X_p)'\) 和 \(Y=(Y_1,Y_2,\cdots,Y_q)'\) 是兩個隨機向量,如果對 \(X\) 的任何分量 \(X_i\) 和 \(Y\) 的任何分量 \(Y_j\) 都有協方差 \({\rm Cov}(X_i,Y_j)=\sigma_{ij}\) 存在,則定義隨機向量 \(X\) 和 \(Y\) 的協方差陣為
如果 \({\rm Cov}(X,Y)=O_{p\times q}\) ,則稱 \(X\) 和 \(Y\) 不相關。
Part 3:隨機向量的數字特徵的性質
關於線性變換的運算性質:設 \(X=(X_1,X_2,\cdots,X_p)'\) 和 \(Y=(Y_1,Y_2,\cdots,Y_q)'\) 是兩個隨機向量,矩陣 \(A\) 和矩陣 \(B\) 是任意常數矩陣,則有
獨立包含不相關的性質:若 \(X\) 和 \(Y\) 相互獨立,則一定有 \({\rm Cov}(X,Y)=O_{p\times q}\) 成立,反之不然。
協方差陣的對稱非負定性:對任意的隨機向量 \(X=(X_1,X_2,\cdots,X_p)'\) ,其協方差陣 \(\Sigma\) 是對稱非負定矩陣,即對 \(\forall a\in \mathbb{R}^{p}\) ,有 \(a'\Sigma a={\rm Var}\left(a'X\right)\geq0\) 。
協方差陣的平方根性質:\(\Sigma=L^2\) ,其中 \(L\) 是非負定矩陣,當 \(\Sigma>0\) 時,則有 \(L>0\) ,此時將矩陣 \(L\) 稱為 \(\Sigma\) 的平方根矩陣。如果將 \(\Sigma\) 正交分解為 \(\Sigma=\Gamma\Lambda\Gamma'\) ,其中 \(\Gamma\) 是正交矩陣,\(\Lambda\) 是 \(\Sigma\) 的特徵值對角陣,則 \(\Sigma\) 的平方根矩陣 \(L=\Gamma\Lambda^{1/2}\Gamma'\) 。
二、矩陣代數
Part 1:正交矩陣
定義:設 \(A\) 為 \(n\) 階方陣,如果 \(A'A=AA'=I_n\) ,則稱 \(A\) 為正交矩陣,且有 \(A^{-1}=A'\) 。
性質 1:設 \(A\) 為 \(n\) 階正交矩陣,則 \(|A|=\pm1\) 。
因為 \(\left|AA'\right|=|I_n|=1\) ,又因為 \(\left|AA'\right|=|A|^2\) ,所以 \(|A|=\pm1\) 。
性質 2:若 \(A\) 為 \(n\) 階正交矩陣,則 \(A',A^{-1}\) 也是正交矩陣。
因為 \(\left(A'\right)'\left(A'\right)=AA'=I_n\) ,所以 \(A'\) 是正交矩陣。
因為 \(A^{-1}=A'\) ,所以 \(A^{-1}\) 是正交矩陣。
性質 3:若 \(A\) 和 \(B\) 均為 \(n\) 階正交矩陣,則 \(AB\) 和 \(BA\) 都是正交矩陣。
因為 \((AB)'(AB)=B'A'AB=B'B=I_n\) ,所以 \(AB\) 是正交矩陣。
因為 \((BA)'(BA)=A'B'BA=A'A=I_n\) ,所以 \(BA\) 是正交矩陣。
定義:設 \(Q\) 為 \(n\) 階正交矩陣,則稱線性變換 \(y=Qx\) 為一個正交變換。
性質 4:正交變換不改變向量的內積和長度,稱為正交變換的不變性。
設 \(x_1\) 和 \(x_2\) 是任意兩個 \(n\) 維向量,\(Q\) 是正交矩陣,若 \(y=Qx\) 是正交變換:
對於正交變換 \(y_1=Qx_1\) 和 \(y_2=Qx_2\) 的內積,有
\[y_1'y_2=(Qx_1)'(Qx_2)=x_1'Q'Qx_2=x_1'x_2 \ . \]對於正交變換 \(y_1=Qx_1\) 的長度,有
\[|y_1|=|Qx_1|=\sqrt{(Qx_1)'(Qx_1)}=\sqrt{x_1'Q'Q_1x}=\sqrt{x_1'x_1}=|x_1| \ . \]
Part 2:矩陣的跡
定義:設 \(A\) 為 \(n\) 階方陣,則它的對角線元素之和稱為 \(A\) 的跡,記為 \({\rm tr}(A)\) ,即
性質 1:設 \(A\) 為 \(n\) 階方陣,則 \({\rm tr}(A)={\rm tr}\left(A'\right)\) 。
性質 2:設 \(A\) 為 \(n\) 階方陣,\(c\) 是一個常數,則 \({\rm tr}(cA)=c\cdot{\rm tr}(A)\) 。
性質 3:設 \(A\) 和 \(B\) 是兩個 \(n\) 階方陣,則 \({\rm tr}(A+B)={\rm tr}(A)+{\rm tr}(B)\) 。
性質 4:設 \(A_{k},\,k=1,2,\cdots,p\) 是 \(p\) 個 \(n\) 階方陣,則 \({\rm tr}\left(\displaystyle\sum_{k=1}^pA_{k}\right)=\displaystyle\sum_{k=1}^p{\rm tr}\left(A_{k}\right)\) 。
以上 \(4\) 條性質利用跡的定義即可證明。
性質 5:設 \(A\) 是一個 \(m\times n\) 的矩陣,\(B\) 是一個 \(n\times m\) 的矩陣,則 \({\rm tr}(AB)={\rm tr}(BA)\) 。
設矩陣 \(A\) 和 \(B\) 可以表示為
\[A=\left[\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \\ \end{array}\right] \ , \quad B=\left[\begin{array}{cccc} b_{11} & b_{12} & \cdots & b_{1m} \\ b_{21} & b_{22} & \cdots & b_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ b_{n1} & b_{n2} & \cdots & b_{nm} \\ \end{array}\right] \ . \]設 \(C=AB=(c_{ij})_{m\times m},\,D=BA=(d_{ij})_{n\times n}\) ,於是
\[c_{ii}=\sum_{j=1}^na_{ij}b_{ji} \ , \quad d_{jj}=\sum_{i=1}^mb_{ji}a_{ij} \ . \]由跡的定義可知
\[\begin{aligned} &{\rm tr}(AB)={\rm tr}(C)=\sum_{i=1}^mc_{ii}=\sum_{i=1}^m\left(\sum_{j=1}^na_{ij}b_{ji}\right)=\sum_{i=1}^m\sum_{j=1}^na_{ij}b_{ji} \ , \\ \\ &{\rm tr}(BA)={\rm tr}(D)=\sum_{j=1}^nd_{jj}=\sum_{j=1}^n\left(\sum_{i=1}^mb_{ji}a_{ij}\right)=\sum_{j=1}^n\sum_{i=1}^mb_{ji}a_{ij} \ , \end{aligned} \]對比兩式即可得到 \({\rm tr}(AB)={\rm tr}(BA)\) 。
性質 6:一個矩陣的跡等於該矩陣的特徵值之和。
設 \(A\) 為 \(n\) 階方陣,設 \(\lambda_1,\lambda_2,\cdots,\lambda_n\) 是 \(A\) 的特徵值,下證 \({\rm tr}(A)=\lambda_1+\lambda_2+\cdots+\lambda_n\) 。
由特徵值的定義,可以寫出矩陣 \(A\) 的特徵方程:
\[|\lambda I_n-A|=\left|\begin{array}{cccc} \lambda-a_{11} & -a_{12} & \cdots & -a_{1n} \\ -a_{21} & \lambda-a_{22} & \cdots & -a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ -a_{n1} & -a_{n2} & \cdots & \lambda-a_{nn} \end{array}\right|=0 \ . \]上式是一個關於 \(\lambda\) 的一元 \(n\) 次方程,等式左端是一個關於 \(\lambda\) 的 \(n\) 次多項式,稱為方陣 \(A\) 的特徵多項式。矩陣 \(A\) 的特徵值就是該特徵方程的解。
把特徵方程寫為:\(b_0+\displaystyle\sum_{j=1}^nb_j\lambda^j=0\) ,其中 \(b_j\) 是 \(j\) 次項係數,由韋達定理知:
\[\displaystyle\sum_{j=1}^n\lambda_j=-\dfrac{b_{n-1}}{b_n} \ . \]由行列式的定義知,行列式是不同行不同列的項的乘積之和。由於特徵方程中除了主對角線的乘積之外,\(\lambda\) 的次數都小於 \(n-1\) ,於是 \(b_n\) 和 \(b_{n-1}\) 分別為 \((\lambda-a_{11})(\lambda-a_{22})\cdots(\lambda-a_{nn})\) 中 \(\lambda^n\) 和 \(\lambda^{n-1}\) 的係數,所以 \(b_n=1,\,b_{n-1}=-(a_{11}+a_{22}+\cdots+a_{nn})\) 。代入即得
\[\sum_{j=1}^n\lambda_j=a_{11}+a_{22}+\cdots+a_{nn}={\rm tr}(A) \ . \]
性質 7:若 \(A\) 為對稱冪等矩陣,則 \({\rm tr}(A)={\rm rank}(A)\) 。
設 \(A\) 為 \(n\) 階對稱冪等矩陣,有 \(A'=A\) ,所以存在對角矩陣 \(\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n)\) 和正交矩陣 \(Q\) ,使得 \(A=Q'\Lambda Q\) ,且有
\[{\rm rank}(A)={\rm rank}\left(Q'\Lambda Q\right)={\rm rank}(\Lambda) \ . \]又因為冪等矩陣的特徵值只能為 \(0\) 或 \(1\) ,所以 \({\rm rank}(\Lambda)\) 等於特徵值中 \(1\) 的個數,即為 \(A\) 的特徵值之和。由性質 \(6\) 知,\({\rm tr}(A)\) 等於 \(A\) 的特徵值之和,所以 \({\rm tr}(A)={\rm rank}(A)\) 。
三、矩陣微商
Part 1:一元自變數的矩陣微商
定義:設 \(y=(y_1,y_2,\cdots,y_q)'\) 是變數 \(x\) 的向量函式,則記
即 \(q\) 維向量 \(y\) 對一元變數 \(x\) 的導數仍然是 \(q\) 維向量,稱為 \(y\) 對 \(x\) 的導數向量。
定義:設 \(Y=F(x)\) 是變數 \(x\) 的矩陣函式,其中 \(Y=(y_{ij})_{p\times q}\) 是一個 \(p\times q\) 的矩陣,則記
即 \(p\times q\) 的矩陣 \(Y\) 對一元變數 \(x\) 的導數仍然是 \(p\times q\) 的矩陣,稱為 \(Y\) 對 \(x\) 的導數矩陣。
Part 2:多元自變數的矩陣微商
定義:設 \(y=f(x)\) 是向量 \(x=(x_1,x_2,\cdots,x_p)'\) 的一元函式,則記
即一元函式 \(f(x)\) 對 \(p\) 維向量 \(x\) 的導數仍然是 \(p\) 維向量,稱為 \(y\) 對 \(x\) 的偏導數向量。
定義:設 \(y=(y_1,y_2,\cdots,y_q)'\) 是向量 \(x=(x_1,x_2,\cdots,x_p)'\) 的 \(q\) 維向量函式,即 \(y_i=f_i(x)\) ,則記
即 \(q\) 維向量函式 \(y\) 對 \(p\) 維向量 \(x\) 的導數是一個 \(p\times q\) 的矩陣,稱為 \(y\) 對 \(x\) 的偏導數矩陣,又稱為 \(y\) 對 \(x\) 的雅可比矩陣。
Part 3:矩陣微商的性質
首先定義如下的矩陣和向量:
於是有如下常用的矩陣求導公式:
線性組合對向量求導:
把線性組合看作向量 \(x\) 的一元函式,有
\[\beta'x=x'\beta=\beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n \ . \]由矩陣微商的定義可得
\[\frac{\partial \beta'x}{\partial x}=\frac{\partial x'\beta}{\partial x}=\left(\beta_1,\beta_2,\cdots,\beta_n\right)' =\beta \ . \]
二次型對向量求導:
若 \(A\) 是一個實對稱矩陣,則有
若 \(A\) 是一個單位矩陣,則有
把二次型看作向量 \(x\) 的一元函式,有
\[x'Ax=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_{i}x_{j} \ . \]首先對分量 \(x_i\) 求導有
\[\frac{\partial x'Ax}{\partial x_i}=\frac{\partial }{\partial x_i}\sum_{i=1}^n\sum_{j=1}^na_{ij}x_{i}x_{j}=\sum_{j=1}^na_{ij}x_j+\sum_{j=1}^na_{ji}x_j=x'a_{i\cdot}' +x'a_{\cdot i} \ . \]由矩陣微商的定義可得
\[\begin{aligned} \frac{\partial x'Ax}{\partial x}&=\left(\frac{\partial x'Ax}{\partial x_1},\frac{\partial x'Ax}{\partial x_2}\cdots,\frac{\partial x'Ax}{\partial x_n}\right)' \\ \\ &=\left(x'\left(a_{1\cdot}'+a_{\cdot 1}\right),x'\left(a_{2\cdot}'+a_{\cdot 2}\right),\cdots,x'\left(a_{n\cdot}'+a_{\cdot n}\right)\right)' \\ \\ &=\left(x'\left(A'+A\right)\right)' \\ \\ &=\left(A+A'\right)x \ . \end{aligned} \]
線性變換對向量求導:
設 \(y=\left(y_1,y_2,\cdots,y_m\right)'=Bx\) ,則有
\[y_i=\sum_{j=1}^nb_{ij}x_j \ . \]由矩陣微商的定義可得
\[\frac{\partial Bx}{\partial x}=\frac{\partial y}{\partial x}=\left[\begin{array}{cccc} \dfrac{\partial y_1}{\partial x_1} & \dfrac{\partial y_2}{\partial x_1} &\cdots &\dfrac{\partial y_q}{\partial x_1} \\ \dfrac{\partial y_1}{\partial x_2} & \dfrac{\partial y_2}{\partial x_2} &\cdots& \dfrac{\partial y_q}{\partial x_2} \\ \vdots & \vdots & \ddots & \vdots \\ \dfrac{\partial y_1}{\partial x_p} & \dfrac{\partial y_2}{\partial x_p} &\cdots& \dfrac{\partial y_q}{\partial x_p} \\ \end{array}\right]=\left[\begin{array}{cccc} b_{11} & b_{21} &\cdots & b_{m1} \\ b_{12} & b_{22} &\cdots & b_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ b_{1n} & b_{2n} &\cdots & b_{mn} \\ \end{array}\right]=B' \ . \]