多元統計分析02:多元正態分佈的定義和性質

李旭東東東東東阿東發表於2021-10-21

Chapter 2 多元正態分佈的定義和性質

一、多元正態分佈的定義和基本性質

Part 1:標準正態的線性變換

定義 1:設 \(U=(U_1,U_2,\cdots,U_q)'\) 為隨機向量,\(U_1,U_2,\cdots,U_q\) 相互獨立且同 \(N(0,1)\) 分佈。設 \(\mu\)\(p\) 維常數向量,\(A\)\(p\times q\) 常數矩陣,則稱 \(X=AU+\mu\) 的分佈為 \(p\) 元正態分佈,稱 \(X\)\(p\) 維正態隨機向量,記為 \(X\sim N_p\left(\mu,AA'\right)\)

在上述定義中,多元正態分佈被表示為一些相互獨立的標準正態隨機變數的一些線性組合所構成的隨機向量的分佈。顯然有

\[{\rm E}(U)=0 \ , \quad {\rm Var}(U)=I_{q} \ . \]

由隨機向量線性變換的性質可得

\[\begin{aligned} & {\rm E}(X)={\rm E}(AU+\mu)=A{\rm E}(U)+\mu=\mu \ . \\ \\ & {\rm Var}(X)={\rm Var}(AU+\mu)=A{\rm Var}(U)A'=AA' \ . \end{aligned} \]

所以,多元正態分佈 \(N_p\left(\mu,AA'\right)\) 中的兩個引數分別是隨機向量的均值向量和協方差陣。

性質 1:設 \(U=(U_1,U_2,\cdots,U_q)'\) 為獨立同分布的標準正態隨機向量,令 \(X=AU+\mu\) 得到的隨機向量 \(X\) 的特徵函式為

\[\Phi_X(t)=\exp\left\{it'\mu-\frac12t'AA't\right\} \ . \]

首先考慮一元標準正態分佈的特徵函式為

\[\Phi_{U_i}(t_i)={\rm E}\left[e^{it_iU_i}\right]=\exp\left\{-\frac12t_i^2\right\} \ . \]

由獨立性可知

\[\Phi_U(t)={\rm E}\left[e^{it'U}\right]=\exp\left\{-\frac12\sum_{i=1}^qt_i^2\right\}=\exp\left\{-\frac12t't\right\} \ . \]

進而根據隨機向量 \(X\) 的定義可知

\[\begin{aligned} \Phi_X(t)&={\rm E}\left[e^{it'X}\right]={\rm E}\left[e^{it'(AU+\mu)}\right] \\ \\ &=\exp\left\{it'\mu\right\}\cdot{\rm E}\left[e^{it'AU}\right] \\ \\ &=\exp\left\{it'\mu\right\}\cdot{\rm E}\left[e^{i(A't)'U}\right] \\ \\ &=\exp\left\{it'\mu\right\}\cdot\exp\left\{-\frac12(A't)'(A't)\right\} \\ \\ &=\exp\left\{it'\mu-\frac12t'AA't\right\} \ . \end{aligned} \]

Part 2:由特徵函式定義

定義 2:如果 \(p\) 維隨機向量 \(X\) 的特徵函式形如

\[\Phi_X(t)=\exp\left\{it'\mu-\frac12t'\Sigma t\right\} \ , \quad \Sigma\geq0 \ , \]

則稱 \(X\) 服從 \(p\) 元正態分佈,記為 \(X\sim N_p(\mu,\Sigma)\) ,其中 \(\mu\)\(\Sigma\) 分別為均值向量和協方差陣。

從特徵函式的定義可以看出,如果 \(X\) 服從 \(p\) 元正態分佈,則 \(X\) 的分佈可以由其均值向量 \(\mu\) 和協方差陣 \(\Sigma\) 兩個引數唯一確定。

性質 2:設 \(X\sim N_p(\mu,\Sigma)\) ,如果對 \(X\) 作線性變換,即令 \(Y=BX+d\) ,其中 \(B\)\(s\times p\) 的常數矩陣,\(d\)\(s\) 維常數向量,則 \(Y\sim N_s(B\mu+d,B\Sigma B')\)

因為 \(\Sigma\) 非負定,所以 \(\Sigma\) 可分解為 \(\Sigma=AA'\) ,其中 \(A\)\(p\times q\) 的實矩陣。

由第一種定義知 \(X\xlongequal{d}AU+\mu\) ,經線性變換處理後得到

\[Y=BX+d\xlongequal{d}B(AU+\mu)+d=BAU+B\mu+d \ , \]

從而有

\[{\rm E}(Y)=B\mu+d \ , \quad {\rm Var}(Y)=(BA)(BA)'=BAA'B'=B\Sigma B' \ . \]

再由第一種定義知

\[Y\sim N_s(B\mu+d,B\Sigma B') \ . \]

該性質說明:正態隨機向量經任意線性變換後得到的仍然是正態隨機向量。

推論:設 \(X=\left[\begin{array}{c} X^{(1)} \\ X^{(2)} \end{array}\right]\begin{array}{l} r \\ p-r \end{array}\sim N_p(\mu,\Sigma)\) ,將 \(\mu\)\(\Sigma\) 剖分為

\[\mu=\left[\begin{array}{c} \mu^{(1)} \\ \mu^{(2)} \end{array}\right]\begin{array}{l} r \\ p-r \end{array} \ , \quad \Sigma=\left[\begin{array}{c:c} \Sigma_{11} & \Sigma_{12} \\ \hdashline \Sigma_{21} & \Sigma_{22} \end{array}\right]\begin{array}{l} r \\ p-r \end{array} \ , \]

則有 \(X^{(1)}\sim N_r\left(\mu^{(1)},\Sigma_{11}\right),\,X^{(2)}\sim N_{p-r}\left(\mu^{(2)},\Sigma_{22}\right)\)

\(B_1=(I_r,O),\,d_1=0\)\(B_2=(O,I_{p-r}),\,d_2=0\) ,其中 \(d_1\)\(d_2\) 分別為 \(r\) 維和 \(p-r\) 維的零向量,由性質 2 可得

\[\begin{aligned} &X^{(1)}=B_1X+d_1\sim N_r\left(\mu^{(1)},\Sigma_{11}\right) \ , \\ \\ &X^{(2)}=B_2X+d_2\sim N_{p-r}\left(\mu^{(2)},\Sigma_{22}\right) \ . \end{aligned} \]

該推論說明,多元正態分佈的邊緣分佈仍為正態分佈,反之不一定成立。

Part 3:任意線性組合為正態隨機變數

定義 3:如果 \(p\) 維隨機向量 \(X\) 的任意線性組合均服從一元正態分佈,則稱 \(X\)\(p\) 維正態隨機向量。

這裡我們必須給出多元正態分佈第三種定義的合理性說明,也就是說,我們需要證明第三種定義與前兩種定義等價。我們有下面的性質。

性質 3:設 \(X\)\(p\) 維隨機向量,則 \(X\) 服從 \(p\) 元正態分佈等價於對任一 \(p\) 維實向量 \(a\) ,有 \(\xi=a'X\) 服從一維正態分佈。

必要性:如果 \(X\sim N_p(\mu,\Sigma)\) ,取 \(B=a',\,d=0\) ,由性質 2 即得

\[\xi=a'X=\sum_{j=1}^pa_jX_j\sim N\left(a'\mu,a'\Sigma a\right) \ . \]

充分性:如果對任意的實向量 \(a\in\mathbb{R}^p\) ,都有 \(\xi=a'X\) 為一維正態隨機變數,則 \(\xi\) 的各階矩存在,進而 \(X\) 的均值和協方差存在,分別記為 \(\mu\)\(\Sigma\)

對任意給定的 \(t\in\mathbb{R}^p\) ,有 \(\xi=t'X\sim N\left(t'\mu,t'\Sigma t\right)\) ,且 \(\xi\) 的特徵函式為

\[\Phi_\xi(s)={\rm E}\left[e^{is\xi}\right]=\exp\left\{is(t'\mu)-\frac12s^2(t'\Sigma t)\right\} \ . \]

\(s=1\) 則有

\[\Phi_\xi(1)={\rm E}\left[e^{i\xi}\right]={\rm E}\left[e^{it'X}\right]=\Phi_X(t)=\exp\left\{it'\mu-\frac12t'\Sigma t\right\} \ . \]

由實向量 \(t\) 的任意性和第二種定義可知,\(X\sim N_p(\mu,\Sigma)\)

Part 4:由聯合密度函式定義

定義 4:如果 \(p\) 維隨機向量 \(X\) 的聯合密度函式為

\[f(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac12(x-\mu)'\Sigma^{-1}(x-\mu)\right\} \ , \]

其中 \(\mu\)\(p\) 維實向量,注意 \(\Sigma\)\(p\) 階正定矩陣,則稱 \(X\) 服從非退化的 \(p\) 元正態分佈,或稱 \(X\)\(p\) 維正態隨機向量,記為 \(X\sim N_p(\mu,\Sigma)\)

類似地,我們通過證明以下的性質,從而說明多元正態分佈的第四種定義是合理的。

性質 4:設 \(X\sim N_p(\mu,\Sigma)\) ,且 \(\Sigma\)​ 是正定矩陣,則 \(X\) 的聯合密度函式為

\[f(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac12(x-\mu)'\Sigma^{-1}(x-\mu)\right\} \ . \]

由於 \(\Sigma>0\)\({\rm rank}(\Sigma)=p\) ,故存在 \(p\) 階非奇異方陣 \(A\) 使得 \(\Sigma=AA'\) ,且有

\[X\xlongequal{d}AU+\mu \ . \]

其中 \(U=(U_1,U_2,\cdots,U_p)'\)​ 是相互獨立的標準正態分佈隨機向量。故 \(U\) 的聯合密度函式為

\[f_U(u)=\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac12u'u\right\} \ . \]

下面利用線性變換 \(x=Au+\mu\) 來計算 \(X\) 的聯合密度函式。首先計算雅可比行列式

\[\begin{aligned} J(x\to u)&=\left|\frac{\partial{x'}}{\partial u}\right|=\left|A'\right|=\left|AA'\right|^{1/2}=|\Sigma|^{1/2} \end{aligned} \]

得到 \(|J(u\to x)|=|J(x\to u)|^{-1}=|\Sigma|^{-1/2}\)​​ ,進而可得 \(X\)​​ 的聯合密度函式為

\[\begin{aligned} f_X(x)&=\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac12u'u\right\}|J(u\to x)| \\ \\ &=\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac12\left[A^{-1}(x-\mu)\right]'\left[A^{-1}(x-\mu)\right]\right\}|\Sigma|^{-1/2} \\ \\ &=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac12(x-\mu)'\Sigma^{-1}(x-\mu)\right\} \ . \end{aligned} \]

二、獨立性和條件分佈

Part 1:多元正態分佈的獨立性

我們曾經學過兩個正態隨機變數相互獨立,等價於這兩個隨機變數互不相關。在這裡我們將這一結論推廣到隨機向量上。要討論正態隨機向量的獨立性,我們需要將正態向量的分量分為任意兩個部分,不妨將兩組分量集中放置,將 \(p\) 維隨機向量分成 \(r\) 維隨機向量 \(X^{(1)}\)\(p−r\) 維隨機向量 \(X^{(2)}\)

定理:設 \(p\)​ 維隨機向量 \(X\sim N_p(\mu,\Sigma)\)​ ,分別記

\[X=\left[\begin{array}{c} X^{(1)} \\ X^{(2)} \\ \end{array}\right] \ , \quad \mu=\left[\begin{array}{c} \mu^{(1)} \\ \mu^{(2)} \\ \end{array}\right] \ , \quad \Sigma=\left[\begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \\ \end{array}\right] \ . \]

\(X^{(1)}\)\(X^{(2)}\) 相互獨立當且僅當 \(\Sigma_{12}=O\) ,即 \(X^{(1)}\)\(X^{(2)}\) 互不相關。

必要性:如果 \(X^{(1)}\)\(X^{(2)}\) 相互獨立,則顯然有

\[{\rm Cov}\left(X^{(1)},X^{(2)}\right)=\Sigma_{12}=O \ . \]

充分性:設 \(\Sigma_{12}=O\) ,則 \(\Sigma_{21}=O\) ,寫出 \(X\) 的聯合密度函式為

\[\begin{aligned} f(x)&=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac12(x-\mu)'\left[ \begin{array}{cc} \Sigma_{11} & O \\ O & \Sigma_{22} \end{array}\right]^{-1}(x-\mu)\right\} \\ \\ &=\frac{1}{(2\pi)^{r/2}\left|\Sigma_{11}\right|^{1/2}}\exp\left\{-\frac12\left(x^{(1)}-\mu^{(1)}\right)' \Sigma_{11}^{-1}\left(x^{(1)}-\mu^{(1)}\right)\right\} \\ &\quad\ \times\frac{1}{(2\pi)^{(p-r)/2}\left|\Sigma_{22}\right|^{1/2}}\exp\left\{-\frac12\left(x^{(2)}-\mu^{(2)}\right)' \Sigma_{22}^{-1}\left(x^{(2)}-\mu^{(2)}\right)\right\} \\ \\ &=f_1\left(x^{(1)}\right)\cdot f_2\left(x^{(2)}\right) \ . \end{aligned} \]

所以 \(X^{(1)}\)​ 與 \(X^{(2)}\)​​ 相互獨立。

推論 1:設 \(r_i\geq1,\,i=1,2,\cdots,k\) ,且 \(r_1+r_2+\cdots+r_k=p\)​ ,如果

\[X=\left[\begin{array}{c} X^{(1)} \\ \vdots \\ X^{(k)} \end{array} \right]\begin{array}{c} r_1 \\ \vdots \\ r_k \end{array}\sim N_p\left(\left[\begin{array}{c} \mu^{(1)} \\ \vdots \\ \mu^{(k)} \end{array} \right],\left[\begin{array}{c} \Sigma_{11} &\cdots &\Sigma_{1k} \\ \vdots & & \vdots \\ \Sigma_{k1} &\cdots &\Sigma_{kk} \end{array} \right]\right) \ , \]

\(X^{(1)},\cdots,X^{(k)}\) 相互獨立當且僅當 \(\Sigma_{ij}=O,\,\forall i\neq j\)​ 。

推論 2:設 \(X=(X_1,X_2,\cdots,X_p)'\sim N_p(\mu,\Sigma)\)​​ ,如果 \(\Sigma\)​​ 為對角矩陣,則 \(X_1,X_2,\cdots,X_p\)​​​ 之間相互獨立。

以上兩個推論本質上是對 \(X\) 進行矩陣分塊。推論 1 說明了多個隨機向量相互獨立等價於其中任意兩個隨機向量互不相關。推論 2 是由推論 1 在令 \(k=p\)\(r_1=r_2=\cdots=r_p=1\) 時得到的特例,說明了隨機向量內部的各分量之間的獨立性和不相關之間的等價關係。

Part 2:多元正態分佈的條件分佈

定理:設 \(X=\left[\begin{array}{c} X^{(1)} \\ X^{(2)} \end{array}\right]\begin{array}{l} r \\ p-r \end{array}\sim N_p(\mu,\Sigma)\) ,其中 \(\Sigma\) 正定,則當 \(X^{(2)}\) 給定時,\(X^{(1)}\) 的條件分佈為

\[\left(X^{(1)}\big|X^{(2)}=x^{(2)}\right)\sim N_r\left(\mu_{1\cdot 2},\Sigma_{11\cdot2}\right) \ , \]

其中

\[\begin{aligned} &\mu_{1\cdot2}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}\left(x^{(2)}-\mu^{(2)}\right) \ , \\ \\ & \Sigma_{11\cdot2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \ . \end{aligned} \]

首先需要作一個非奇異線性變換,令

\[Z=\left[\begin{array}{c} Z^{(1)} \\ Z^{(2)} \end{array}\right]= \left[\begin{array}{c} X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \\ X^{(2)} \end{array}\right]= \left[\begin{array}{c:c} I_r & -\Sigma_{12}\Sigma_{22}^{-1} \\ \hdashline O & I_{p-r} \end{array}\right]\left[\begin{array}{c} X^{(1)} \\ X^{(2)} \end{array}\right]=BX \ . \]

這裡的矩陣 \(B\) 是一個非奇異矩陣,即可逆矩陣。作這個非奇異線性變換的意義,主要是在 \(X^{(1)}\) 中除去在 \(X^{(2)}\) 方向上的部分,相當於把 \(X^{(1)}\) 在和 \(X^{(2)}\) 正交的方向上做一個投影。

接下來我們只需證明 \(Z^{(1)}\)\(Z^{(2)}\) 是相互獨立的。由於線上性變換下 \(Z\)​ 是一個多元正態分佈,所以只需證明 \(Z^{(1)}\)\(Z^{(2)}\)​ 是不相關的,所以求得 \(Z\)​ 的聯合分佈即可。

\[\begin{aligned} &{\rm E}(Z)=B{\rm E}(X)=\left[\begin{array}{c} \mu^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)} \\ \mu^{(2)} \end{array}\right] \\ \\ &\begin{aligned} {\rm Var}(Z)&=B{\rm Var}(X)B' \\ \\ &=\left[\begin{array}{cc} I_r & -\Sigma_{12}\Sigma_{22}^{-1} \\ O & I_{p-r} \end{array}\right]\left[\begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \\ \end{array}\right]\left[\begin{array}{cc} I_r & O \\ \left(-\Sigma_{12}\Sigma_{22}^{-1}\right)' & I_{p-r} \end{array}\right] \\ \\ &=\left[\begin{array}{cc} \Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} & O \\ O & \Sigma_{22} \end{array}\right] \ . \end{aligned} \end{aligned} \]

於是顯然有

\[Z\sim N_p\left(\left[\begin{array}{c} \mu^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)} \\ \mu^{(2)} \end{array}\right],\left[\begin{array}{cc} \Sigma_{11\cdot2} & O \\ O & \Sigma_{22} \end{array}\right] \right) \]

並且 \(Z^{(1)}\)\(Z^{(2)}\) 不相關,進而 \(Z^{(1)}\)\(Z^{(2)}\) 相互獨立。很容易寫出 \(Z\)​ 的聯合密度函式:

\[g(z)=g\left(z^{(1)},z^{(2)}\right)=g_1\left(z^{(1)}\right)g_2\left(z^{(2)}\right)=g_1\left(z^{(1)}\right)f_2\left(x^{(2)}\right) \ , \]

最後一個等號的原因是 \(X^{(2)}=Z^{(2))}\)​ 。下面利用線性變換 \(Z=BX\)​ 反解 \(X\)​ 的聯合密度函式,首先計算雅可比行列式得 \(|J(z\to x)|=|B'|=1\)​​​ ,於是有 \(X\) 的聯合密度函式

\[\begin{aligned} f(x)&=f\left(x^{(1)},x^{(2)}\right)=g(Bx)\cdot |J(z\to x)| \\ \\ &=g_1\left(x^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}x^{(2)}\right)g_2\left(x^{(2)}\right) \\ \\ &=g_1\left(x^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}x^{(2)}\right)f_2\left(x^{(2)}\right) \ . \end{aligned} \]

注意到 \(Z^{(1)}\sim N_r\left(\mu^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)},\Sigma_{11\cdot2}\right)\)​​ ,代入得

\[\begin{aligned} f_1\left(x^{(1)}\big|x^{(2)}\right)&=\frac{f\left(x^{(1)},x^{(2)}\right)}{f_2\left(x^{(2)}\right)}=g_1\left(x^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}x^{(2)}\right) \\ \\ &=\frac{1}{\left(2\pi\right)^{r/2}|\Sigma_{11\cdot2}|^{1/2}}\exp\left\{-\frac12\left(x^{(1)}-\mu_{1\cdot2}\right)'\Sigma_{11\cdot2}^{-1}\left(x^{(1)}-\mu_{1\cdot2}\right)\right\} \ . \end{aligned} \]

即為 \(\left(X^{(1)}\big|X^{(2)}=x^{(2)}\right)\sim N_r\left(\mu_{1\cdot 2},\Sigma_{11\cdot2}\right)\) 的條件密度函式。​

推論:給定條件 \(X=\left[\begin{array}{c} X^{(1)} \\ X^{(2)} \end{array}\right]\begin{array}{l} r \\ p-r \end{array}\sim N_p(\mu,\Sigma)\) ,其中 \(\Sigma\)​ 正定,可得

(1) \(X^{(2)}\)\(X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\) 相互獨立;

(2) \(X^{(1)}\)​ 與 \(X^{(2)}-\Sigma_{21}\Sigma_{11}^{-1}X^{(1)}\)​​ 相互獨立;

(3) \(\left(X^{(2)}\big|X^{(1)}=x^{(1)}\right)\sim N_{p-r}\left(\mu_{2\cdot1},\Sigma_{22\cdot1}\right)\) ,其中

\[\begin{aligned} &\mu_{2\cdot1}=\mu^{(2)}+\Sigma_{21}\Sigma_{11}^{-1}\left(x^{(1)}-\mu^{(1)}\right) \ , \\ \\ & \Sigma_{11\cdot2}=\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \ . \end{aligned} \]

該推論就是將 \(X^{(1)}\)\(X^{(2)}\) 地位均等的對調一下位置同理可得的結論。

Part 3:多元正態分佈的條件期望和迴歸

注意到,我們已經證明當 \(X^{(2)}\)​ 給定時 \(X^{(1)}\)​​ 的條件分佈為

\[\left(X^{(1)}\big|X^{(2)}=x^{(2)}\right)\sim N_r\left(\mu_{1\cdot 2},\Sigma_{11\cdot2}\right) \ , \]

其中

\[\mu_{1\cdot2}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}\left(x^{(2)}-\mu^{(2)}\right) \ . \]

自然地,我們可以定義條件期望

\[{\rm E}\left(X^{(1)}\big|X^{(2)}\right)=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}\left(X^{(2)}-\mu^{(2)}\right) \ . \]

我們從迴歸的角度來理解。在證明條件分佈的過程中,注意到

\[Z^{(1)}=X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \ , \]

這裡我們用係數矩陣 \(\Sigma_{12}\Sigma_{22}^{-1}\)​ 消去了 \(X^{(1)}\)​ 中與 \(X^{(2)}\)​ 相關聯的部分,從而得到的 \(Z^{(1)}\)​ 和 \(X^{(2)}\)​ 是正交的,即在多元正態的條件下是獨立的。因此我們將 \(\Sigma_{12}\Sigma_{22}^{-1}\)​ 稱為 \(X^{(1)}\)​ 對 \(X^{(2)}\)​​​ 的迴歸係數

容易計算 \(Z^{(1)}\) 的數學期望為

\[{\rm E}\left(Z^{(1)}\right)=\mu^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)} \ . \]

再利用此式計算條件期望,由於 \(Z^{(1)}\)\(X^{(2)}\) 獨立,因此

\[\begin{aligned} {\rm E}\left(X^{(1)}\big|X^{(2)}\right)&={\rm E}\left(Z^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\big|X^{(2)}\right) \\ \\ &={\rm E}\left(Z^{(1)}\big|X^{(2)}\right)+\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \\ \\ &={\rm E}\left(Z^{(1)}\right)+\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \\ \\ &=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}\left(X^{(2)}-\mu^{(2)}\right) \ . \end{aligned} \]

這裡我們將條件期望 \({\rm E}\left(X^{(1)}\big|X^{(2)}\right)\) 稱為 \(X^{(1)}\)\(X^{(2)}\)​ 的迴歸

同理,我們類似地來計算條件方差,

\[\begin{aligned} {\rm Var}\left(X^{(1)}\big|X^{(2)}\right)&={\rm Var}\left(Z^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\big|X^{(2)}\right) \\ \\ &={\rm Var}\left(Z^{(1)}\big|X^{(2)}\right) \\ \\ &={\rm Var}\left(X^{(1)}\right)+{\rm Var}\left(\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\right)-2{\rm Cov}\left(X^{(1)},\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\right) \\ \\ &=\Sigma_{11}+\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}-2\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \\ \\ &=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \ , \end{aligned} \]

條件方差是一個與隨機項無關的常數矩陣,記為 \(\Sigma_{11\cdot2}\) 。如果將 \(\Sigma_{11\cdot2}\) 寫為

\[\Sigma_{11\cdot2}=\left(\sigma_{ij\cdot2}\right)_{r\times r} \ , \quad i,j=1,2,\cdots,r \ , \]

則稱當 \(X^{(2)}\) 給定時 \(X_i\)\(X_j\) 的條件相關係數

\[r_{ij\cdot2}=\frac{\sigma_{ij\cdot2}}{\sqrt{\sigma_{ii\cdot2}}\sqrt{\sigma_{jj\cdot2}}} \ , \quad i,j=1,2,\cdots,r \]

\(X_i\)\(X_j\)​ 的偏相關係數,其中 \(X_i,X_j\in X^{(1)}\) 。​

Part 4:全相關係數和最佳預測

考慮這樣一種特殊的問題:我們需要用某個物件的若干個屬性,對另一個屬性進行預測。於是我們在多元正態分佈的分塊中,將隨機向量分成 \(1\) 個響應變數和 \(p\)​​ 個預測變數的組合:

\[Z=\left[\begin{array}{c} X \\ Y \end{array}\right] \begin{array}{c} p \\ 1 \end{array}\sim N_{p+1}\left(\left[\begin{array}{c} \mu_X \\ \mu_y \end{array}\right],\left[\begin{array}{cc} \Sigma_{XX} & \Sigma_{Xy} \\ \Sigma_{yX} & \sigma_{yy} \end{array}\right]\right) \ . \]

根據條件分佈和條件期望的定義,當 \(X=x\) 給定時 \(Y\)​ 的條件期望和條件方差為

\[\begin{aligned} &{\rm E}(Y|X=x)=\mu_y+\Sigma_{yX}\Sigma_{XX}^{-1}(x-\mu_X) \ , \\ \\ &{\rm Var}(Y|X=x)=\sigma_{yy}-\Sigma_{yX}\Sigma_{XX}^{-1}\Sigma_{Xy} \ . \end{aligned} \]

定義 \(Y\)​ 與 \(X\)​ 的全相關係數

\[R=\left(\frac{\Sigma_{yX}\Sigma_{XX}^{-1}\Sigma_{Xy}}{\sigma_{yy}}\right)^{1/2} \ . \]

可以看出 \({\rm Var}(Y|X)=\sigma_{yy}(1-R^2)\) ,因此在給定 \(X\) 的條件下,\(Y|X\) 的方差與 \(X\) 的觀測值無關,只與 \(Y\) 自身的方差和全相關係數有關,且全相關係數越大,\(Y|X\) 的方差越小。

定理:設 \(g(x)={\rm E}(Y|X=x)\)​ 是 \(x\)​ 的函式,則在均方誤差最小的準則下,條件期望 \(g(X)\)​ 是對 \(Y\)​ 的最佳預測函式,即對任意 \(p\)​ 元函式 \(\varphi(\cdot)\)​​ 都有

\[{\rm E}\left[(Y-g(X))^2\right]\leq{\rm E}\left[(Y-\varphi(X))^2\right] \ . \]

注意到 \(g(X)={\rm E}(Y|X)\)​ ,所以由全期望公式得

\[{\rm E}(g(X))={\rm E}[{\rm E}(Y|X)]={\rm E}(Y) \ . \]

所以有

\[\begin{aligned} &{\rm E}\left[(Y-\varphi(X))^2\right] \\ \\ =\ &{\rm E}\left[(Y-g(X))^2\right]+{\rm E}\left[(g(X)-\varphi(X))^2\right]+2{\rm E}\left[(Y-g(X))(g(X)-\varphi(X))\right] \\ \\ \geq\ &{\rm E}\left[(Y-g(X))^2\right]+2{\rm E}\left[(Y-g(X))(g(X)-\varphi(X))\right] \\ \\ =\ & {\rm E}\left[(Y-g(X))^2\right]+2{\rm E}\left[{\rm E}\left((Y-g(X))(g(X)-\varphi(X))\right)|X\right] \\ \\ =\ & {\rm E}\left[(Y-g(X))^2\right] \ . \end{aligned} \]

結合全相關係數和條件方差的關係可得:全相關係數越大,條件方差越小,最佳預測的精度越高。

相關文章