Chapter 3 多元正態分佈的引數估計
一、隨機陣的正態分佈
Part 1:隨機陣及其運算
從這裡開始我們討論隨機陣的問題。把來自 \(p\) 元總體的容量為 \(n\) 的簡單隨機樣本排成一個矩陣,就得到了樣本資料陣。這是一個隨機陣,其定義如下:
資料陣的每一行 \(X_{(i)}'\) 都是隨機向量 \((X_1,X_2,\cdots,X_p)\) 的一個簡單隨機樣本;
資料陣的每一列 \(\mathcal{X}_j\) 都是隨機變數 \(X_j\) 的一組簡單隨機樣本。
拉直運算指的是將隨機矩陣轉化為一個長的列向量,把 \(X\) 中的第 \(2\) 列接到第 \(1\) 列的後面,再把第 \(3\) 列接到第 \(2\) 列的後面,以此類推。
如果把樣本資料陣寫成 \(p\) 個列向量的形式,即 \(X=\left(\mathcal{X}_1,\mathcal{X}_2,\cdots,\mathcal{X}_p\right)\) ,則拉直運算就是把矩陣的每一個列向量按列排列,組成一個 \(np\) 維向量,記為
如果要對樣本進行拉直(按行拉直),可以先將資料陣轉置,然後進行拉直運算,組成一個 \(np\) 維向量,記為
特別地,如果 \(X\) 是 \(p\) 階對稱隨機陣,在 \(X\) 中只包含 \(p(p+1)/2\) 個不同的隨機變數,故將其直接進行拉直運算,拉直成一個 \(p^2\) 維向量是不合適的。因此,我們專門定義了對稱矩陣的拉直運算,將 \(\rm X\) 拉直成一個 \(p(p+1)/2\) 維向量,即
克羅內克(Kronecker)積又稱為矩陣的直積,其運演算法則簡單來說就是用左矩陣的每一個元素去數乘右矩陣,其定義如下:
設 \(A=(a_{ij})\) 是 \(n\times p\) 的矩陣,\(B\) 是 \(m\times q\) 的矩陣,定義 \(A\) 和 \(B\) 的克羅內克積為
可以看出,\(A\otimes B\) 的每個元素都是一個矩陣,該矩陣為 \(A\) 的對應元素數乘 \(B\) 得到。如果將 \(A\otimes B\) 的每個元素上的矩陣寫開,將得到一個 \(mn\times pq\) 維的矩陣。注意:\(A\otimes B\neq B\otimes A\) 。
Part 2:隨機陣的正態分佈
接下來我們考慮樣本資料陣的分佈。如果樣本來自多元正態總體 \(N_p(\mu,\Sigma)\) ,那麼樣本資料陣 \(X\) 的每一列都是來自一元正態總體的簡單隨機樣本,所以是相互獨立的。
根據按行拉直運算的定義,\({\rm Vec}\left(X'\right)\) 指的是將每個樣本排列在一起拉直得到的列向量,所以有
其中 \(\bold{1}_n\) 表示向量元素均為 \(1\) 的 \(n\) 維常向量,\(I_n\) 表示 \(n\) 階單位矩陣。根據克羅內克積的定義,
這樣我們就可以定義隨機陣的正態分佈。如果一個隨機矩陣 \(X\) 按樣本拉直後滿足
就稱 \(X\) 服從矩陣正態分佈,記作
其中
容易驗證
於是隨機陣的正態分佈可以等價的表示為
隨機陣的正態分佈具有如下性質:設 \(X\sim N_{n\times p}(M,I_n\otimes\Sigma)\) ,設 \(A\) 是 \(k\times n\) 常數矩陣,\(B\) 是 \(q\times p\) 常數矩陣,\(D\) 是 \(k\times q\) 常數矩陣,如果對 \(X\) 作線性變換得到 \({\rm Z}=AXB'+D\) ,則有
二、多元正態分佈的引數估計
Part 1:基本統計量
設總體 \(X=(X_1,X_2,\cdots,X_p)\) 服從 \(p\) 元正態分佈 \(N_p(\mu,\Sigma)\) ,這裡我們主要討論引數 \(\mu\) 和 \(\Sigma\) 的極大似然估計及其性質。設隨機陣 \(X\) 表示一組樣本容量為 \(n\) 的簡單隨機樣本:
首先從樣本資料陣 \(X\) 出發,可以定義如下相關的統計量。
樣本均值向量,即對 \(X\) 的每個分量求樣本均值,得到的一個 \(p\) 維向量:
其中,\(\bar{x}_j\) 表示第 \(j\) 個分量 \(X_j\) 的樣本均值:
樣本離差陣(交叉乘積陣),類比於一元總體的簡單隨機樣本的離差平方和:
在已知樣本資料陣的情況下,常用最後一個表示式計算樣本離差陣。由樣本離差陣的定義,易知 \(A\) 是一個 \(p\times p\) 的對稱矩陣,且有
樣本協方差陣,其定義類似於樣本方差,由樣本離差陣除以自由度可得:
所以 \(S\) 也是一個 \(p\times p\) 的對稱矩陣,其對角線元素 \(s_{jj}\) 的表示式為:
易知 \(s_{jj}\) 表示分量 \(X_j\) 的樣本方差,其平方根 \(\sqrt{s_{jj}}\) 表示分量 \(X_j\) 的樣本標準差。此外 \(S\) 的非對角線元素 \(s_{ij}\ (i\neq j)\) 表示分量 \(X_i\) 和 \(X_j\) 的樣本協方差。
有時我們也將樣本協方差陣定義為
樣本相關陣,其元素由樣本相關係數構成,因此用樣本協方差陣的元素即可定義:
易知 \(R\) 是一個對角線元素均為 \(1\) 的 \(p\times p\) 的對稱矩陣。
Part 2:似然函式
用極大似然法求引數 \(\mu\) 和 \(\Sigma\) 的極大似然估計量,首先需要寫出似然函式。似然函式就是樣本 \(X\) 的聯合密度函式,只不過這裡的每個樣本都是 \(p\) 元正態隨機向量,也就是 \(n\) 個 \(p\) 元正態密度函式的乘積。
我們可以使用拉直運算,將 \({\rm Vec}(X')\) 的聯合密度函式看成引數 \(\mu\) 和 \(\Sigma\) 的函式,就得到了我們所需要的似然函式,記為 \(L(\mu,\Sigma)\) :
由此求得對數似然函式 \(l(\mu,\Sigma)\) 為:
由上式最後的部分是一個實數,所以可以利用矩陣的跡的有關性質進行變換:
於是我們可以將對數似然函式寫為
Part 3:極大似然估計
求解極大似然估計,需要最大化似然函式。一種方法是我們可以對向量 \(\mu\) 和矩陣 \(\Sigma\) 求導,但矩陣微商的計算比較麻煩,所以這裡我們介紹一個引理。
引理:設 \(B\) 是 \(p\) 階正定矩陣,則有 \({\rm tr}B-\ln\left|B\right|\geq p\) ,且等號成立當且僅當 \(B=I_p\) 。
由於 \(B\) 正定,所以 \(B\) 的全部特徵值 \(\lambda_1,\lambda_2,\cdots,\lambda_p>0\) ,且 \(\left|B\right|=\lambda_1\lambda_2\cdots\lambda_p\) 。
利用不等式 \(\ln(1+x)\leq x\) 可得
\[\begin{aligned} \ln|B|&=\sum_{j=1}^p\ln\lambda_j=\sum_{j=1}^p\ln(1+\lambda_j-1) \leq\sum_{j=1}^p(\lambda_j-1)={\rm tr} B-p \ . \end{aligned} \]所以
\[{\rm tr} B-\ln |B|\geq p \ . \]由於不等式 \(\ln(1+x)\leq x\) 的等號成立條件是 \(x=0\) ,所以當且僅當 \(\lambda_1=\lambda_2=\cdots=\lambda_p=1\) 時上式等號成立,即 \(B=I_p\) 。
首先固定 \(\Sigma>0\) ,由二次型的性質知
以上不等式當且僅當 \(\mu=\bar{X}\) 時等號成立。
進一步取 \(B=\Sigma^{-1/2}\dfrac An\Sigma^{-1/2}\) 正定,利用引理可得
以上不等式當且僅當 \(\Sigma=\dfrac An\) 時等號成立。
注意這裡的第四個等號,只有在矩陣的跡運算和行列式運算中才成立,其原理是
這裡用 \(\det(\cdot)\) 表示行列式運算。對於矩陣運算不具有這一性質,即
由以上的推導過程可知引數 \(\mu\) 和 \(\Sigma\) 的極大似然估計量為
似然函式的最大值為
三、引數估計的性質
Part 1:基本統計量的性質
定理:設 \(\bar{X}\) 和 \(A\) 分別為 \(p\) 元正態總體 \(N_p(\mu,\Sigma)\) 的樣本均值向量和樣本離差陣,樣本容量為 \(n\) ,則
(1) \(\bar{X}\sim N_p\left(\mu,\dfrac1n\Sigma\right)\) ;
(2) \(A\xlongequal{d}\displaystyle\sum_{k=1}^{n-1}Z_kZ_k'\) ,其中 \(Z_1,Z_2,\cdots,Z_{n-1}\) 獨立同 \(N_p(0,\Sigma)\) 分佈;
(3) \(\bar{X}\) 和 \(A\) 相互獨立;
(4) \(P(A>0)=1\ \iff\ n>p\) ,即 \(A\) 以概率 \(1\) 正定當且僅當 \(n>p\) 。
該定理的證明和數理統計中一元正態分佈的抽樣分佈類似,需要構造一個正交矩陣,設為 \(\Gamma\) 且具有如下形式
\[\Gamma=\left[\begin{array}{cccc} \gamma_{11} & \gamma_{12} & \cdots & \gamma_{1n} \\ \vdots &\vdots & & \vdots \\ \gamma_{(n-1),1} & \gamma_{(n-1),2} & \cdots & \gamma_{(n-1),n} \\ \cfrac1{\sqrt{n}} &\cfrac1{\sqrt{n}} & \cdots & \cfrac1{\sqrt{n}} \end{array}\right]=(\gamma_{ij})_{n\times n} \ . \]對樣本資料陣構造正交變換,令
\[{\rm Z}=\left[\begin{array}{c} Z_1' \\ Z_2' \\ \vdots \\ Z_n' \\ \end{array}\right]=\Gamma\left[\begin{array}{c} X_{(1)}' \\ X_{(2)}' \\ \vdots \\ X_{(n)}' \\ \end{array}\right]=\Gamma X \ , \]即對任意的 \(k=1,2,\cdots,n\) 都有
\[Z_k=\left(X_{(1)},X_{(2)},\cdots,X_{(n)}\right)\left[\begin{array}{c} \gamma_{k1} \\ \gamma_{k2} \\ \vdots \\ \gamma_{kn} \\ \end{array}\right] \ , \]特別地,當 \(k=n\) 時有
\[Z_n=\frac1{\sqrt{n}}\sum_{i=1}^nX_{(i)} \ . \]容易證明 \(Z_k\) 是一個 \(p\) 維正態隨機向量,且由正交矩陣的性質知
\[\begin{aligned} &{\rm E}(Z_k)=\sum_{i=1}^n\gamma_{ki}{\rm E}\left(X_{(i)}\right)=\left\{\begin{array}{ll} 0 \ , & k\neq n \ . \\ \sqrt{n}\mu \ , & k=n \ . \end{array}\right. \\ \\ &\begin{aligned} {\rm Cov}(Z_k,Z_l)&={\rm E}\left[\left(Z_k-{\rm E}(Z_k)\right)\left(Z_l-{\rm E}(Z_l)\right)'\right] \\ \\ &=\sum_{i=1}^n\gamma_{ki}\gamma_{li}\Sigma=\left\{\begin{array}{ll} O \ , & k\neq l \ . \\ \Sigma \ , & k=l \ . \end{array}\right. \end{aligned} \end{aligned} \](1) 由已經證明的性質知
\[Z_n=\frac1{\sqrt{n}}\sum_{i=1}^nX_{(i)}=\sqrt{n}\bar{X}\sim N_p\left(\sqrt{n}\mu,\Sigma\right) \ , \]從而可得
\[\bar{X}=\frac{1}{\sqrt{n}}Z_n\sim N_p\left(\mu,\frac1n\Sigma\right) \ . \](2) 因為
\[\sum_{i=1}^nZ_iZ_i'={\rm Z}'{\rm Z}=X'\Gamma'\Gamma X=X'X=\sum_{i=1}^nX_{(i)}X_{(i)}' \ , \]於是有
\[\begin{aligned} \sum_{i=1}^{n-1}Z_iZ_i'&=\sum_{i=1}^nX_{(i)}X_{(i)}'-Z_nZ_n'=\sum_{i=1}^nX_{(i)}X_{(i)}'-n\bar{X}\bar{X}' \\ \\ &=\sum_{i=1}^n\left(X_{(i)}-\bar{X}\right)\left(X_{(i)}-\bar{X}\right)'=A \ . \end{aligned} \](3) 因為 \(A\) 是 \(Z_1,Z_2,\cdots,Z_{n-1}\) 的函式,\(\bar{X}\) 是 \(Z_n\) 的函式,而 \(Z_1,Z_2,\cdots,Z_{n-1}\) 和 \(Z_n\) 相互獨立,故 \(A\) 和 \(\bar{X}\) 也相互獨立。
(4) 根據以上證明,我們可以令 \(B=\left(Z_1,Z_2,\cdots,Z_{n-1}\right)\) 從而 \(A=BB'\) 。
如果 \(A\) 正定,則 \(A\) 的秩為 \(p\) ,從而 \(B\) 的秩也為 \(p\) ,於是 \(n-1\geq p\) ,即 \(n>p\) 。
如果 \(n>p\) ,要證 \(A\) 以概率 \(1\) 正定,只需證 \(B\) 的前 \(p\) 個分量線性相關的概率為 \(0\) 。由於 \(B\) 是一個多元正態隨機陣,所以 \(B\) 的前 \(p\) 個分量的任意線性組合服從多元正態分佈。
所以對於任意不全為零的 \(\beta_1,\beta_2,\cdots,\beta_p\in\mathbb{R}\) ,由連續型隨機變數的性質知
\[P\left(\sum_{i=1}^p\beta_iZ_i=0\right)=0 \]進而在統計意義下 \(B\) 的前 \(p\) 個分量以概率 \(1\) 線性無關,從而 \(A\) 以概率 \(1\) 正定。
Part 2:極大似然估計的性質
無偏性:樣本均值向量 \(\bar{X}\) 是 \(\mu\) 的無偏估計,樣本協方差陣 \(S=\dfrac1{n-1}A\) 是 \(\Sigma\) 的無偏估計,但 \(\Sigma\) 的極大似然估計量 \(\hat\Sigma=\dfrac1nA\) 不是 \(\Sigma\) 的無偏估計。
有效性:樣本均值向量和樣本協方差陣 \((\bar{X},S)\) 是 \((\mu,\Sigma)\) 的一致最小方差無偏估計量,也是 \((\mu,\Sigma)\) 的充分完備統計量。
相合性:當 \(n\to\infty\) 時 \(\bar{X},\hat\Sigma\) 是 \(\mu,\Sigma\) 的強相合估計。利用 \({\rm E}(\bar{X})=\mu\) 和 Kolmogorov 強大數定律可知
由於 \(Z_1,Z_2,\cdots,Z_{n-1}\) 獨立同分布服從於 \(N_p(0,\Sigma)\) ,所以 \({\rm E}\left(Z_iZ_i'\right)=\Sigma\) ,再利用 Kolmogorov 強大數定律可知