PRML 概率分佈

faranten發表於2022-02-21

本文地址:https://www.cnblogs.com/faranten/p/15917369.html
轉載請註明作者與出處

1 二元變數

1.1 伯努利分佈與二項分佈

​ 考慮一個最基本的試驗:拋硬幣試驗。在一次實驗中只有兩個結果,即正面與反面,用隨機變數\(x=1\)來表示拋擲硬幣得到的是正面,\(x=0\)來表示拋擲硬幣得到的是反面,且先驗地猜測得到正面的概率是\(\mu\),那麼

\[\begin{aligned} p(x=1|\mu)&=\mu\\ p(x=0|\mu)&=1-\mu \end{aligned} \]

那麼\(x\)的概率分佈可以寫作

\[\text{Bern}(x|\mu)=\mu^x(1-\mu)^{1-x} \]

這稱為二元變數的伯努利分佈(Bernoulli distribution),容易得到

\[\begin{aligned} E(x|\mu)&=\mu\\ \text{var}(x|\mu)&=\mu(1-\mu) \end{aligned} \]

​ 如果將試驗次數增多到\(N\)次,實驗資料集為\(D\),並以隨機變數\(x\)記得到硬幣正面的次數,由於各次試驗是相互獨立的,因此似然函式為

\[p(D|\mu)=\prod_{n=1}^Np(x_n|\mu)=\prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n} \]

對於頻率主義來說,此時的實驗資料集是確定的,因此確定引數\(\mu\)的方式就是最大化上述形如\(\mu^a(1-\mu)^b\)的似然函式,使用極大似然方法,對數化上述似然函式得到\(\ln p(D|\mu)=\sum_{n=1}^N\{x_n\ln\mu+(1-x_n)\ln(1-\mu)\}\),進而解得上式中\(\mu_{ML}=\frac1N\sum_{n=1}^Nx_n\),該值稱為樣本均值(sample mean),其實該值就是\(N\)次試驗中得到正面的比例\(\frac{m}{N}\)。值得一提的是,該對數似然函式僅與\(\sum_{n=1}^Nx_n\)有關,因此可稱該量為充分統計量(sufficient statistic)。後面將看到,二項分佈作為伯努利分佈的一般化形式,所以只需要對二項分佈使用貝葉斯方法,就涵蓋了貝葉斯方法處理伯努利分佈的情況。

​ 現在考慮\(N\)次試驗中得到正面的次數\(m\),若將此作為隨機變數,則它的分佈為

\[\text{Bin}(m|N,\mu)=\left(\begin{array}{c}N\\m\end{array}\right)\mu^m(1-\mu)^{N-m}, \qquad\left(\begin{array}{c}N\\m\end{array}\right)\equiv\frac{N!}{(N-m)!m!} \]

該分佈稱為二項分佈(binomial distribution),二項分佈可以視作伯努利分佈在試驗次數上的推廣,容易得到

\[\begin{aligned} E(m|N,\mu)&=N\mu\\ \text{var}(m|N,\mu)&=N\mu(1-\mu) \end{aligned} \]

​ 在二項分佈中,如果給定資料集,在頻率方法下用極大似然方法求出\(\mu\)的估計值仍然是\(N\)次試驗中得到正面的比例\(\frac{m}{N}\),當資料集規模較小的時候,這種思路很容易導致過擬合,這說明了貝葉斯方法的必要性。

1.2 Beta分佈

​ 在二項分佈中,如果令\(N=1\),那麼二項分佈就變成了伯努利分佈,因此可以認為二項分佈是伯努利分佈更加一般的形式,所以接下來只討論二項分佈而忽略伯努利分佈的情況。對於貝葉斯主義而言,二項分佈中的\(\mu\)是隨機變數,我們應該用訓練集來找到\(\mu\)的儘可能精確的分佈,由於

\[p(\mu|D)=\frac{p(D|\mu)p(\mu)}{p(D)} \]

其中\(p(D)\)為常數\(N\),而似然函式為

\[p(D|\mu)=\prod_{n=1}^Np(x_n|\mu)=\prod_{n-1}^N\mu^{x_n}(1-\mu)^{1-x_n}=\mu^m(1-\mu)^{N-m} \]

其中\(m\)為得到正面的次數。如果先驗分佈和後驗分佈具有相似的函式形式,則這種性質稱為共軛性(conjugacy)(這保證了順序學習過程將會一直進行下去)。觀察到似然函式僅與\(\mu\)\((1-\mu)\)兩個因子的冪指數成正比,所以如果我們選擇一個正比於\(\mu\)\((1-\mu)\)​兩個因子的冪指數,自然就能保證共軛性。所以選擇如下形式的先驗分佈

\[\text{Beta}(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} \]

這稱為Beta分佈,其中引數\(a\)\(b\)決定了分佈的形態,因此是超引數。容易得到

\[\begin{aligned} E(\mu|a,b)&=\frac{a}{a+b}\\ \text{var}(\mu|a,b)&=\frac{ab}{(a+b)^2(a+b+1)} \end{aligned} \]

​ 那麼,引數\(\mu\)的後驗分佈\(p(\mu|m,l,a,b)\)滿足

\[p(\mu|m,l,a,b)\varpropto p(m,l|\mu,a,b)\cdot p(\mu|a,b)\varpropto\mu^m(1-\mu)^{l}\cdot\mu^{a-1}(1-\mu)^{b-1}=\mu^{m+a-1}(1-\mu)^{l+b-1} \]

其中\(l=N-m\),和Beta分佈的標準形式相比,很快得到歸一化係數,於是就有

\[p(\mu|m,l,a,b)=\frac{\Gamma(m+l+a+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1} \]

直觀來看:其中\(m\)\(l\)是訓練集中正面次數和反面次數,\(a\)\(b\)是先驗知道的正面次數和反面次數,在試驗的時候可以簡單地認為\(a\)的值變大了\(m\)\(b\)的值變大了\(l\),可將超引數\(a\)\(b\)分別看成是\(x=1\)\(x=0\)有效觀測數(effective number of observation)。但是\(a\)\(b\)具有更一般化的含義,不僅僅是整數。隨機變數\(\mu\)​的期望和方差分別為

\[\begin{aligned} E(\mu|m,l,a,b)&=\frac{m+a}{(m+a)+(l+b)}\\ \text{var}(\mu|m,l,a,b)&=\frac{(m+a)(l+b)}{((m+a)+(l+b))^2((m+a)+(l+b)+1)} \end{aligned} \]

​ 上述內容暗示了學習過程中的順序(sequential)方法是合理的,即每次將先驗分佈乘上似然函式,再進行歸一化(找到合適的歸一化引數)便得到了後驗分佈,這個後驗分佈將在下一次學習過程中扮演先驗分佈的角色。並且,隨著試驗次數\(N\rightarrow\infty\)\(m\)\(l\)都將趨於正無窮,此時的\(E(\mu)\)\(\text{var}(\mu)\)都將趨於各自的極大似然估計,並且與先驗的引數\(a\)\(b\)無關。

2 多項式變數

2.1 範疇分佈與多項式分佈

​ 二元變數只能用來描述某兩種取值的試驗,現在給出一種新的變數:多項式變數(multinomial variable),可以用來描述具有多種離散情況的變數,比如

\[\mathbf{x}=(0,0,1,0,0,0)^T \]

描述的是一個具有六種離散狀態的變數,並且此時該變數為第三種狀態。多項式變數滿足\(\sum_{k=1}^Kx_k=1\)。現用引數\(\mu_k\)來描述第\(k\)個變數\(x_k=1\)的概率,則有

\[p(\mathbf{x}|\pmb{\mu})=\prod_{k=1}^K\mu_k^{x_k} \]

該分佈稱為範疇分佈(multinoulli distribution)或者分類分佈(categotical distribution),該分佈可以視作伯努利分佈在試驗“維數”上面的推廣,其中\(\pmb{\mu}=(\mu_1,\mu_2,\cdots,\mu_k)^T\),顯然\(\mu_k\geq0\)並且\(\sum_{k=1}^K\mu_k=1\)。可以得到

\[\begin{aligned} E(\mathbf{x}|\pmb{\mu})&=(\mu_1,\mu_2,\cdots,\mu_K)^T\\ \text{var}(\mathbf{x}|\pmb{\mu})&=(\mu_1(1-\mu_1),\mu_2(1-\mu_2),\cdots,\mu_K(1-\mu_K))^T\\ \text{cov}(\mathbf{x}|\pmb\mu)&=\text{diag}(\mu_1,\cdots,\mu_K)-\pmb\mu\pmb\mu^T \end{aligned} \]

​ 在之前關於伯努利分佈和二項分佈的內容中,我們將伯努利分佈視為單一試驗中二元變數的概率分佈情況,而將二項分佈視為多次試驗中二元變數的概率分佈情況。現在,我們剛討論完單一試驗中多項式變數的概率分佈情況,自然要考慮多次實驗中多項式變數的概率分佈情況。對於給定的資料集\(D=\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_N\}\)而言,對應的似然函式的形式為

\[p(D|\pmb{\mu})=\prod_{n=1}^N\prod_{k=1}^K\mu_k^{x_{nk}}=\prod_{k=1}^K\mu_k^{\sum_{n=1}^Nx_{nk}}=\prod_{k=1}^K\mu_k^{m_k} \]

其中\(m_k\)描述了在資料集\(D\)中取第\(k\)種狀態的資料點的數量,即\(x_k=1\)的次數,且這\(k\)個值是該似然函式的充分統計量。對此似然函式進行對數化處理,用極大似然方法,注意到約束條件\(\sum_{k=1}^K\mu_k=1\),可以解得引數\(\pmb\mu\)的極大似然估計為\(\mu_k^{ML}=\frac{m_k}N\)

​ 現在考慮每個狀態的觀測數量在引數\(\pmb\mu\)和總觀測數量\(N\)條件下的分佈,若將每個狀態的觀測數量作為一組隨機變數,則它們的聯合分佈為

\[\text{Mult}(m_1,m_2,\cdots,m_K|\pmb\mu,N)= \left( \begin{array} {c} N\\ m_1m_2\cdots m_K \end{array} \right) \prod_{k=1}^K\mu_k^{m_k} \]

該分佈稱為多項式分佈(multinomial distribution),約束條件為\(\sum_{k=1}^Km_k=N\)。多項式分佈可以視作範疇分佈在試驗次數上的推廣,其中歸一化係數就是在PRML 基礎知識 6.1節提到的“乘數”概念,具體意義是將\(N\)個物體分成大小為\(m_1,m_2,\cdots,m_K\)\(K\)​組的方案總數。可以得到

\[\begin{aligned} E(m_1,m_2,\cdots,m_K|\pmb\mu,N)&=N(\mu_1,\mu_2,\cdots,\mu_K)^T\\ \text{var}(m_1,m_2,\cdots,m_K|\pmb\mu,N)&=N(\mu_1(1-\mu_1),\mu_2(1-\mu_2),\cdots,\mu_K(1-\mu_K))^T\\ \text{cov}(m_1,m_2,\cdots,m_K|\pmb\mu,N)&=N\text{diag}(\mu_1,\cdots,\mu_K)-N\pmb\mu\pmb\mu^T \end{aligned} \]

2.2 Dirichlet分佈

​ 現在我們考慮多項式分佈的先驗分佈的形式。考慮到多項式分佈正比於一系列引數\(\mu_k\)的冪指數、或者統一起來說正比於引數\(\pmb\mu\)中每個元素各自的冪指數,因此為了保證先驗分佈和後驗分佈的共軛性,多項式分佈的先驗分佈的形式為

\[\text{Dir}(\pmb\mu|\pmb\alpha)=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots\Gamma(\alpha_K)}\prod_{k=1}^K\mu_k^{\alpha_k-1} \]

其中\(\sum_{k=1}^K\mu_k=1\)\(\pmb\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_K)^T\)\(\alpha_0=\sum_{k=1}^K\alpha_k\),該分佈被稱為Dirichlet分佈。可以得到

\[\begin{aligned} E(\pmb\mu|\pmb\alpha)&=(\frac{\alpha_1}{\alpha_0},\frac{\alpha_2}{\alpha_0},\cdots,\frac{\alpha_K}{\alpha_0})^T=(\tilde{\alpha_1},\tilde{\alpha_2},\cdots,\tilde{\alpha_K})^T\\ \text{var}(\pmb\mu|\pmb\alpha)&=(\frac{\alpha_1(\alpha_0-\alpha_1)}{\alpha_0^2(\alpha_0+1)},\frac{\alpha_2(\alpha_0-\alpha_2)}{\alpha_0^2(\alpha_0+1)},\cdots,\frac{\alpha_K(\alpha_0-\alpha_K)}{\alpha_0^2(\alpha_0+1)})^T\\ &=(\frac{\tilde{\alpha_1}(1-\tilde{\alpha_1})}{\alpha_0+1},\frac{\tilde{\alpha_2}(1-\tilde{\alpha_2})}{\alpha_0+1},\cdots,\frac{\tilde{\alpha_K}(1-\tilde{\alpha_K})}{\alpha_0+1})^T\\ \text{cov}(\pmb\mu|\pmb\alpha)&=\frac{1}{\alpha_0^2(\alpha_0+1)}\text{diag}(\alpha_0,\alpha_0,\cdots,\alpha_0)\cdot\text{diag}(\alpha_1,\alpha_2,\cdots,\alpha_K)-\pmb\mu\pmb\mu^T\\ &=\frac{1}{\alpha_0+1}\text{diag}(\tilde{\alpha_1},\tilde{\alpha_2},\cdots,\tilde{\alpha_K})-\pmb\mu\pmb\mu^T \end{aligned} \]

​ 那麼,引數\(\pmb\mu\)的後驗分佈\(p(\pmb\mu|D,\pmb\alpha)\)滿足

\[p(\pmb\mu|D,\pmb\alpha)\varpropto p(D|\pmb\mu)\cdot p(\pmb\mu|\pmb\alpha)\varpropto\prod_{k=1}^K\mu_k^{m_k}\cdot\prod_{k=1}^K\mu^{\alpha_k-1}=\prod_{k=1}^K\mu_k^{m_k+\alpha_k-1} \]

和Dirichlet分佈的標準形式相比,很快得到歸一化係數,於是就有

\[p(\pmb\mu|D,\pmb\alpha)=\frac{\Gamma(\alpha_0+N)}{\Gamma(\alpha_1+m_1)\Gamma(\alpha_2+m_2)\cdots\Gamma(\alpha_K+m_K)}\prod_{k=1}^K\mu_k^{m_k+\alpha_k-1} \]

此時可以分析各項引數實際表示的含義,其含義與Beta分佈中各引數的直觀解釋類似,此處不再討論。

3 高斯分佈

​ 先給出一維變數\(x\)\(D\)維變數\(\mathbf{x}\)情況下的高斯分佈通用形式

\[\begin{aligned} \mathcal N(x|\mu,\sigma^2)&=\frac{1}{(2\pi\sigma^2)^{1/2}}\text{exp}\{-\frac{1}{2\sigma^2}(x-\mu)^2\}\\ \mathcal N(\mathbf{x}|\pmb\mu,\mathbf{\Sigma})&=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}}\text{exp}\{-\frac12(\mathbf{x}-\pmb\mu)^T{\mathbf{\Sigma}}^{-1}(\mathbf{x}-\pmb\mu)\} \end{aligned} \]

其中\(\mathbf{\Sigma}\)是一個\(D\times D\)的協方差矩陣。高斯分佈是十分重要的,由中心極限定理知道,現實生活中很多情形都會推匯出高斯分佈。下面將從矩陣角度對熟知的高斯分佈的一些性質進行重新推導,這不僅有利於將高斯分佈從一元情形推廣到多元情形,而且有利於理解後續章節的關鍵概念。

3.1 高斯分佈的矩陣視角

​ 從上面多元形式的高斯分佈可以看出,多元高斯分佈中對\(\mathbf{x}\)的依賴是通過二次型

\[\Delta^2=(\mathbf{x}-\pmb\mu)^T\mathbf{\Sigma}^{-1}(\mathbf{x}-\pmb\mu) \]

實現的,\(\Delta\)被稱為馬氏距離(Mahalanobis distance),當\(\mathbf{\Sigma}\)為單位矩陣時,馬氏距離就退化為歐氏距離。如果在一個關於\(\mathbf{x}\)的空間中,馬氏距離是常數,那麼此時的多元高斯分佈亦是常數。

​ 對於矩陣\(\mathbf{\Sigma}\)的形式,我們不妨設其為對稱矩陣,這是因為任何非對稱項都會從多元高斯分佈的指數項中消失,下面給出證明。記\(\Delta^2=(x-\mu)^T\mathbf{A}(x-\mu)\),其中\(\mathbf{A}=\mathbf{\Sigma}^{-1}\),接著令\(\mathbf{A}=\frac{1}{2}(\mathbf{A}+\mathbf{A}^T)+\frac{1}{2}(\mathbf{A}-\mathbf{A}^T)\)以及\(\mathbf{B}=\frac{1}{2}(\mathbf{A}+\mathbf{A}^T)\)\(\mathbf{C}=\frac{1}{2}(\mathbf{A}-\mathbf{A}^T)\),那麼矩陣\(\mathbf{B}\)就是對稱矩陣(即有\(b_{ij}=b_{ji}\)),而矩陣\(\mathbf{C}\)是反對稱矩陣(即有\(c_{ij}=-c_{ji}\))且\(\mathbf{A}=\mathbf{B}+\mathbf{C}\)。現在將\(\Delta^2\)重新寫作

\[\begin{aligned} \Delta^2&=(\mathbf{x}-\pmb\mu)^T(\mathbf{B}+\mathbf{C})(\mathbf{x}-\pmb\mu)\\ &=(\mathbf{x}-\pmb\mu)^T\mathbf{B}(\mathbf{x}-\pmb\mu)+(\mathbf{x}-\pmb\mu)^T\mathbf{C}(\mathbf{x}-\pmb\mu) \end{aligned} \]

現在如果能證明\((\mathbf{x}-\pmb\mu)^T\mathbf{C}(\mathbf{x}-\pmb\mu)=0\),則說明了任何非對稱項都會從多元高斯分佈的指數項中消失,事實證明確實如此,推導過程如下

\[\begin{aligned} (\mathbf{x}-\pmb\mu)^T\mathbf{C}(\mathbf{x}-\pmb\mu)&=(x_1-\mu_1,\cdots,x_D-\mu_D)\cdot \left( \begin{array} {ccc} c_{11}&\cdots&c_{1D}\\ \vdots& &\vdots\\ c_{D1}&\cdots&c_{DD} \end{array} \right) \cdot \left( \begin{array} {c} x_1-\mu_1\\ \vdots\\ x_D-\mu_D \end{array} \right)\\ &=\sum_{i=1}^D\sum_{j=1}^Dc_{ij}(x_i-\mu_i)(x_j-\mu_j)\\ &=\sum_{i=1}^D\sum_{j=i+1}^D(c_{ij}+c_{ji})(x_i-\mu_i)(x_j-\mu_j)\\ &=0 \end{aligned} \]

這就說明了\(\Delta^2=(\mathbf{x}-\pmb\mu)^T\mathbf{B}(\mathbf{x}-\pmb\mu)\),也就是任何非對稱項都會從多元高斯分佈的指數項中消失,在後續討論中,我們預設矩陣\(\mathbf{\Sigma}\)是對稱矩陣。

​ 對於協方差矩陣\(\mathbf{\Sigma}\),考慮其特徵方程\(\mathbf{\Sigma}\mathbf{u}_i=\lambda\mathbf{u}_i\),由於\(\mathbf{\Sigma}\)是實對稱矩陣,那麼其特徵值也是實數,且其特徵向量可以被選為單位正交的(即\(\mathbf{u}_i^T\mathbf{u}_j=\delta_{ij}\)),則協方差矩陣可以寫作展開的形式

\[\mathbf{\Sigma}=\sum_{i=1}^D\lambda_i\mathbf{u}_i\mathbf{u}_i^T \]

下面給出該結論的證明。首先構造矩陣\(\mathbf{U}=(\mathbf{u}_1,\cdots,\mathbf{u}_D)\),即其中的每一列是特徵向量,該矩陣滿足\(\mathbf{U}\mathbf{U}^T=\mathbf{I}\)(或者等價條件\(\mathbf{U}^T\mathbf{U}=\mathbf{I}\)\(\mathbf{U}^{-1}=\mathbf{U}^T\)),因此稱為正交矩陣(orthogonal matrix),根據線性代數知識有\(\mathbf{\Sigma}\mathbf{U}=\mathbf U\mathbf \Lambda\),那麼

\[\mathbf\Sigma\mathbf U=\mathbf U\mathbf \Lambda=(\mathbf{u}_1,\cdots,\mathbf{u}_D) \left( \begin{array} {ccc} \lambda_1&&\\ &\ddots&\\ &&\lambda_D \end{array} \right) =(\lambda_1\mathbf{u}_1,\cdots,\lambda_D\mathbf{u}_D) \]

因此

\[\mathbf\Sigma=\mathbf U\mathbf\Lambda\mathbf U^{-1}=\mathbf U\mathbf\Lambda\mathbf U^{T} =(\lambda_1\mathbf{u}_1,\cdots,\lambda_D\mathbf{u}_D) \left( \begin{array} {c} \mathbf{u}_1^T\\ \vdots\\ \mathbf{u}_D^T \end{array} \right) =\sum_{i=1}^D\lambda_i\mathbf{u}_i\mathbf{u}_i^T \]

因此\(\mathbf \Sigma=\sum_{i=1}^D\lambda_i\mathbf{u}_i\mathbf{u}_i^T\)得證。而在\(\mathbf\Sigma\mathbf U=\mathbf U\mathbf\Lambda\)兩側同時取逆矩陣得到\(\mathbf U^{-1}\mathbf\Sigma^{-1}=\mathbf\Lambda^{-1}\mathbf U^{-1}\),進而

\[\mathbf\Sigma^{-1}=(\mathbf U^{-1})^{-1}\mathbf\Lambda\mathbf U^{-1}=\mathbf U\mathbf\Lambda^{-1}\mathbf U^T=\sum_{i=1}^D\frac{1}{\lambda_i}\mathbf{u}_i\mathbf{u}_i^T \]

將此式代入二次型\(\Delta^2=(\mathbf{x}-\pmb\mu)^T\mathbf\Sigma^{-1}(\mathbf{x}-\pmb\mu)\)中得到

\[\Delta^2=\sum_{i=1}^D\frac{1}{\lambda_i}(\mathbf{x}-\pmb\mu)^T\mathbf{u}_i\mathbf{u}_i^T(\mathbf{x}-\pmb\mu)=\sum_{i=1}^D\frac{y_i^2}{\lambda_i},\quad y_i=\mathbf{u}_i^T(\mathbf{x}-\pmb\mu) \]

如果二次型的值為常數且所有的特徵值\(\lambda_i\)為正數,那麼該二次型可以視為一個橢球面,橢球中心位於\(\pmb\mu\)處,但是該橢球的各軸可能不沿著\(\mathbf{u}_i\)方向,該式的意義就在於給出了一組新的基底\(\mathbf{y}=\mathbf U(\mathbf{x}-\pmb\mu)\),使得橢球在此座標系下的中心位於\((0,0,\cdots,0)^T\)處,且各軸的方向沿著\(\mathbf{u}_i\)方向,縮放因子為\(\lambda_i^{1/2}\)。在後面的“高斯分佈的矩”一節中,將使用Dirac符號對此結論再給出一個推導。

​ 如果一個矩陣的特徵值全為正數,則稱此矩陣正定的(positive definite);如果一個矩陣的特徵值全為非負數,則稱此矩陣是半正定的(positive semidefinite)。對於任意形式的高斯分佈而言,其協方差矩陣必須是正定的。

​ 對於新的基底\(\mathbf{y}=\mathbf U(\mathbf{x}-\pmb\mu)\)而言,高斯分佈的形式又當如何?先定義Jacobian矩陣如下

\[\mathbf J= \left( \begin{array} {ccc} \frac{\partial x_1}{\partial y_1}&\cdots&\frac{\partial x_1}{\partial y_D}\\ \vdots&&\vdots\\ \frac{\partial x_D}{\partial y_1}&\cdots&\frac{\partial x_D}{\partial y_D} \end{array} \right) =\mathbf U^T \]

且有\(|\mathbf J|^2=|\mathbf U^T|^2=|\mathbf U^T||\mathbf U^T|=|\mathbf U^T||\mathbf U|=|\mathbf U^T\mathbf U|=|\mathbf I|=1\),以及\(|\mathbf\Sigma|=\prod_{i=1}^D\lambda_i^{1/2}\),所以

\[p(\mathbf{y})=p(\mathbf{x})|\mathbf J|=\prod_{i=1}^D\frac{1}{(2\pi\lambda_i)^{1/2}}\text{exp}\{-\frac{y_i^2}{2\lambda_i}\} \]

該式也可以理解為\(p(\mathbf{y})=\prod_{i=1}^Dp(y_i)\)。注意,在任意的座標變換中,Jacobian矩陣都是十分重要的,它決定了座標變換後整體的“放縮程度”。

3.2 題外話——Dirac符號

​ 作為擴充內容,現在簡要介紹首先Dirac符號的概念。Dirac符號是構成現代量子力學形式體系的重要組成部分,由Dirac在1939年提出,Dirac將“括號(bracket)”一詞一分為二,得到的兩個單詞分別代表左右向量。對於復向量空間\(\mathbb C^n\),其中的任意一個元素(列向量)記為

\[|u\rangle= \left( \begin{array} {c} x_1\\ \vdots\\ x_n \end{array} \right) \qquad\text{或}\qquad |u\rangle=(x_1,\cdots,x_n)^T \]

(其中\(x_i\in\mathbb C\))稱為右矢(ket vector or ket),可以定義右矢的加法和數乘運算、並且可以引入線性相關與線性無關等概念,這和線性代數是一樣的,此處不再單獨敘述。而任意的行向量

\[\langle\alpha|=(\alpha_1,\cdots,\alpha_n) \]

(其中\(\alpha_i\in\mathbb C\))稱為左矢(bra vector or bra)。並且右矢和左矢的乘積\(\langle\alpha|x\rangle=\sum_{i=1}^n\alpha_ix_i\)稱為內積(inner product)。這樣,如果保持左矢不變,通過內積運算便將\(\mathbb C^n\)中的任意元素\(|x\rangle\)對映到了\(\mathbb C\)中的某個元素\(\langle\alpha|x\rangle\),這可以看成是一種向量函式。如果在保持左矢不變的情況下,記此時的內積為一個從\(\mathbb C^n\)\(\mathbb C\)的向量函式\(f\),且\(f\)滿足線性條件(linearity condition),即

\[f(c_1|x\rangle+c_2|y\rangle)=c_1f(|x\rangle)+c_2f(|y\rangle),\\ \forall|x\rangle,|y\rangle\in\mathbb C^n,\forall c_1,c_2\in\mathbb C \]

那麼稱此時的\(f\)線性函式(linear function)。容易驗證,一個左矢和內積運算便構成了一個這樣的\(f\)。並且,通過選取合適的左矢,可以表示出任何從\(\mathbb C^n\)\(\mathbb C\)的線性函式,因為當一個線性函式作用在一個右矢上的時候,從內積運算的定義便知道它給出的結果\(f(|x\rangle)\)總是形如\(\langle\alpha|x\rangle=\sum_{i=1}^n\alpha_ix_i\),那麼\(\langle\alpha|\)便可以代表此時的線性函式。線上性代數中我們學過:一組正交基(的線性組合)可以用來表示一個線性空間。對於向量空間來說,選取\(\mathbb C^n\)中的單位正交向量組\(\{|u_1\rangle,\cdots,|u_n\rangle\}\),則其滿足\(\langle u_i|u_j\rangle=\delta_{ij}\),且\(\mathbb C^n\)中任意向量\(|x\rangle\)可以表示為\(\sum_{i=1}^nc_i|u_i\rangle\),在等式兩側進行內積運算便得到

\[\langle u_j|x\rangle=\sum_{i=1}^nc_i\langle e_j|u_i\rangle=\sum_{i=1}^nc_i\delta_{ij}=c_j \]

即有\(c_j=\langle u_j|x\rangle\)​,這給出了各個座標的計算公式,將其代入\(|x\rangle\)的表示式便有

\[|x\rangle=\sum_{i=1}^nc_i|u_i\rangle=\sum_{i=1}^n\langle u_i|x\rangle|u_i\rangle=\sum_{i=1}^n|u_i\rangle\langle u_i|x\rangle= \left( \sum_{i=1}^n|u_i\rangle\langle u_i| \right) |x\rangle \]

於是便得到一個重要的關係式

\[\sum_{i=1}^n|u_i\rangle\langle u_i|=\mathbf I \]

該關係式稱為完備性關係(completeness relation)

​ 最後介紹一個概念:投影運算元(projection operator)被定義為\(P_k=|u_k\rangle\langle u_k|\),其含義是對任意向量\(|v\rangle\)左乘投影運算元,必然得到該向量\(|v\rangle\)在方向\(|u_k\rangle\)上的分量,這是針對向量空間的討論,向量空間是線性空間最簡單的形式。對於矩陣空間來說,該空間仍然是線性空間(因為滿足線性空間的八條原則),因此亦可以選擇若干基底矩陣來生成該空間。對於\(D\times D\)矩陣而言,至多用\(D^2\)個基底矩陣便可以描述該矩陣空間。特別地,在之前的內容中,我們已經證明一個矩陣可以寫成其特徵向量的展開的形式,因此一組\(|u_k\rangle\langle u_k|\)總能夠用來表示某一個特定的矩陣,即

\[\mathbf\Sigma=\sum_{i=1}^D\lambda_i|u_i\rangle\langle u_i| \]

其中\(\lambda_i|u_i\rangle\langle u_i|\)可認為是基底\(|u_i\rangle\langle u_i|\)上的分量。

​ Dirac符號的一個簡單用途就是速記代數形式對應的具體結構:\(\langle\cdots\rangle\)對應的是具體的數;\(\langle\cdots|\)對應的是行向量;\(|\cdots\rangle\)對應的是列向量;\(|\cdots|\)對應的是矩陣(方陣)。

3.3 題外話——矩陣微分

​ 現在來介紹矩陣微分的概念。給定向量\(\mathbf{a}\)\(\mathbf{b}\)以及標量\(x\)、向量\(\mathbf{x}\)和矩陣\(\mathbf A\)\(\mathbf B\),則有以下重要定義

\[\begin{aligned} \frac{\partial\text{標量}}{\partial\text{標量}}&\qquad \text{略}\\ \frac{\partial\text{標量}}{\partial\text{向量}}&\qquad (\frac{\partial x}{\partial\mathbf{a}})_i=\frac{\partial x}{\partial a_i}\\ \frac{\partial\text{標量}}{\partial\text{矩陣}}&\qquad \frac{\partial x}{\partial \mathbf A}= \left( \begin{array} {cccc} \frac{\partial x}{\partial A_{11}}&\frac{\partial x}{\partial A_{12}}&\cdots&\frac{\partial x}{\partial A_{1n}}\\ \frac{\partial x}{\partial A_{21}}&\frac{\partial x}{\partial A_{22}}&\cdots&\frac{\partial x}{\partial A_{2n}}\\ \vdots&\vdots&&\vdots\\ \frac{\partial x}{\partial A_{n1}}&\frac{\partial x}{\partial A_{n2}}&\cdots&\frac{\partial x}{\partial A_{nn}} \end{array} \right) \\ \frac{\partial\text{向量}}{\partial\text{標量}}&\qquad (\frac{\partial\mathbf{a}}{\partial x})_i=\frac{\partial a_i}{\partial x}\\ \frac{\partial\text{向量}}{\partial\text{向量}}&\qquad (\frac{\partial\mathbf{a}}{\partial\mathbf{b}})_{ij}=\frac{\partial a_i}{\partial b_j}\\ \frac{\partial\text{向量}}{\partial\text{矩陣}}&\qquad \text{無}\\ \frac{\partial\text{矩陣}}{\partial\text{標量}}&\qquad \frac{\partial \mathbf A}{\partial x}= \left( \begin{array} {cccc} \frac{\partial A_{11}}{\partial x}&\frac{\partial A_{12}}{\partial x}&\cdots&\frac{\partial A_{1n}}{\partial x}\\ \frac{\partial A_{21}}{\partial x}&\frac{\partial A_{22}}{\partial x}&\cdots&\frac{\partial A_{2n}}{\partial x}\\ \vdots&\vdots&&\vdots\\ \frac{\partial A_{n1}}{\partial x}&\frac{\partial A_{n2}}{\partial x}&\cdots&\frac{\partial A_{nn}}{\partial x} \end{array} \right) \\ \frac{\partial\text{矩陣}}{\partial\text{向量}}&\qquad \text{無}\\ \frac{\partial\text{矩陣}}{\partial\text{矩陣}}&\qquad \text{無}\\ \end{aligned} \]

容易得到下面的結論

\[\begin{aligned} (\text{i})&\quad\frac{\partial}{\partial\mathbf{x}}(\mathbf{x}^T\mathbf{a})=\frac{\partial}{\partial\mathbf{x}}(\mathbf{a}^T\mathbf{x})=\mathbf{a}\\ (\text{ii})&\quad\frac{\partial}{\partial\mathbf{x}}(\mathbf A\mathbf B)=\frac{\partial \mathbf A}{\partial\mathbf{x}}\mathbf B+\mathbf A\frac{\partial \mathbf B}{\partial\mathbf{x}}\\ (\text{iii})&\quad\frac{\partial}{\partial x}(\mathbf A^{-1})=-\mathbf A^{-1}\frac{\partial \mathbf A}{\partial x}\mathbf A^{-1}\\ (\text{iv})&\quad\frac{\partial}{\partial x}\ln|\mathbf A|=\text{Tr}(\mathbf A^{-1}\frac{\partial\mathbf A}{\partial x})\\ (\text{v})&\quad\frac{\partial}{\partial A_{ij}}\text{Tr}(\mathbf A\mathbf B)=B_{ji}\\ (\text{vi})&\quad\frac{\partial}{\partial\mathbf A}\text{Tr}(\mathbf A\mathbf B)=\mathbf B^T\\ (\text{vii})&\quad\frac{\partial}{\partial\mathbf A}\text{Tr}(\mathbf A^T\mathbf B)=\mathbf B\\ (\text{viii})&\quad\frac{\partial}{\partial\mathbf A}\text{Tr}(\mathbf A)=\mathbf I\\ (\text{ix})&\quad\frac{\partial}{\partial\mathbf A}\text{Tr}(\mathbf A\mathbf B\mathbf A^T)=\mathbf A(\mathbf B+\mathbf B^T)\\ (\text{x})&\quad\frac{\partial}{\partial\mathbf A}\ln|\mathbf A|=(\mathbf A^{-1})^T \end{aligned} \]

3.4 高斯分佈的矩

​ 在多元高斯分佈中,我們從矩陣視角來分析矩。對於多元高斯分佈

\[\mathcal N(\mathbf{x}|\pmb\mu,\mathbf\Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\text{exp}\{-\frac12(\mathbf{x}-\pmb\mu)^T{\mathbf\Sigma}^{-1}(\mathbf{x}-\pmb\mu)\} \]

來說,它的一階矩為

\[\begin{aligned} E(\mathbf{x})=\int\mathcal N(\mathbf{x}|\pmb\mu,\mathbf\Sigma)\mathbf{x}d\mathbf{x}&=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\int\text{exp}\{-\frac12(\mathbf{x}-\pmb\mu)^T{\mathbf\Sigma}^{-1}(\mathbf{x}-\pmb\mu)\}\mathbf{x}d\mathbf{x}\\ &=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\int\text{exp}\{-\frac{1}{2}\mathbf{z}^T\mathbf\Sigma^{-1}\mathbf{z}\}(\mathbf{z}+\pmb\mu)d(\mathbf{z}+\pmb\mu)\\ &=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\int(\text{exp}\{-\frac{1}{2}\mathbf{z}^T\mathbf\Sigma^{-1}\mathbf{z}\}\mathbf{z}+\text{exp}\{-\frac{1}{2}\mathbf{z}^T\mathbf\Sigma^{-1}\mathbf{z}\}\pmb\mu)d\mathbf{z} \end{aligned} \]

由於指數部分是關於\(\mathbf{z}\)的偶函式且整個積分割槽間為\((-\infty,+\infty)\),因此\(\text{exp}\{-\frac{1}{2}\mathbf{z}^T\mathbf\Sigma^{-1}\mathbf{z}\}\mathbf{z}\)部分關於\(\mathbf{z}\)的積分為零,故\(E(\mathbf{x})=\pmb\mu\),因此將其稱為高斯分佈的均值,這和我們的直觀感覺是一致的。現在來看二階矩。在一元情況下,二階矩由\(E(x^2)\)給出。對於多元變數而言,有\(D^2\)個由\(E(x_i\cdot x_j)\)給出的二階矩,可以聚在一起寫成矩陣形式,即多元情況下的二階矩為

\[\begin{aligned} E(\mathbf{x}\mathbf{x}^T)&=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\int\text{exp}\{-\frac12(\mathbf{x}-\pmb\mu)^T{\mathbf\Sigma}^{-1}(\mathbf{x}-\pmb\mu)\}\mathbf{x}\mathbf{x}^Td\mathbf{x}\\ &=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\int\text{exp}\{-\frac12\mathbf{z}^T{\mathbf\Sigma}^{-1}\mathbf{z}\}(\mathbf{z}+\pmb\mu)(\mathbf{z}+\pmb\mu)^Td\mathbf{z} \end{aligned} \]

注意到\((\mathbf{z}+\pmb\mu)(\mathbf{z}+\pmb\mu)^T=(\mathbf{z}+\pmb\mu)(\mathbf{z}^T+\pmb\mu^T)=\mathbf{z}\mathbf{z}^T+\mathbf{z}\pmb\mu^T+\pmb\mu\mathbf{z}^T+\pmb\mu\pmb\mu^T\),其中涉及到\(\mathbf{z}\pmb\mu^T\)\(\pmb\mu\mathbf{z}^T\)的積分值都將因為對稱性(和一元情況類似)而等於零,涉及到常數\(\pmb\mu\pmb\mu^T\)的積分值將等於\(\pmb\mu\pmb\mu^T\),下面討論涉及到\(\mathbf{z}\mathbf{z}^T\)的積分值。取單位正交基\(\{|u_1\rangle,|u_2\rangle,\cdots,|u_D\rangle\}\)使得\(\mathbf\Sigma^{-1}=\sum_{i=1}^D\frac{1}{\lambda_i}|u_i\rangle\langle u_i|\),且\(|z\rangle=\sum_{i=1}^Dy_i|u_i\rangle\)(其中\(y_i=\langle u_i|z\rangle\)​),那麼有對於指數部分有

\[\begin{aligned} \mathbf{z}^T{\mathbf\Sigma}^{-1}\mathbf{z}&=\sum_{i=1}^D\langle u_i|z\rangle\langle u_i|\cdot\sum_{j=1}^D\frac{1}{\lambda_j}| u_j\rangle\langle u_j|\cdot\sum_{k=1}^D\langle u_k|z\rangle|u_k\rangle\\ &=\sum_{i=1}^D\sum_{j=1}^D\sum_{k=1}^D\frac{1}{\lambda_j}\langle u_i|z\rangle\langle u_i|u_j\rangle\langle u_j|u_k\rangle\langle u_k|z\rangle\\ &=\sum_{i=1}^D\sum_{j=1}^D\sum_{k=1}^D\frac{1}{\lambda_j}\langle u_i|z\rangle\delta_{ij}\delta_{jk}\langle u_k|z\rangle\\ &=\sum_{i=1}^D\frac{1}{\lambda_i}\langle u_i|z\rangle\langle u_i|z\rangle=\sum_{i=1}^D\frac{y_i^2}{\lambda_i}(=\mathbf{y}^T\mathbf\Lambda^{-1}\mathbf{y}) \end{aligned} \]

其中\(\mathbf{y}=(y_1,y_2,\cdots,y_D)^T\),故\(\mathbf{z}=\mathbf U\mathbf{y}\),其中\(\mathbf U=(|u_1\rangle~~|u_2\rangle~~\cdots~~|u_D\rangle)\)\(|\mathbf U|=1\),於是有\(d\mathbf{z}=d\mathbf{y}\),進而

\[\begin{aligned} &\quad\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\int\text{exp}\{-\frac12\mathbf{z}^T{\mathbf\Sigma}^{-1}\mathbf{z}\}\mathbf{z}\mathbf{z}^Td\mathbf{z}\\ &=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\int\text{exp}\{-\frac12\sum_{k=1}^D\frac{y_k^2}{\lambda_k}\}\cdot(\sum_{i=1}^D\langle u_i|z\rangle|u_i\rangle)\cdot(\sum_{j=1}^D\langle u_j|z\rangle\langle u_j|)d\mathbf{y}\\ &=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\int\text{exp}\{-\frac12\sum_{k=1}^D\frac{y_k^2}{\lambda_k}\}\cdot\sum_{i=1}^D\sum_{j=1}^D\langle u_i|z\rangle\langle u_j|z\rangle|u_i\rangle\langle u_j|d\mathbf{y}\\ &=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\int\text{exp}\{-\frac12\sum_{k=1}^D\frac{y_k^2}{\lambda_k}\}\cdot\sum_{i=1}^D\sum_{j=1}^Dy_iy_j|u_i\rangle\langle u_j|d\mathbf{y}\\ &=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\sum_{i=1}^D\sum_{j=1}^D|u_i\rangle\langle u_j|\int\text{exp}\{-\frac12\sum_{k=1}^D\frac{y_k^2}{\lambda_k}\}\cdot y_iy_jd\mathbf{y}\\ &=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\sum_{i=1}^D|u_i\rangle\langle u_i|\int\text{exp}\{-\frac12\sum_{k=1}^D\frac{y_k^2}{\lambda_k}\}y_i^2d\mathbf{y}\\ &=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\sum_{i=1}^D|u_i\rangle\langle u_i|\iint\cdots\int\text{exp}\{-\frac12\sum_{k=1}^D\frac{y_k^2}{\lambda_k}\}y_i^2dy_1dy_2\cdots dy_D \end{aligned} \]

其中倒數第三個等號到倒數第二個等號的原因是:當\(i\neq j\)時,被積函式中必定有一項形如\(\text{exp}\{-\frac12y_i^2\}y_i\),而這是奇函式,且積分割槽間是\((-\infty,+\infty)\),因此會等於零。注意,關於向量的積分應該化成上述多重積分的形式。上述積分可以拆成

\[\iint\cdots\int\text{exp}\{-\frac{y_1^2}{2\lambda_1}\}\cdot\text{exp}\{-\frac{y_2^2}{2\lambda_2}\}\cdots\text{exp}\{-\frac{y_D^2}{2\lambda_D}\}y_i^2dy_1dy_2\cdots dy_D \]

並且易證下述兩個結論

\[\begin{aligned} \int\text{exp}\{-\frac{y_k^2}{2\lambda_k}\}dy_i&= \begin{cases} \begin{aligned} 0,\qquad\qquad\quad&k\neq i\\ (2\pi\lambda_i)^{1/2},\quad~~~&k=i \end{aligned} \end{cases}\\ \int\text{exp}\{-\frac{y_k^2}{2\lambda_k}\}y_i^2dy_j&= \begin{cases} \begin{aligned} 0,\qquad\qquad\quad&k\neq i~\text{or}~i\neq j\\ (2\pi\lambda_i)^{1/2}\lambda_i,\quad&k=i=j \end{aligned} \end{cases}\\ \end{aligned} \]

將這兩個結論代入拆解之後的式子,並進行整理,便可以求出

\[E(\mathbf{x}\mathbf{x}^T)=\text{涉及到}\pmb\mu\pmb\mu^T\text{的積分值}+\text{涉及到}\mathbf{z}\mathbf{z}^T\text{的積分值}=\pmb\mu\pmb\mu^T+\mathbf\Sigma \]

​ 當然,對於多項式變數情形的二階矩,我們也可以求二階中心矩,即為

\[\text{var}(\mathbf{x})=E((\mathbf{x}-E(\mathbf{x}))(\mathbf{x}-E(\mathbf{x})))=\mathbf\Sigma \]

這即為協方差矩陣。

​ 一個協方差矩陣衡量了各變數之間的制約關係,如果協方差矩陣的自由引數越多、則描述的模型越複雜,如果協方差矩陣的自由引數越少、則描述的模型越簡單。通常而言,一個任意的對稱協方差矩陣有\(\frac{D(D+1)}{2}\)各自由引數,加之\(D\)個自由的\(\mu_1,\cdots,\mu_D\)引數,該模型共有\(\frac{D(D+3)}{2}\)個獨立引數。如果協方差矩陣是對角矩陣,那麼該模型共有\(2D\)個獨立引數。如果進一步限制協方差矩陣為單位矩陣的倍數,即\(\mathbf\Sigma=\sigma^2\mathbf I\),則此時的協方差矩陣被稱為是各向同性的(isotropic),此時模型共有\(D+1\)個獨立引數。

3.5 條件高斯分佈

​ 條件分佈就是已知部分資訊的情況下的概率分佈,對於多項式變數\(\mathbf{x}\)而言,將其分為兩部分\(\mathbf{x}_a\)\(\mathbf{x}_b\),即\(\left(\begin{array}{c}\mathbf{x}_a\\\mathbf{x}_b\end{array}\right)\),分別對應\(D\)個變數中的前\(M\)個變數後\(D-M\)個變數,那麼此時的均值劃分為\(\pmb\mu=\left(\begin{array}{c}\pmb\mu_a\\\pmb\mu_b\end{array}\right)\),協方差矩陣劃分為\(\mathbf\Sigma=\left(\begin{array}{cc}\mathbf\Sigma_{aa}&\mathbf\Sigma_{ab}\\\mathbf\Sigma_{ba}&\mathbf\Sigma_{bb}\end{array}\right)\),注意\(\mathbf\Sigma_{ba}=\mathbf\Sigma_{ab}^T\),並且\(\mathbf\Sigma_{aa}\)\(\mathbf\Sigma_{bb}\)都是對稱的。在之前我們已經多次使用\(\mathbf\Sigma^{-1}\)這個矩陣,現在對其命名如下

\[\mathbf\Lambda\equiv\mathbf\Sigma^{-1} \]

這被稱為精度矩陣(precision matrix),並且此時有\(\mathbf\Lambda=\left(\begin{array}{cc}\mathbf\Lambda_{aa}&\mathbf\Lambda_{ab}\\\mathbf\Lambda_{ba}&\mathbf\Lambda_{bb}\end{array}\right)\),當然\(\mathbf\Lambda_{ba}=\mathbf\Lambda_{ab}^T\)並且\(\mathbf\Lambda_{aa}\)\(\mathbf\Lambda_{bb}\)都是對稱的。

​ 現在來尋找條件概率分佈\(p(\mathbf{x}_a|\mathbf{x}_b)\)的表示式。對於二次型\(\Delta^2\)而言

\[\begin{aligned} \Delta^2=&-\frac12(\mathbf{x}-\pmb\mu)^T\mathbf\Sigma^{-1}(\mathbf{x}-\pmb\mu)\\ =&-\frac12(\mathbf{x}_a-\pmb\mu_a)^T\mathbf\Lambda_{aa}(\mathbf{x}_a-\pmb\mu_a)-\frac12(\mathbf{x}_a-\pmb\mu_a)^T\mathbf\Lambda_{ab}(\mathbf{x}_b-\pmb\mu_b)\\ &-\frac12(\mathbf{x}_b-\pmb\mu_b)^T\mathbf\Lambda_{ba}(\mathbf{x}_a-\pmb\mu_a)-\frac12(\mathbf{x}_b-\pmb\mu_b)^T\mathbf\Lambda_{bb}(\mathbf{x}_b-\pmb\mu_b) \end{aligned} \]

若將此二次型視為\(\mathbf{x}_a\)的函式,則這又是一個二次型,因此對應的分佈\(p(\mathbf{x}_a|\mathbf{x}_b)\)亦是一個高斯分佈。由於任意二次型可以重新寫為

\[\begin{aligned} \Delta^2&=-\frac12\mathbf{x}^T\mathbf\Sigma^{-1}\mathbf{x}+\frac12\mathbf{x}^T\mathbf\Sigma^{-1}\pmb\mu+\frac12\pmb\mu^T\mathbf\Sigma^{-1}\mathbf{x}+\text{對於}\mathbf{x}\text{而言是常數}\\ &=\frac12\mathbf{x}^T\mathbf\Sigma^{-1}\mathbf{x}+\mathbf{x}^T\mathbf\Sigma^{-1}\pmb\mu+\text{對於}\mathbf{x}\text{而言是常數} \end{aligned} \]

根據Dirac符號,\(\langle x|\pmb\Sigma^{-1}|\pmb\mu\rangle\)\(\langle\pmb\mu|\pmb\Sigma^{-1}|\mathbf{x}\rangle\)均為實數且兩式互為轉置關係,而實數的轉置是它本身,因此兩項可以合併。現在,只要將任意二次型整理成上述形式,就能在一次項中直接看出均值\(\pmb\mu\)、在二次項中直接看出精度矩陣\(\mathbf\Lambda\)(即協方差矩陣\(\mathbf\Sigma\)的逆矩陣),而條件概率分佈的二次型可以寫為

\[\Delta^2=-\frac12\mathbf{x}_a^T\mathbf\Lambda_{aa}\mathbf{x}_{a}+\mathbf{x}_a^T\mathbf\Lambda_{aa}(\pmb\mu_a-\mathbf\Lambda_{aa}^{-1}\mathbf\Lambda_{ab}(\mathbf{x}_b-\pmb\mu_b))+\text{對於}\mathbf{x}_a\text{而言是常數} \]

因此條件概率分佈\(p(\mathbf{x}_a|\mathbf{x}_b)\)的均值和協方差矩陣分別為

\[\begin{aligned} \pmb\mu_{a|b}&=\pmb\mu_a-\mathbf\Lambda_{aa}^{-1}\mathbf\Lambda_{ab}(\mathbf{x}_b-\pmb\mu_b)\\ \mathbf\Sigma_{a|b}&=\mathbf\Lambda_{aa}^{-1} \end{aligned} \]

​ 從上面的過程中可以看出,使用精度矩陣是十分方便的,對於分塊矩陣的逆與各個分塊的關係,有如下等式

\[\left( \begin{array} {cc} \mathbf A&\mathbf B\\ \mathbf C&\mathbf D \end{array} \right)^{-1}= \left( \begin{array} {cc} \mathbf M&-\mathbf M\mathbf B\mathbf D^{-1}\\ -\mathbf D^{-1}\mathbf C\mathbf M&\mathbf D^{-1}+\mathbf D^{-1}\mathbf C\mathbf M\mathbf B\mathbf D^{-1} \end{array} \right) \]

其中\(\mathbf M=(\mathbf A-\mathbf B\mathbf D^{-1}\mathbf C)^{-1}\),並且稱\(\mathbf M^{-1}\)為左側矩陣關於子矩陣\(\mathbf D\)舒爾補(Schur complement)。用該等式可以求得條件概率分佈\(p(\mathbf{x}_a|\mathbf{x}_b)\)的均值和協方差矩陣的另一種形式

\[\begin{aligned} \pmb\mu_{a|b}&=\pmb\mu_a+\mathbf\Sigma_{ab}\mathbf\Sigma_{bb}^{-1}(\mathbf{x}_b-\pmb\mu_b)\\ \mathbf\Sigma_{a|b}&=\mathbf\Sigma_{aa}-\mathbf\Sigma_{ab}\mathbf\Sigma_{bb}^{-1}\mathbf\Sigma_{ba} \end{aligned} \]

從上面可以看出,條件概率分佈的均值僅與\(\mathbf{x}_b\)線性相關且協方差與\(\mathbf{x}_b\)無關,這是線性高斯(linear-Gaussian)模型的一個例子。

3.6 邊緣高斯分佈

​ 當給定聯合分佈\(p(\mathbf{x}_a,\mathbf{x}_b)\)的時候,依照上面的辦法可以求出\(p(\mathbf{x}_b|\mathbf{x}_a)\),現在來考慮邊緣分佈

\[p(\mathbf{x}_a)=\int p(\mathbf{x}_a,\mathbf{x}_b)d\mathbf{x}_b \]

顯然邊緣分佈亦是高斯分佈,現在的任務就是求出邊緣高斯分佈的均值和協方差矩陣。先提取出其中關於\(\mathbf{x}_b\)的項,對二次型\(\Delta^2\)進行整理得到

\[\begin{aligned} \Delta^2&=-\frac12\mathbf{x}_b^T\mathbf\Lambda_{bb}\mathbf{x}_b+\mathbf{x}_b^T\mathbf{m}+\text{對於}\mathbf{x}_b\text{而言是常數}\\ &=-\frac12(\mathbf{x}_b-\mathbf\Lambda_{bb}^{-1}\mathbf{m})^T\mathbf\Lambda_{bb}(\mathbf{x}_b-\mathbf\Lambda_{bb}^{-1}\mathbf{m})+\frac12\mathbf{m}^T\mathbf\Lambda_{bb}^{-1}\mathbf{m}+\text{對於}\mathbf{x}_b\text{而言是常數} \end{aligned} \]

其中\(\mathbf{m}=\mathbf\Lambda_{bb}\pmb\mu_b-\mathbf\Lambda_{ba}(\mathbf{x}_a-\pmb\mu_{a})\)。若取上式右側第一項,就將被積函式整理成了關於\(\mathbf{x}_b\)的標準形式,此積分值的結果是歸一化係數的倒數,從\(N(\mathbf{x}|\pmb\mu,\mathbf\Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf\Sigma|^{1/2}}\text{exp}\{-\frac12(\mathbf{x}-\pmb\mu)^T{\mathbf\Sigma}^{-1}(\mathbf{x}-\pmb\mu)\}\)中可知均值與協方差和歸一化係數無關,因此不影響討論。現在把上式右側第二項與對於\(\mathbf{x}_b\)而言是常數的項合併得到

\[\begin{aligned} &\quad\frac12\mathbf{m}^T\mathbf\Lambda_{bb}^{-1}\mathbf{m}-\frac12\mathbf{x}_a^T\mathbf\Lambda_{aa}\mathbf{x}_a+\mathbf{x}_a^T(\mathbf\Lambda_{aa}\pmb\mu_{a}+\mathbf\Lambda_{ab}\pmb\mu_b)+\text{對於}\mathbf{x}_a\text{和}\mathbf{x}_b\text{而言是常數}\\ &=-\frac12\mathbf{x}_a^T(\mathbf\Lambda_{aa}-\mathbf\Lambda_{ab}\mathbf\Lambda_{bb}^{-1}\mathbf\Lambda_{ba})\mathbf{x}_a+\mathbf{x}_a^T(\mathbf\Lambda_{aa}-\mathbf\Lambda_{ab}\mathbf\Lambda_{bb}^{-1}\mathbf\Lambda_{ba})\pmb\mu_a+\text{對於}\mathbf{x}_a\text{和}\mathbf{x}_b\text{而言是常數} \end{aligned} \]

與高斯分佈的標準形式相比,可以看到邊緣分佈\(p(\mathbf{x}_a)\)的均值和協方差分別由下面兩式給出

\[\mathbf\Sigma_a=(\mathbf\Lambda_{aa}-\mathbf\Lambda_{ab}\mathbf\Lambda_{bb}^{-1}\mathbf\Lambda_{ba})^{-1}\\ \mathbf\Sigma_a(\mathbf\Lambda_{aa}-\mathbf\Lambda_{ab}\mathbf\Lambda_{bb}^{-1}\mathbf\Lambda_{ba})\pmb\mu_a=\pmb\mu_a \]

使用關於分塊矩陣逆的恆等式有\((\mathbf\Lambda_{aa}-\mathbf\Lambda_{ab}\mathbf\Lambda_{bb}^{-1}\mathbf\Lambda_{ba})^{-1}=\mathbf\Sigma_{aa}\),因此

\[\begin{aligned} E(\mathbf{x}_a)&=\pmb\mu_a\\ \text{cov}(\mathbf{x}_a)&=\mathbf\Sigma_{aa} \end{aligned} \]

​ 在條件高斯分佈中,用分塊精度矩陣表示均值和協方差更加簡便,但是對於邊緣高斯分佈而言,採用分塊協方差矩陣更加簡便。在條件高斯分佈中,我們只需要分離出唯一變數\(\mathbf{x}_a\),剩下的所有部分(包括\(\mathbf{x}_b\))都可以認為是已知的、可以用在均值和協方差表示式中的;但是在邊緣高斯分佈中,兩個變數\(\mathbf{x}_a\)\(\mathbf{x}_b\)是平等的、都是未知的,因此變數\(\mathbf{x}_a\)的均值和協方差的表示式中不能出現\(\mathbf{x}_b\),所以先分離出變數\(\mathbf{x}_b\),再分離出\(\mathbf{x}_a\)就可以求解,注意,這裡的變數分離順序不能改變。

3.7 高斯變數的貝葉斯定理

​ 現在給出如下形式的邊緣高斯分佈和條件高斯分佈

\[\begin{aligned} p(\mathbf{x})&=N(\mathbf{x}|\pmb\mu,\mathbf\Lambda^{-1})\\ p(\mathbf{y}|\mathbf{x})&=N(\mathbf{y}|\mathbf A\mathbf{x}+\mathbf{b},\mathbf L^{-1}) \end{aligned} \]

其中,如果\(\mathbf{x}\)的維度為\(M\)\(\mathbf{y}\)的維度為\(D\),那麼矩陣\(\mathbf A\)的大小為\(D\times M\)。對於聯合自變數\(\mathbf{z}=\left(\begin{array}{c}\mathbf{x}\\\mathbf{y}\end{array}\right)\)而言,聯合概率分佈的對數為

\[\begin{aligned} \ln p(\mathbf{z})&=\ln p(\mathbf{x})+\ln p(\mathbf{y}|\mathbf{x})\\ &=-\frac12(\mathbf{x}-\pmb\mu)^T\mathbf\Lambda(\mathbf{x}-\pmb\mu)-\frac12(\mathbf{y}-A\mathbf{x}-\mathbf{b})^T\mathbf L^{-1}(\mathbf{y}-A\mathbf{x}-\mathbf{b})+\text{對於}\mathbf{x}\text{和}\mathbf{y}\text{而言是常數} \end{aligned} \]

這是\(\mathbf{z}\)的分量的一個二次函式,因此亦是高斯分佈,為了找到這個高斯分佈的均值和協方差,需要將此二次型整理成\(\text{二次項}+\text{一次項}+\text{常數}\)的形式,先看二次項,得到

\[\begin{aligned} &\quad-\frac12\mathbf{x}^T(\mathbf\Lambda+\mathbf A^T\mathbf L\mathbf A)\mathbf{x}-\frac12\mathbf{y}^T\mathbf L\mathbf{y}+\frac12\mathbf{y}^T\mathbf L\mathbf A\mathbf{x}+\frac12\mathbf{x}^T\mathbf A^T\mathbf L\mathbf{y}\\ &=-\frac12\left(\begin{array}{c}\mathbf{x}\\\mathbf{y}\end{array}\right)^T\left(\begin{array}{cc}\mathbf\Lambda+\mathbf A^T\mathbf L\mathbf A&-\mathbf A^T\mathbf L\\-\mathbf L\mathbf A&\mathbf L\end{array}\right)\left(\begin{array}{c}\mathbf{x}\\\mathbf{y}\end{array}\right)=-\frac12\mathbf{z}^T\mathbf R\mathbf{z} \end{aligned} \]

因此高斯分佈的精度矩陣(協方差矩陣的逆矩陣)為

\[\mathbf R=\left(\begin{array}{cc}\mathbf\Lambda+\mathbf A^T\mathbf L\mathbf A&-\mathbf A^T\mathbf L\\-\mathbf L\mathbf A&\mathbf L\end{array}\right) \]

使用關於分塊矩陣逆的恆等式可以得到協方差矩陣為

\[\text{cov}(\mathbf{z})=\mathbf R^{-1}= \left( \begin{array} {cc} \mathbf\Lambda^{-1}&\mathbf\Lambda^{-1}\mathbf A^T\\ \mathbf A\mathbf\Lambda^{-1}&\mathbf L^{-1}+\mathbf A\mathbf\Lambda^{-1}\mathbf A^T \end{array} \right) \]

​ 類似地,找到二次型中的一次項為

\[\mathbf{x}^T\mathbf\Lambda\pmb\mu-\mathbf{x}^T\mathbf A^T\mathbf L\mathbf{b}+\mathbf{y}^T\mathbf L\mathbf{b}= \left(\begin{array}{c}\mathbf{x}\\\mathbf{y}\end{array}\right)^T \left( \begin{array} {c} \mathbf\Lambda\pmb\mu-\mathbf A^T\mathbf L\mathbf{b}\\ \mathbf L\mathbf{b} \end{array} \right) =\mathbf{z}^T\cdot\mathbf R\cdot E(\mathbf{z}) \]

於是均值為

\[E(\mathbf{z})=\mathbf R^{-1} \left( \begin{array} {c} \mathbf\Lambda\pmb\mu-\mathbf A^T\mathbf L\mathbf{b}\\ \mathbf L\mathbf{b} \end{array} \right) =\left( \begin{array} {c} \pmb\mu\\ \mathbf A\mathbf{x}+\mathbf{b} \end{array} \right) \]

​ 接下來來看邊緣分佈\(p(\mathbf{y})\)​的均值和協方差,使用已經得到的結論,可以推得

\[\begin{aligned} E(\mathbf{y})&=\mathbf A\pmb\mu+\mathbf{b}\\ \text{cov}(\mathbf{y})&=\mathbf L^{-1}+\mathbf A\mathbf\Lambda^{-1}\mathbf A^T \end{aligned} \]

​ 最後來尋找條件分佈\(p(\mathbf{x}|\mathbf{y})\)的表示式,在“條件高斯分佈”一節中已經給出了\(\pmb\mu_{a|b}\)\(\mathbf\Sigma_{a|b}\)的一般表示式,現在直接帶入可以得到

\[\begin{aligned} E(\mathbf{x}|\mathbf{y})&=(\mathbf\Lambda+\mathbf A^T\mathbf L\mathbf A)^{-1}\{\mathbf A^T\mathbf L(\mathbf{y}-\mathbf{b})+\mathbf\Lambda\pmb\mu\}\\ \text{cov}(\mathbf{x}|\mathbf{y})&=(\mathbf\Lambda+\mathbf A^T\mathbf L\mathbf A)^{-1} \end{aligned} \]

這給出了先驗分佈引數與後驗分佈引數的精確關係。

3.8 高斯分佈的最大似然估計

​ 給定資料集\(\mathbf{X}=(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_N)^T\),且滿足多元高斯分佈,那麼對數似然函式為

\[\ln p(\mathbf{X}|\pmb\mu,\mathbf\Sigma)=-\frac{ND}{2}\ln(2\pi)-\frac{N}{2}\ln|\mathbf\Sigma|-\frac12\sum_{n=1}^N(\mathbf{x}_n-\pmb\mu)^T\mathbf\Sigma^{-1}(\mathbf{x}_n-\pmb\mu) \]

經過簡單的重新排列,我們可以發現這個對數似然函式的充分統計量為\(\sum_{n=1}^N\mathbf{x}_n\)\(\sum_{n=1}^N\mathbf{x}_n\mathbf{x}_n^T\)。該對數似然函式對引數\(\pmb\mu\)的導數為

\[\frac{\partial}{\partial\pmb\mu}\ln p(\mathbf{X}|\pmb\mu,\mathbf\Sigma)=\sum_{n=1}^N\mathbf\Sigma^{-1}(\mathbf{x}_n-\pmb\mu) \]

令此導數為零,便得到引數\(\pmb\mu\)的極大似然估計為

\[\pmb\mu_{ML}=\frac1N\sum_{n=1}^N\mathbf{x}_n \]

這和我們的直覺是相符的,並且有\(E(\pmb\mu_{ML})=\pmb\mu\),即這個估計是無偏的。下面我們不加證明地指出引數\(\pmb\Sigma\)的極大似然估計為

\[\mathbf\Sigma_{ML}=\frac1N\sum_{n=1}^N(\mathbf{x}_n-\pmb\mu_{ML})(\mathbf{x}_n-\pmb\mu_{ML})^T \]

這也和我們的直覺是相符的,但是\(E(\mathbf\Sigma_{ML})=\frac{N-1}{N}\mathbf\Sigma\),即這個估計是有偏的,當給定資料集的時候,引數\(\pmb\Sigma\)的一個無偏估計為

\[\tilde{\mathbf\Sigma}=\frac{1}{N-1}\sum_{n=1}^N(\mathbf{x}_n-\pmb\mu_{ML})(\mathbf{x}_n-\pmb\mu_{ML})^T \]

3.9 順序估計

​ 對於上一節中得到的\(\pmb\mu_{ML}\)而言,如果我們想定量分析最後一個資料點的貢獻時

\[\begin{aligned} \pmb\mu_{ML}^{(N)}&=\frac1N\sum_{n=1}^N\mathbf{x}_n\\ &=\frac1N\mathbf{x}_N+\frac1N\sum_{n=1}^{N-1}\mathbf{x}_n\\ &=\frac1N\mathbf{x}_N+\frac{N-1}{N}\pmb\mu_{ML}^{(N-1)}\\ &=\pmb\mu_{ML}^{(N-1)}+\frac1N(\mathbf{x}_N-\pmb\mu_{ML}^{(N-1)}) \end{aligned} \]

該式給出了每次得到一個新資料點之後修正引數\(\pmb\mu_{ML}\)的方法:將已經得到的引數\(\pmb\mu_{ML}^{(N-1)}\)沿著方向\(\mathbf{x}_N-\pmb\mu_{ML}^{(N-1)}\)移動一小段距離,且這段距離會隨著資料集的不斷擴大而減小。

​ 在上面的例子中,引數\(\pmb\mu\)的極大似然估計\(\pmb\mu_{ML}\)可以分離出最後一個資料點的貢獻,但是在實際應用中,引數的極大似然估計的形式是十分多樣的,不能確保一定能夠從中分離出最後一個資料點的貢獻。下面我們介紹一個更加普適的順序學習方法:Robbins-Monro方法。一個引數的極大似然估計就是對應的負對數似然函式的一個駐點,即導數值等於零的解,現在先從純數學角度進行分析:考慮隨機變數\(\theta\)\(z\),它們的聯合分佈為\(p(z,\theta)\),那麼在已知\(\theta\)的情況下,\(z\)的條件期望定義了一個關於\(\theta\)的函式\(f(\theta)\)

\[f(\theta)\equiv E(z|\theta)=\int zp(z|\theta)dz \]

通過這種方式定義的函式被稱為迴歸函式(regression function),它的含義是:每給定一個具體的\(\theta_0\)時,\(z\)的期望僅由\(\theta_0\)表示。我們的目標是尋找根\(\theta^*\)使得\(f(\theta^*)=0\),Robbins-Monro方法給出了在順序觀測的情況下找到\(\theta^*\)的方法。假設\(z\)的條件方差是有窮的,因此

\[E((z-f)^2|\theta)<\infty \]

並且設當\(\theta<\theta^*\)\(f(\theta)<0\),當\(\theta>\theta^*\)\(f(\theta)>0\),Robbins-Monro方法通過定義下述序列給出了根\(\theta^*\)的估計為

\[\theta^{(N)}=\theta^{(N-1)}-\alpha_{N-1}z(\theta^{N-1}) \]

其中\(z(\theta^{N-1})\)是當\(\theta\)取值為\(\theta^{N-1}\)時的觀測值,係數\(\{\alpha_n\}\)表示滿足下述三個條件的正數序列

\[\lim_{N\rightarrow\infty}\alpha_N=0,\quad \sum_{N=1}^\infty\alpha_N=\infty,\quad \sum_{N=1}^\infty\alpha_N^2<\infty \]

第一個條件保證了根的修正幅度會逐漸減小(因此能夠收斂到一個有限值),第二個條件保證了不會收斂不到根的值(因此能夠收斂到根的值),第三個條件保證了累計的噪聲具有一個有限的方差(因此不會導致收斂失敗)。

​ 對於任意一個負對數似然函式而言,它的引數\(\theta\)的極大似然估計滿足

\[\frac{\partial}{\partial\theta}\{\frac1N\sum_{n=1}^N-\ln p(x_n|\theta)\}=0 \]

交換導數與求和並取極限\(N\rightarrow\infty\),得到

\[-\lim_{N\rightarrow\infty}\frac1N\sum_{n=1}^N\frac{\partial}{\partial\theta}\ln p(x_n|\theta)=E_x(-\frac{\partial}{\partial\theta}\ln p(x_n|\theta)) \]

因此我們看到尋找極大似然估計對應於尋找回歸函式的根。於是我們可以應用Robbins-Monro方法,此時它的形式為

\[\theta^{(N)}=\theta^{(N-1)}-\alpha_{N-1}\frac{\partial}{\partial\theta^{(N-1)}}[-\ln p(x_N|\theta^{(N-1)})] \]

​ 下面以高斯分佈為例來看看該方法在實際情況中的應用。隨機變數\(z\)

\[z=-\frac{\partial}{\partial\mu_{ML}}\ln p(x|\mu_{ML},\sigma^2)=-\frac{1}{\sigma^2}(x-\mu_{ML}) \]

因此\(z\)的分佈仍是高斯分佈,將此結果代入Robbins-Monro方法,得到

\[\mu_{ML}^{(N)}=\mu_{ML}^{(N-1)}-\frac{\sigma^2}{N-1}(-\frac{1}{\sigma^2}(x_N-\mu_{ML}^{(N-1)})) \]

其中,令\(\alpha_N=\frac{\sigma^2}{N}\)。該結果很容易推廣到多元情形。

3.10 高斯分佈的貝葉斯推斷

​ 極大似然估計給出了均值和方差的點估計,現在引入這些引數的先驗分佈。首先對於一組隨機變數\(\mathbf{x}\)而言,假設方差已知,需要推斷均值,則有似然函式

\[p(\mathbf{x}|\mu)=\prod_{n=1}^Np(x_n|\mu)=\frac{1}{(2\pi\sigma^2)^{N/2}}\text{exp}\{-\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2\} \]

為了保證先驗分佈和後驗分佈的共軛性,現令先驗分佈為\(p(\mu)=N(\mu|\mu_0,\sigma_0^2)\),從而後驗概率滿足

\[p(\mu|\mathbf{x})\varpropto p(\mathbf{x}|\mu)p(\mu)=N(\mu|\mu_N,\sigma_N^2) \]

其中

\[\mu_N=\frac{\sigma^2}{N\sigma_0^2+\sigma^2}\mu_0+\frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}\mu_{ML},\qquad\frac{1}{\sigma_N^2}=\frac{1}{\sigma^2}+\frac{N}{\sigma_0^2} \]

其中\(\mu_{ML}\)\(\mu\)的極大似然估計,即為\(\mu_{ML}=\frac1N\sum_{n=1}^Nx_n\)。從上式自然可以看出:隨著資料集規模\(N\)的增加,\(\mu_N\)會越來越接近\(\mu_{ML}\)。此外,由此式可以發現:精度(方差的倒數)是可以直接疊加的,隨著資料集規模\(N\)的增加,精度會越來越大(即方差會越來越小)。該結論容易推廣到多項式變數的情況。若從順序角度來看高斯分佈的貝葉斯推斷,從後驗分佈中分離出最後一個資料點\(x_N\)得到

\[p(\mu|\mathbf{x})\varpropto[p(\mu)\prod_{n=1}^{N-1}p(x_N|\mu)]p(x_N|\mu) \]

該式明顯揭示了每增加一個資料點所能帶來的貢獻。

​ 上面假設方差已知並推斷均值,下面假設均值已知推斷方差,保持似然函式和先驗分佈的共軛性,得到

\[\begin{aligned} p(\lambda|\mathbf{x})&\varpropto p(\mathbf{x}|\lambda)\cdot\text{Gam}(\lambda|a,b)\\ &\varpropto\lambda^{N/2}\text{exp}\{-\frac{\lambda}{2}\sum_{n=1}^N(x_n-\mu)^2\}\cdot\frac{1}{\Gamma(a)}b^a\lambda^{a-1}\text{exp}(-b\lambda)\\ &\equiv\text{Gam}(\lambda|a_N,b_N) \end{aligned} \]

其中\(\lambda\equiv\frac{1}{\sigma^2}\)Gamma分佈的形式為

\[\text{Gam}(\lambda|a,b)=\frac{1}{\Gamma(a)}b^a\lambda^{a-1}\text{exp}(-b\lambda) \]

並且可以得到

\[\begin{aligned} E(\lambda|a,b)&=\frac{a}{b}\\ \text{var}(\lambda|a,b)&=\frac{a}{b^2} \end{aligned} \]

上述引數\(a_N\)\(b_N\)

\[a_N=a_0+\frac{N}{2},\qquad b_N=b_0+\frac12\sum_{n=1}^N(x_n-\mu)^2=b_0+\frac{N}{2}\sigma_{ML}^2 \]

其中\(\sigma_{ML}^2\)是方差的最大似然估計,即為\(\sigma_{ML}^2=\frac1N\sum_{n=1}^N(x_n-\mu)^2\)(此時假設\(\mu\)已知)。從\(a_N\)的表示式知道,當我們觀測\(N\)個資料點的時候,使得引數\(a_N\)增加了\(\frac{N}{2}\),因此可以將先驗引數\(a_0\)解釋為\(2a_0\)個先驗的有效觀測。在Beta分佈中我們也將先驗引數解釋為有效觀測,實際上,對於指數族分佈而言,把共軛先驗視為有效假想資料點是一個很通用的思路。

​ 如果在分析問題的時候考慮的是\(\sigma^2\)而非\(\lambda\),那麼引入的是逆Gamma(inverse gamma)分佈,此處不介紹。

​ 在具體分析問題的時候,一個重要的技巧就是不需要始終注意一個概率的歸一化係數,比如此處Gamma分佈的歸一化係數可以在任何時候與標準Gamma分佈的形式相比較而得到。

​ 之前先後討論了方差已知推斷均值、均值已知推斷方差兩種情況,現在先來看均值和方差都未知時的情況。為了找到共軛先驗,先考慮似然函式

\[p(\mathbf{x}|\mu,\lambda)=\prod_{n=1}^N(\frac{\lambda}{2\pi})^{1/2}\text{exp}\{-\frac{\lambda}{2}(x_n-\mu)^2\}\varpropto[\lambda^{1/2}\text{exp}(-\frac{\lambda\mu^2}{2})]^N\text{exp}\{\lambda\mu\sum_{n=1}^Nx_n-\frac{\lambda}{2}\sum_{n=1}^Nx_n^2\} \]

故假設先驗分佈為

\[p(\mu,\lambda)\varpropto[\lambda^{1/2}\text{exp}(-\frac{\lambda\mu^2}{2})]^\beta\text{exp}\{c\lambda\mu-d\lambda\}=\text{exp}\{-\frac{\beta\lambda}{2}(\mu-\frac{c}{\beta})\}\lambda^{\beta/2}\cdot\text{exp}\{-(d-\frac{c^2}{2\beta})\lambda\} \]

其中引數\(c\)\(d\)\(\beta\)都為常數,由於\(p(\mu,\lambda)=p(\mu|\lambda)\cdot p(\lambda)\),將上式整理為

\[p(\mu,\lambda)=\mathcal N(\mu|\mu_0,(\beta\lambda)^{-1})\cdot\text{Gam}(\lambda|a,b)=p(\mu|\lambda)\cdot p(\lambda) \]

其中

\[\mu_0=\frac{c}{\beta},\quad a=\frac{1+\beta}{2},\quad b=d-\frac{c^2}{2\beta} \]

該先驗分佈稱為被稱為正態-Gamma(normal-gamma)分佈或者高斯-Gamma(Gaussian-gamma)分佈

​ 對於\(D\)維多項式變數\(\mathbf{x}\)的高斯分佈\(\mathcal N(\mathbf{x}|\pmb\mu,\mathbf\Lambda^{-1})\),如果精度\(\mathbf\Lambda\)已知,那麼均值\(\pmb\mu\)的先驗分佈仍為高斯分佈;如果均值\(\pmb\mu\)已知,那麼精度\(\mathbf\Lambda\)的先驗分佈定義如下

\[\mathcal{W}(\mathbf\Lambda|\mathbf W,\nu)=B|\mathbf\Lambda|^{(\nu-D-1)/2}\text{exp}(-\frac12\text{Tr}(\mathbf W^{-1}\mathbf\Lambda)) \]

該分佈稱為Wishart分佈,其中\(\nu\)被稱為分佈的自由度數量,\(\mathbf W\)是一個\(D\times D\)的標量矩陣,\(\text{Tr}(\cdot)\)表示矩陣的跡,歸一化係數\(B(\mathbf W,\nu)\)

\[B(\mathbf W,\nu)=|\mathbf W|^{-\nu/2}(2^{(\nu D)/2}\pi^{D(D-1)/4}\prod_{i=1}^D\Gamma(\frac{\nu+1-i}{2}))^{-1} \]

和之前一樣,此處也可以用\(\pmb\Sigma\)而非\(\mathbf\Lambda\)參與討論,那麼引入的是逆Wishart(inverse Wishart)分佈。

​ 如果均值\(\pmb\mu\)\(\mathbf\Lambda\)都是未知的,那麼共軛先驗為

\[p(\pmb\mu,\mathbf\Lambda|\pmb\mu_0,\beta,\mathbf W,\nu)=\mathcal N(\pmb\mu|\pmb\mu_0,(\beta\mathbf\Lambda)^{-1})\cdot\mathcal{W}(\mathbf\Lambda|\mathbf W,\nu) \]

這被稱為正態-Wishart(normal-Wishart)分佈或者高斯-Wishart(Gaussian-Wishart)分佈

3.11 學生t分佈

​ 高斯-Gamma用於均值和方差都未知時的引數估計,現在令\(\mathcal N(x|\mu,\tau^{-1})\)\(\text{Gam}(\tau|a,b)\),如果對\(\tau\)積分則得到

\[\begin{aligned} p(x|\mu,a,b)&=\int_0^\infty\mathcal N(x|\mu,\tau^{-1})\cdot\text{Gam}(\tau|a,b)d\tau\\ &=\int_0^\infty\frac{b^ae^{-b\tau}\tau^{a-1}}{\Gamma(a)}(\frac{\tau}{2\pi})^{1/2}\text{exp}\{-\frac\tau2(x-\nu)^2\}d\tau\\ &=\frac{b^a}{\Gamma(a)}(\frac{1}{2\pi})^{1/2}[b+\frac{(x-\mu)^2}{2}]^{-a-1/2}\Gamma(a+\frac12) \end{aligned} \]

現在定義新的引數\(\nu=2a\)\(\lambda=\frac{a}{b}\),則分佈\(p(x|\mu,a,b)\)

\[\text{St}(x|\mu,\lambda,\nu)=\frac{\Gamma(\frac\nu2+\frac12)}{\Gamma(\frac\nu2)}(\frac{\lambda}{\pi\nu})^{1/2}[1+\frac{\lambda(x-\mu)^2}{\nu}]^{-\nu/2-1/2} \]

該分佈被稱為學生t分佈(Student's t-distribution)。引數\(\lambda\)可稱為t分佈的精度,即使它通常不等於方差的倒數。引數\(\nu\)稱為t分佈的自由度。當\(\nu=1\)時,t分佈變為柯西分佈(Cauchy distribution);當\(\nu\rightarrow\infty\)時,t分佈\(\text{St}(x|\mu,\lambda,\nu)\)變為高斯分佈\(p(x|\mu,\lambda^{-1})\),此時均值為\(\mu\)、精度為\(\lambda\)

​ t分佈可以視為無限多個同均值不同精度的高斯分佈相加得到的,因此t分佈比高斯分佈具有更好的魯棒性(robustness),即t分佈更加集中於均值附近,因此更少受到少數離群點(outlier)的影響,下圖紅線表示使用t分佈進行擬合,而綠線表示使用高斯分佈進行擬合

1.2

​ 下面令\(\nu=2a\)\(\lambda=\frac{a}{b}\)以及\(\eta=\frac{\tau b}{a}\),從而給出t分佈的另一種寫法

\[\text{St}(x|\mu,\lambda,\nu)=\int_0^\infty\mathcal N(x|\mu,(\eta\lambda)^{-1})\cdot\text{Gam}(\eta|\frac\nu2,\frac\nu2)d\eta \]

之後便容易將此結果推廣到\(D\)維多元高斯分佈的情況並積分得到

\[\begin{aligned} \text{St}(\mathbf{x}|\pmb\mu,\mathbf\Lambda,\nu)&=\int_0^\infty\mathcal N(\mathbf{x}|\pmb\mu,(\eta\mathbf\Lambda)^{-1})\cdot\text{Gam}(\eta|\frac\nu2,\frac\nu2)d\eta\\ &=\frac{\Gamma(\frac{D}{2}+\frac\nu2)}{\Gamma(\frac\nu2)}\frac{|\mathbf\Lambda|^{1/2}}{(\pi\nu)^{D/2}}[1+\frac{\Delta^2}{\nu}]^{-D/2-\nu/2} \end{aligned} \]

其中\(\Delta^2\)是馬氏距離的平方,\(\Delta^2=(\mathbf{x}-\pmb\mu)^T\mathbf\Lambda(\mathbf{x}-\pmb\mu)\)。且可以得到

\[\begin{aligned} E(\mathbf{x})&=\pmb\mu\\ \text{cov}(\mathbf{x})&=\frac{\nu}{\nu-2}\mathbf\Lambda^{-1}\\ \text{mode}(\mathbf{x})&=\pmb\mu \end{aligned} \]

其中\(\text{mode}(\mathbf{x})\)表示眾數。一元情況的結論可以類似得到,此處略去。

3.12 週期變數

​ 週期變數常使用極座標進行描述,這時用高斯分佈不能很好地描述該變數。一個容易想到的處理週期變數的思路是在\(0\leq\theta\leq2\pi\)中選定一個方向作為原點,然後用傳統的概率分佈方法進行擬合,事實證明該思路在實際應用中侷限頗大。對於週期變數的觀測資料集\(D=\{\theta_1,\cdots,\theta_N\}\),其均值\(\frac{\theta_1+\cdots+\theta_N}{N}\)嚴重依賴於座標系的選擇,為了找到均值的一個不變的度量。現將此觀測視為單位圓上的點,即用模值為\(1\)的二維向量\(\mathbf{x}\)來描述變數\(\theta\),對向量\(\mathbf{x}\)求平均得到\(\bar{\mathbf{x}}=\frac1N\sum_{n=1}^N\mathbf{x}_n\),注意此時的\(||\bar{\mathbf{x}}||\leq1\),即\(\bar{\mathbf{x}}\)通常位於單位圓的內部,對應的\(\bar{\theta}\)與極座標原點的選擇無關,這樣將樣本均值寫為\(\bar{\mathbf{x}}=(\bar{r}\cos\bar\theta,\bar{r}\cos\bar\theta)\),設\(\bar{\mathbf{x}}=(\bar{x}_1,\bar{x}_2)\),則

\[\bar{x}_1=\bar{r}\cos\bar\theta=\frac1N\sum_{n=1}^N\cos\theta_n,\quad\bar{x}_2=\bar{r}\sin\bar\theta=\frac1N\sum_{n=1}^N\sin\theta_n \]

求兩者的比值並代入反三角函式便可得到

\[\bar\theta=\arctan(\frac{\sum_n\sin\theta_n}{\sum_n\cos\theta_n}) \]

​ 下面介紹高斯分佈對週期變數的一種推廣,該推廣滿足以下三個條件

\[p(\theta)\geq0,\quad\int_0^{2\pi}p(\theta)d\theta=1,\quad p(\theta+2\pi)=p(\theta) \]

因此對於變數\(\mathbf{x}=(x_1,x_2)\)而言,若均值為\(\pmb\mu=(\mu_1,\mu_2)\),協方差矩陣為\(\mathbf\Sigma=\sigma^2\mathbf I_{2\times 2}\),因此有

\[p(x_1,x_2)=\frac{1}{2\pi\sigma^2}\text{exp}\{-\frac{(x_1-\mu_1)^2+(x_2-\mu_2)^2}{2\sigma^2}\} \]

顯然,如果此處的\(p(\mathbf{x})\)為常數,那麼對應的輪廓線是一個圓。下面將此分佈從笛卡爾座標\((x_1,x_2)\)轉換到極座標\((r,\theta)\)得到的,即代入\(x_1=r\cos\theta\)\(x_2=r\sin\theta\),並且設\(\mu_1=r_0\cos\theta_0\)\(\mu_2=r_0\sin\theta_0\),從而得到

\[p(\theta|\theta_0,m)=\frac{1}{2\pi I_0(m)}\text{exp}\{m\cos(\theta-\theta_0)\} \]

其中\(m=\frac{r_0}{\sigma^2}\)。該分佈稱為von Mises分佈或者環形正態(circular normal)分佈,引數\(\theta_0\)對應分佈的均值,引數\(m\)稱為concentration引數(類似於高斯分佈方差的倒數、即精度),引數\(I_0(m)\)稱為零階修正的第一類Bessel函式(zeroth-order Bessel function of the first kind),定義為

\[I_0(m)=\frac{1}{2\pi}\int_0^{2\pi}\text{exp}\{m\cos\theta\}d\theta \]

​ 現在考慮環形正態分佈引數\(\theta_0\)和引數\(m\)的極大似然估計,對數似然函式為

\[\ln p(D|\theta_0,m)=-N\ln(2\pi)-N\ln I_0(m)+m\sum_{n=1}^N\cos(\theta_n-\theta_0) \]

可以解得引數\(\theta_0\)的極大似然估計為

\[\theta_0^{ML}=\arctan(\frac{\sum_n\sin\theta_n}{\sum_n\cos\theta_n}) \]

現設\(A(m)=\frac{I_0'(m)}{I_0(m)}=\frac{I_1(m)}{I_0(m)}\),則引數\(m\)的極大似然估計\(m_{ML}\)滿足下面的式子

\[A(m_{ML})=(\frac1N\sum_{n=1}^N\cos\theta_n)\cos\theta_0^{ML}+(\frac1N\sum_{n=1}^N\sin\theta_n)\sin\theta_0^{ML} \]

​ 至於建立週期概率分佈的通用方法,最簡單的思路是使用觀測的直方圖:極座標被劃分成了固定大小的箱子,但是該思路具有較大的侷限性。另一種方法類似於環形正態分佈:先考察歐式空間的高斯分佈,但是這會使得概率分佈的形式異常複雜。最後⼀種方法的思想是,在實數軸上的任何合法的分佈(例如高斯分佈)都可以轉化成周期分佈,轉化的方法是連續地把寬度為\(2\pi\)的區間對映為週期變數\((0,2\pi)\),這相當於把實數軸沿著單位圓進行纏繞,該方法最終求出的概率分佈在計算上較為複雜。

​ 環形正態分佈的⼀個侷限性是這個分佈是單峰的,但是通過將環形正態分佈混合,我們可以得到一些應用性更廣的模型。

3.13 混合高斯模型

​ 由於高斯分佈只是單峰的,因此許多複雜的模型都不能僅只用樸素的高斯分佈來描述,現在引入混合高斯(mixture of Gaussians)分佈的概念,混合高斯分佈是指高斯分佈的線性疊加,即這樣一個分佈

\[p(\mathbf{x})=\sum_{k=1}^K\pi_k\mathcal N(\mathbf{x}|\pmb\mu_k,\mathbf\Sigma_k) \]

其中每個\(\mathcal N(\mathbf{x}|\pmb\mu_k\mathbf\Sigma_k)\)稱為混合分佈的一個成分(component),並且都有自己的均值\(\pmb\mu_k\)和協方差\(\mathbf\Sigma_k\),特別地,\(\pi_k\)被稱為混合係數(mixing coefficient),滿足\(\sum_{k=1}^K\pi_k=1\)以及\(0\leq\pi_k\leq1\)

​ 這種加權平均的思路很容易讓我們想到全概率公式,也就是\(p(\mathbf{x})=\sum_{k=1}^Kp(k)p(\mathbf{x}|k)\),將其中\(\pi_k\)視為選擇第\(k\)個成分的先驗概率\(p(k)\),把密度\(\mathcal N(\mathbf{x}|\pmb\mu_k,\mathbf\Sigma_k)\)視為\(k\)條件下的條件密度,那麼此時的\(p(\mathbf{x})\)在實際意義上就反映了後驗概率\(p(k|\mathbf{x})\),即正比於(但不等於)後驗概率\(p(k|\mathbf{x})\)。後續章節將講述該後驗概率的重要應用,它也被稱為責任(responsibility),根據貝葉斯定理,後驗概率可以被表示為

\[\begin{aligned} \gamma_k(\mathbf{x})&\equiv p(k|\mathbf{x})\\ &=\frac{p(k)p(\mathbf{x}|k)}{\sum_lp(l)p(\mathbf{x}|l)}\\ &=\frac{\pi_k\mathcal N(\mathbf{x}|\pmb\mu_k\mathbf\Sigma_k)}{\sum_l\pi_l\mathcal N(\mathbf{x}|\pmb\mu_l,\mathbf\Sigma_l)} \end{aligned} \]

可以近似地認為,這就是將之前介紹的\(p(\mathbf{x})\)關於引數\(k\)做了歸一化處理,使其反映隨機變數\(k\)的概率分佈而非隨機變數\(\mathbf{x}\)的概率分佈。

​ 現在,我們已經發現,混合高斯分佈由以下三個引數控制

\[\begin{aligned} \pmb\pi&\equiv\{\pi_1,\pi_2,\cdots,\pi_K\}\\ \pmb\mu&\equiv\{\pmb\mu_1,\pmb\mu_2,\cdots,\pmb\mu_K\}\\ \mathbf\Sigma&\equiv\{\mathbf\Sigma_1,\mathbf\Sigma_2,\cdots,\mathbf\Sigma_K\} \end{aligned} \]

那麼混合高斯分佈的對數似然函式就是

\[\ln p(\mathbf{X}|\pmb\pi,\pmb\mu,\mathbf\Sigma)=\sum_{n=1}^N\ln\{\sum_{k=1}^K\pi_kN(\mathbf{x}_n|\pmb\mu_n,\mathbf\Sigma_n)\} \]

其中\(\mathbf{X}=\{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_N\}\)。這樣就可以使用極大似然法確定各個引數的極大似然估計了,具體內容將在後面的章節討論。

4 指數族分佈

​ 本章到目前為止我們正式接觸到的分佈均為指數族分佈(exponential family)的具體的例子,引數\(\pmb\eta\)關於變數\(\mathbf{x}\)的一般情形的指數族分佈的形式為

\[p(\mathbf{x}|\pmb\eta)=h(\mathbf{x})g(\pmb\eta)\text{exp}\{\pmb\eta^Tu(\mathbf{x})\} \]

其中\(\mathbf{x}\)可能是標量、也可能是向量,可能是離散的、也可能是連續的。函式\(g(\pmb\eta)\)充當了歸一化係數的作用。下面來討論已經遇到的三種主要分佈的指數族分佈標準形式。

4.1 伯努利分佈的指數族分佈形式

​ 有如下推導

\[\begin{aligned} p(x|\mu)&=\text{Bern}(x|\mu)=\mu^x(1-\mu)^{1-x}\\ &=\text{exp}\{x\ln\mu+(1-x)\ln(1-\mu)\}\\ &=(1-\mu)\text{exp}\{\ln(\frac{\mu}{1-\mu})\cdot x\} \end{aligned} \]

容易得到\(\eta=\ln(\frac{\mu}{1-\mu})\),從中解出\(\mu=\sigma(\eta)=\frac{1}{1+\text{exp}(-\eta)}\)\(\sigma(\eta)\)被稱為logistic sigmoid函式,那麼就有

\[p(x|\mu)=\sigma(-\eta)\text{exp}(\eta x)\\ u(x)=x,\quad h(x)=1,\quad\eta=\ln(\frac{\mu}{1-\mu}),\quad g(\eta)=\sigma(-\eta) \]

4.2 多項式分佈的指數族形式

​ 有如下推導

\[\begin{aligned} p(\mathbf{x}|\pmb\mu)&=\text{Mult}(\mathbf{x}|\pmb\mu)=\prod_{k=1}^M\mu_k^{x_k}=\text{exp}\{\sum_{k=1}^Mx_k\ln\mu_k\}\\ &=\text{exp}(\pmb\eta^T\mathbf{x}) \end{aligned} \]

容易得到

\[u(\mathbf{x})=\mathbf{x},\quad h(\mathbf{x})=1,\quad\pmb\eta=(\ln\mu_1,\cdots,\ln\mu_M)^T,\quad g(\pmb\eta)=1 \]

​ 由於引數\(\mu_k\)受到\(\sum_{k=1}^M\mu_k=1\)的限制,因此我們可以用前\(M-1\)個引數去表示出最後一個引數\(\mu_M\),那麼就有

\[\begin{aligned} p(\mathbf{x}|\pmb\mu)&=\text{Mult}(\mathbf{x}|\pmb\mu)=\prod_{k=1}^M\mu_k^{x_k}=\text{exp}\{\sum_{k=1}^Mx_k\ln\mu_k\}\\ &=\text{exp}\{\sum_{k=1}^{M-1}x_k\ln\mu_k+(1-\sum_{k-1}^{M-1}x_k)\ln{(1-\sum_{k-1}^{M-1}x_k)}\}\\ &=\text{exp}\{\sum_{k=1}^{M-1}x_k\ln(\frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j})+\ln(1-\sum_{k-1}^{M-1}x_k)\} \end{aligned} \]

可以令\(\eta_k=\ln(\frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j})\),在此式兩側對\(k\)求和,反解得\(\mu_k=\frac{\text{exp}(\eta_k)}{1+\sum_{j}\text{exp}(\eta_j)}\),這被稱為這被稱為softmax函式或者歸一化指數(normalized exponential),那麼就有

\[p(\mathbf{x}|\pmb\eta)=(1+\sum_{k=1}^{M-1}\text{exp}(\eta_k))^{-1}\text{exp}(\pmb\eta^T\mathbf{x})\\ u(\mathbf{x})=\mathbf{x},\quad h(\mathbf{x})=1\\ \pmb\eta=(\ln(\frac{\mu_1}{1-\sum_{j=1}^{M-1}\mu_j}),\cdots,\ln(\frac{\mu_{M-1}}{1-\sum_{j=1}^{M-1}\mu_j}),0)^T\\ g(\pmb\eta)=(1+\sum_{k=1}^{M-1}\text{exp}(\eta_k))^{-1} \]

4.3 高斯分佈的指數族分佈形式

​ 有如下推導

\[\begin{aligned} p(x|\mu,\sigma^2)&=\mathcal N(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}}\text{exp}\{-\frac{1}{2\sigma^2}(x-\mu)^2\}\\ &=\frac{1}{(2\pi\sigma^2)^{1/2}}\text{exp}\{-\frac{1}{2\sigma^2}x^2+\frac{\mu}{\sigma^2}x-\frac{1}{2\sigma^2}\mu^2\} \end{aligned} \]

經過推導可以得到

\[u(x)=\left(\begin{array}{c}x\\x^2\end{array}\right),\quad h(x)=(2\pi)^{-1/2},\quad\pmb\eta=\left(\begin{array}{c}{\mu}/{\sigma^2}\\{-1}/{2\sigma^2}\end{array}\right),\quad g(\pmb\eta)=(-2\eta_2)^{1/2}\text{exp}(\frac{\eta_1^2}{4\eta_2}) \]

4.4 最大似然估計

​ 下面來看引數\(\pmb\eta\)的最大似然估計的一般形式,對指數族分佈的一般形式\(p(\mathbf{x}|\pmb\eta)=h(\mathbf{x})g(\pmb\eta)\text{exp}\{\pmb\eta^Tu(\mathbf{x})\}\)而言,其似然函式為

\[p(\mathbf{X}|\pmb\eta)=\prod_{n=1}^Np(\mathbf{x}_n|\pmb\eta)=\prod_{i=1}^Nh(\mathbf{x}_i)\cdot(g(\pmb\eta))^N\cdot\text{exp}\{\pmb\eta^T(\sum_{j=1}^Nu(\mathbf{x}_j))\} \]

兩側對\(\pmb\eta\)取偏導得到

\[N(g(\pmb\eta))^{N-1}\cdot\nabla g(\pmb\eta)\cdot\text{exp}\{\pmb\eta^T(\sum_{j=1}^Nu(\mathbf{x}_j))\}+(g(\pmb\eta))^N\cdot\text{exp}\{\pmb\eta^T(\sum_{j=1}^Nu(\mathbf{x}_j))\}\cdot(\sum_{k=1}^Nu(\mathbf{x}_k))=0 \]

整理得到

\[-\frac{\nabla g(\pmb\eta)}{g(\pmb\eta)}=\frac{u(\mathbf{x}_1)+\cdots+u(\mathbf{x}_N)}{N} \]

也就是

\[-\nabla\ln g(\pmb\eta_{ML})=\frac1N\sum_{n=1}^Nu(\mathbf{x}_n)=E(u(\mathbf{x})),\quad\text{在等概率情況下最後一個等號成立} \]

由於引數\(\pmb\eta\)極大似然估計僅由\(\sum_{n=1}^Nu(\mathbf{x}_n)\)產生,因此這個量就是指數族分佈的充分統計量。在具體應用的時候,我們不需要儲存整個資料集,只需要儲存充分統計量的值即可。例如,在伯努利分佈中,\(u(x)=x\),那麼充分統計量為\(\sum_{n=1}^Nx_n\),所以我們只需要儲存資料點\(\{x_n\}\)的和即可。類似地,在高斯分佈中,\(u(x)=(x,x^2)^T\),因此我們只需要儲存\(\{x_n\}\)的和以及\(\{x_n^2\}\)的和即可。

4.5 共軛先驗

​ 在伯努利分佈與二項分佈中,共軛先驗是Beta分佈;在範疇分佈與多項式分佈中,共軛先驗是Dirichlet分佈;在高斯分佈中,對於不同情況而言,共軛先驗分別為高斯分佈、Gamma分佈、高斯-Gamma分佈、Wishart分佈或高斯-Wishart分佈。實際上,對於指數族分佈而言,有如下統一形式的共軛先驗

\[p(\pmb\eta|\chi,\nu)=f(\chi,\nu)g(\pmb\eta)^\nu\text{exp}\{\nu\pmb\eta^T\chi\} \]

其中\(f(\chi,\nu)\)是歸一化係數,\(g(\pmb\eta)\)充當了歸一化係數的作用。將此先驗分佈與似然函式\(p(\mathbf{X}|\pmb\eta)\)相乘得到

\[p(\pmb\eta|\mathbf{X},\chi,\nu)\varpropto g(\pmb\eta)^{\nu+N}\text{exp}\{\pmb\eta^T(\sum_{n=1}^Nu(\mathbf{x}_n)+\nu\chi)\} \]

容易發現這滿足共軛性。引數\(\nu\)可以看成是先驗分佈中假想觀測的有效觀測數,在給定\(\chi\)的情況下,每個假想觀測都對充分統計量有貢獻\(\nu\chi\)

4.6 無資訊先驗

​ 到目前為止,我們得到先驗分佈的思路都是從結構上根據共軛性而來的,並沒有說明先驗分佈中各個引數具體取值的選擇方法。從之前的內容可以知道,先驗分佈中各個引數的取值會對後驗分佈產生一定的影響,現在考慮是否可以選擇合適形式的先驗分佈從而儘可能減小先驗分佈中引數值對後驗分佈的影響,這種形式的先驗分佈稱為被稱為無資訊先驗(noninformative prior)

​ 現在假設我們有一個由引數\(\lambda\)控制的分佈\(p(x|\lambda)\),對於先驗分佈\(p(\lambda)\),一個最樸素的想法就是取為常數\(K\),如果\(\lambda\)的取值為有限個\(N\)個離散變數,那麼\(p(\lambda)=K\)是合理的,這相當於\(NK=1\);如果\(\lambda\)的取值為某個有限連續區間\((a,b)\)上的連續值,那麼\(p(\lambda)=K\)仍然是合理的,這相當於\((b-a)K=1\);但是,如果\(\lambda\)的取值是無限個離散值或者無限區間上的連續值,\(p(\lambda)=K\)就是不合理的,此時先驗分佈無法被正確地歸一化,因為對\(\lambda\)的積分是發散的,這樣的先驗分佈被稱作是反常的(improper)。並且,將\(p(\lambda)\)取為常數\(K\)可能會在變數替換的時候出現問題,比如令\(\lambda=\eta^2\),則\(p_\eta(\eta)=p_\lambda(\lambda)\cdot|\frac{d\lambda}{d\eta}|=p_\lambda(\eta^2)\cdot2\eta\varpropto\eta\neq K\)

​ 下面來看無資訊先驗的兩個簡單例子。第一,如果概率密度的形式為\(p(x|\mu)=f(x-\mu)\),引數\(\mu\)被稱為位置引數(location parameter)。如果這一類概率具有平移不變性(translation invariance),則說明我們選擇的先驗分佈\(p(\mu)\)必須對區間\((a,b)\)和區間\((a-c,b-c)\)賦予相同的概率密度,即

\[\int_a^bp(\mu)d\mu=\int_{a-c}^{b-c}p(\mu)d\mu=\int_a^bp(\mu-c)d\mu \]

並且這對任意選擇的\(a\)\(b\)都成立,因此\(p(\mu)=p(\mu-c)\),故\(p(\mu)\)的取值為常數,這是平移不變性的重要性質。以高斯分佈為例,均值\(\mu\)是一種位置引數,由“高斯分佈的貝葉斯推斷”一節中的表示式

\[\mu_N=\frac{\sigma^2}{N\sigma_0^2+\sigma^2}\mu_0+\frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}\mu_{ML} \]

可知,隨著資料集規模\(N\)的不斷增加,先驗引數\(\mu_0\)對後驗引數\(\mu_N\)的影響不斷減小。

​ 第二,如果概率密度的形式為\(p(x|\sigma)=\frac1\sigma f(\frac{x}{\sigma})\)​,那麼引數\(\sigma\)​被稱為縮放引數(scale parameter)。如果這一類概率具有縮放不變性(scale invariance),則說明我們選擇的先驗分佈\(p(\sigma)\)必須對區間\((a,b)\)和區間\((\frac{a}{c},\frac{b}{c})\)​賦予相同的概率密度,即

\[\int_a^bp(\sigma)d\sigma=\int_{\frac{a}{c}}^{\frac{b}{c}}p(\sigma)d\sigma=\int_a^bp(\frac1c\sigma)\frac1cd\sigma \]

並且這對任意選擇的\(a\)\(b\)都成立,因此\(p(\sigma)=p(\frac1c\sigma)\frac1c\),故\(p(\sigma)\varpropto\frac1\sigma\),這是一個反常先驗分佈,因為對於\(0\leq\sigma\leq\infty\)上的積分是發散的,但\(p_{\ln\sigma}(\ln\sigma)=p_\sigma(\ln\sigma)\cdot|\frac{d\ln\sigma}{d\sigma}|\varpropto\frac1\sigma\cdot\sigma=1\),即\(p_{\ln\sigma}(\ln\sigma)\)的值為常數,這是縮放不變性的重要性質。以高斯分佈為例,方差\(\sigma\)是一種縮放引數,由“高斯分佈的貝葉斯推斷”一節中的表示式

\[\frac{1}{\sigma_N^2}=\frac{1}{\sigma^2}+\frac{N}{\sigma_0^2} \]

可知,隨著資料集規模\(N\)的不斷增加,先驗引數\(\sigma_0\)對後驗引數\(\sigma_N\)的影響不斷減小。

5 非引數化方法

​ 我們已經詳細地從貝葉斯主義的角度介紹了一些概率分佈的具體形式,它們通常由一些引數控制,且這些引數通常由資料集推得。但是在實際應用中,這種引數化(parametric)方法有時具有較強的侷限性。現在介紹如何從頻率主義的角度進行建模。

5.1 直方圖方法

​ 直方圖方法的核心是分割出數個區域,並分別分析每個區域具有的特徵。對於離散資料點,該方法很好理解,即將每個資料點放入對應的區域即可。對於連續的情況,我們將連續變數分割稱若干個區域\(\Delta_i\),將資料點放入對應的區域,得到每個區域的概率為

\[p_i=\frac{n_i}{N\Delta_i} \]

這就完成了建模,特別地,常令每個區域的覆蓋範圍的大小相同,即令\(\Delta_1=\Delta_2=\cdots\equiv\Delta\)。對於維數較低的情形(比如一元變數\(x\)),該方法是有效的;但對於維數較高的情形,該方法會導致維數災難(小區域的數量為\(M^D\),每一維都分成\(M\)個區間)。在直方圖方法中,\(\Delta\)的選擇是十分關鍵的,這將直接影響到建模的優劣程度,比如

1.2

上圖中綠線表示真實的分佈,藍色方框表示使用直方圖方法建立的模型。另外,在原則上,區域邊界的選擇也會影響模型的有效性,但影響程度通常小於\(\Delta\)的選取。

​ 直方圖方法的核心在於用離散形式取考慮連續形式的性質,通過考慮某一點及其鄰域的資料點從而得到該區域的特徵,並且為了保證各區域之間的連貫性(即儘可能降低離散性的影響),還需要考慮區域性區域的空間擴充套件(即這裡的區域大小\(\Delta\))。一方面,較大的\(\Delta\)會盡可能保證該區域內性質的準確性,另一方面,較小的\(\Delta\)會盡可能保證各個區域之間的連貫性(因為當若干資料點被放入同一個區域時,它們之間的差異性被忽略了,這就導致各個區域之間資料點的差異性被放大了,從而導致各個區域之間的連貫性變差)。接下來將介紹兩個常用的密度估計的非引數化方法,這兩種方法與直方圖方法的核心理念是相通的,但對於維數的放大具有更好的適應性。

5.2 核密度方法

​ 先來討論核密度方法與近鄰方法的公共前提。對於\(D\)維歐氏空間而言,一個小區域的概率質量為

\[P=\int_Rp(\mathbf{x})d\mathbf{x} \]

現在假設資料集中有服從\(p(\mathbf{x})\)\(N\)個資料點,那麼位於區域\(R\)內部的資料點的數量\(K\)滿足二項分佈

\[\text{Bin}(K|N,P)=\frac{N!}{K!(N-K)!}P^K(1-P)^{N-K} \]

當區域\(R\)的體積\(V\)較小(從而\(p(\mathbf{x})\)\(R\)內近似為常數)、且資料點的數量\(N\)​較大時,我們有區域\(R\)上的概率密度的估計式為

\[p(\mathbf{x})=\frac{K}{NV} \]

接下來有兩個思路進行下面的處理:一是核密度方法,即固定\(V\)然後從資料中確定\(K\);二是近鄰方法,即固定\(K\)然後從資料中確定\(V\)的值。可以證明,在\(N\rightarrow\infty\)的情況下,如果\(V\)隨著\(N\)而合適地收縮,並且\(K\)隨著\(N\)而增大,那麼兩種方法得到的概率密度估計值都會收斂到真實的概率密度。

​ 先來看核密度方法。如果我們取區域\(R\)\(\mathbf{x}\)​為中心且邊長為\(1\)的小超立方體,為了統計落在該小超立方體中的資料點的數量,則可以設

\[k(\mathbf{u})= \begin{cases} 1,\quad|u_i|\leq\frac12,\quad i=1,\cdots,D\\ 0,\quad\text{others} \end{cases} \]

這是核函式(kernel function)的一個例子,也被稱為Parzen窗。對於規模為\(N\)的資料集而言,位於小區域內的資料點的總數為

\[K=\sum_{n=1}^Nk(\frac{\mathbf{x}_n-\mathbf{x}}{h}) \]

由此式給出的估計稱為核密度估計(kernel density estimator)或者Parzen估計。對於以\(\mathbf{x}\)為中心且邊長為\(1\)的小超立方體區域、且選擇上述核函式而言,其中\(h=1\)表示小超立方體的邊長,則\(\mathbf{x}\)點處的核密度估計為

\[p(\mathbf{x})=\frac1N\sum_{n=1}^N\frac{1}{h^D}k(\frac{\mathbf{x}_n-\mathbf{x}}{h}) \]

​ 但是核密度方法也具有直方圖方法的一個重要缺陷:人為造成的區域間的連貫性變差,如果選擇一個較為平滑的核函式(即:距離\(\mathbf{x}\)不同遠近的資料點被放入區域內的條件不同),那麼就能得到一個較好的模型。一個常見的選擇就是高斯核函式,從而得到

\[p(\mathbf{x})=\frac1N\sum_{n=1}^N\frac{1}{(2\pi h^2)^{D/2}}\text{exp}\{-\frac{||\mathbf{x}_n-\mathbf{x}||^2}{2h^2}\} \]

其中\(h\)表示高斯分佈的標準差,如果\(h\)過小則會模型對噪聲過於敏感,如果\(h\)過大則會造成模型過於平滑。

​ 事實上,核函式的選取是任意的,只需要滿足下面兩個條件

\[k(\mathbf{u})\geq0,\qquad\int k(\mathbf{u})d\mathbf{u}=1 \]

5.3 近鄰方法

​ 核密度方法的一個侷限是對於所有區域的資料都給定了同樣的核引數\(h\),在資料點密集的區域,這可能導致模型過於平滑,而在資料點稀疏的區域,這又可能導致模型對噪聲過於敏感,所以一個合理的思路就是根據資料空間的位置確定不同的核引數\(h\),這通過近鄰方法來具體處理。

​ 對於概率密度估計式

\[p(\mathbf{x})=\frac{K}{NV} \]

而言,現在考慮固定\(K\)然後從資料中確定\(V\)的值。考慮以\(\mathbf{x}\)為中心的小超球體,其半徑可以自由變化直到該區域內包含了\(K\)個資料點,但是這樣得到的模型並不是真實的概率密度模型,因為它在整個空間的積分是發散的。

​ 近鄰方法可以推廣到分類問題,對於每個具體的分類\(C_k\)而言,有

\[p(\mathbf{x}|C_k)=\frac{K_k}{N_kV} \]

並且無條件概率密度為

\[p(\mathbf{x})=\frac{K}{NV} \]

並且類先驗概率密度為

\[p(C_k)=\frac{N_k}{N} \]

則根據貝葉斯定理得到後驗概率密度為

\[p(C_k|\mathbf{x})=\frac{p(\mathbf{x}|C_k)p(C_k)}{p(\mathbf{x})}=\frac{K_k}{K} \]

現在,如果我們想最小化錯誤分類的概率,則將測試點\(\mathbf{x}\)分配給具有最大後驗概率密度的類別,這對應於最大的\(\frac{K_k}{K}\)。當\(K=1\)時,分類規則被稱為最近鄰規則(nearest-neighbour rule),因為測試點簡單地被分類為訓練資料集中距離最近的資料點的類別,下圖是一個例子。

1.2

圖(a)中\(K=3\),此時新輸入一個測試點(圖中黑色菱形)時,找到與之最近的三個資料點,發現紅色資料點多,因此測試點為紅色資料點。圖(b)中\(K=1\),此時新輸入一個測試點時,找到與之最近的兩個資料點,觀察其距離哪個資料點更近則說明它屬於哪一個類別,圖中所有類間點對的平分線生成上圖中的綠線,在實際應用中,只需要觀察它在綠線的哪一側即可確定其是紅色資料點還是藍色資料點。

​ 核密度方法和近鄰方法都需要儲存整個訓練集。如果訓練集很大則會造成很大的計算代價。我們可以建立⼀個基於樹的搜尋結構,使得(近似)近鄰可以高效地被找到,而不必遍歷整個資料集。儘管這樣,這些非引數化方法仍然有較大的侷限性。另外,簡單的引數化模型非常受限,因為它們只能表示某一種形式的概率分佈。因此,我們 需要尋找⼀種概率密度模型,這種模型既要有靈活性、又要保證它的複雜度可以被控制為與訓練資料的規模無關。我們在後續章節中將會看到如何找到這種概率密度模型。

6 參考資料

image

相關文章