模式識別與機器學習——概率分佈

weixin_33739646發表於2018-11-17

二元變數

伯努利分佈

1507799-f629e46d2209d5c7.png
1507799-f219e0a4202c8068.png

似然函式為

1507799-d948353831595a47.png

對數似然函式為

1507799-c556483a1d733a38.png

如果我們令關於u的導數等於零,我們就得到了最大似然的估計值

1507799-f82bd8e0b2e4959c.png

現在假設我們扔一個硬幣3次,碰巧3次都是正面朝上。那麼N=m= 3,且uML= 1。這種情況下,最大似然的結果會預測所有未來的觀測值都是正面向上。常識告訴我們這個是不合理的。事實上,這是最大似然中過擬合現象的一個極端例子。

二項分佈

1507799-fcfc4cefb8fd64e4.png

Beta分佈

如果我們選擇一個正比於u和(1-u)的冪指數的先驗概率分佈,那麼後驗概率分佈(正比於先驗和似然函式的乘積)就會有著與先驗分佈相同的函式形式。

1507799-b7d774c2bb9017a5.png

其中前面的係數用於保證Beta分佈是歸一化的

1507799-ef43ca151318d479.png

u的後驗概率

1507799-5861961b2af7ca7b.png
1507799-8eb9d490beb6a76c.png

後驗概率是一個Beta分佈,對於x= 1和x= 0的觀測總數(先驗的和實際的)由引數a和b給出。觀測到一個x= 1僅僅對應於把a的值增加1,而觀測到x= 0會使b增加1。圖2.3說明了這個過程中的一個步驟。

1507799-a238ea1ccdc1e5ce.png

預測可以表示為

1507799-5bdc0588b0730aab.png
1507799-65e697ed38f5fc2b.png

在資料集無限大的極限情況下,此時公式(2.20)的結果變成了最大似然的結果(2.8)

多項式變數

1507799-77bdf13a2abb0583.png

那麼分佈可以表示為

1507799-5137bdae55f5c86d.png
1507799-0d2e6c86b0c210c2.png

似然函式

1507799-2e3532d3ad958508.png

拉格朗日求解帶約束的最大似然函式

1507799-8970a703a219780d.png
1507799-ba37b5e1d1c68a13.png

多項式分佈

1507799-ad39216ca5344401.png

狄利克雷分佈

1507799-3cfd0b1e4738b605.png

後驗概率

1507799-9a3be3b1482e808b.png
1507799-d407ab4ffc2e642e.png

高斯分佈

一維形式

1507799-2b4d590b3307189e.png

高維形式

1507799-b1da752694779f5b.png

我們考慮高斯分佈的幾何形式

1507799-231563589efb73d6.png

首先,我們注意到協方差矩陣可以取為對稱矩陣,而不失一般性。這是因為任何非對稱項都會從指數中消失。現在考慮協方差矩陣的特徵向量方程

1507799-ecfa04c0d68e42c3.png

特徵值可以選為正交的

1507799-e33062b513bde805.png

協方差矩陣可以表示成特徵向量的展開的形式(特徵值分解)

1507799-90e308c65f4c3007.png
1507799-e73f085c7a80694a.png

把公式(2.49)代入公式(2.44),二次型就變成了

1507799-3f61835d990f532a.png

這個座標變換也可以表示為

1507799-564c02fafd51dc6f.png

現在考慮在由yi定義的新座標系下高斯分佈的形式。

1507799-5f765fa7c2037d94.png

其行列式為

1507799-fc2e25888b5112db.png

協方差矩陣的行列式可以寫成特徵值的乘積

1507799-fd7c473f1a4ebcda.png

所以y座標下的高斯分佈可以表示為

1507799-1714c62dd7ddf707.png

這是D個獨立一元高斯分佈的乘積。特徵向量因此定義了一個新的旋轉、平移的座標系,在這個座標系中聯合概率分佈可以分解成獨立分佈的乘積。

一階矩

1507799-910e0310e1f9e6c9.png

二階矩

1507799-ad1f39b7a91a2d10.png

可以化簡得到

1507799-208894b3bf7e6d4d.png
1507799-b86dfe69aa31601e.png

條件高斯分佈

多元高斯分佈的一個重要性質是,如果兩組變數是聯合高斯分佈,那麼以一組變數為條件,另一組變數同樣是高斯分佈。類似地,任何一個變數的邊緣分佈也是高斯分佈。

我們把x劃分成兩個不相交的子集xa和xb

1507799-99862df22d552360.png
1507799-c1d72a63b38f1d17.png
1507799-fb98efa442e36026.png

首先,我們來尋找條件概率分佈p(xa|xb)的表示式。根據概率的乘積規則,我們看到,條件分佈可以根據聯合分佈p(x) =p(xa;xb)很容易地計算出來。我們只需把xb固定為觀測值,然後對得到的表示式進行歸一化,得到xa的一個合法的概率分佈。我們不顯示地進行歸一化,相反,我們可以用一種更有效率的方式求解。我們首先考慮由公式(2.44)給出的高斯分佈指數項中出現的二次型,然後在計算的最後階段重新考慮歸一化係數。

1507799-9c94a2531c74a7e3.png

可以表示為

1507799-d992dd936d3269d8.png
1507799-e8ea54935b8704fa.png

因此可以得到

1507799-4cc37fd9e4a110eb.png

由於

1507799-3f4929a09c4f0a93.png

所以可以得到

1507799-d5d0ecfcd82aa477.png

邊緣高斯分佈

1507799-54bd0839d06f3771.png

首先考慮涉及到xb的項,然後配出平方項,使得積分能夠更方便地計算。選出涉及到xb的項,我們有

1507799-54b649c31cf6e53f.png

唯一剩餘的與xa相關的項就是公式(2.84)的右側的最後一項,其中m由公式(2.85)給出。把這一項與公式(2.70)中餘下的與xa相關的項結合,我們有

1507799-281dee5956a9ce1a.png
1507799-cf25f7d02bc4e3a8.png
1507799-bf0bd938e876051d.png

高斯變數的貝葉斯定理

我們令邊緣概率分佈和條件概率分佈的形式如下

1507799-0dd51c868c8b3488.png

考慮一個聯合分佈z

1507799-1fcda3833a0e031c.png
1507799-72c6db8a3a90165e.png

為了找到這個高斯分佈的精度,我們考慮公式(2.102)的第二項,它可以寫成

1507799-4a5d81b32fbf2eb0.png
1507799-7e2b023a571d2118.png

找到(2.102)中的線性項,採用前面類似的方法可以得到

1507799-48ecbb56693405b6.png

同時利用前文邊緣分佈、條件分佈的結論

1507799-fc7f36b61fad169e.png
1507799-6279af2d70870d68.png

小結

1507799-38310457b6a80315.png

高斯分佈的最大似然估計

1507799-52e4f77081869120.png
1507799-ceea90484ee11a71.png
1507799-d08386b14b89735f.png
1507799-9eb0571b23d3ffe7.png

順序估計

考慮公式(2.121)給出的均值的最大似然估計結果uML。當它依賴於第N次觀察時,將被記作u(N)ML。如果我們想分析最後一個資料點xN的貢獻,我們有

1507799-fd98dfdebbaca48b.png

Robbins-Monro演算法

考慮一對隨機變數Θ和z,它們由一個聯合概率分佈p(z;Θ)所控制。已知Θ的條件下,z的條件期望定義了一個確定的函式f(Θ),形式如下

1507799-4370012b935d857c.png

我們的目標是尋找Θ*使得f(Θ*) = 0。

我們假定z的條件方差是有窮的,因此

1507799-fb12724ecc6194c9.png
1507799-97ad50754b183875.png
1507799-d9c930e8f835275d.png
1507799-b1741a11606da663.png

高斯分佈的貝葉斯推斷

假設方差是已知的

1507799-c351bb09e87e10bb.png

令u服從先驗分佈

1507799-a39a0fffc69a5ec2.png
1507799-2dade50ce841b3c7.png
1507799-71a9549929b617f3.png
1507799-754065f542c6e81c.png

花一點時間來研究後驗概率分佈的均值和方差是很有意義的。首先,我們注意到由公式(2.141)給出的後驗分佈的均值是先驗均值u0和最大似然解uML的折中。如果觀測資料點的數量N= 0,那麼與我們想的一樣,公式(2.141)就變成了先驗均值。

如果從一個順序的觀點來看,那麼貝葉斯方法就變得非常自然了。為了在高斯分佈均值推斷的問題中說明這一點,我們把後驗分佈中最後一個資料點xN的貢獻單獨寫出來,即

1507799-60e0a4425e8a3d3d.png

現在假設均值是已知的,我們要推斷方差

1507799-863a7d826f968fbf.png

對應的共軛先驗因此應該正比於λ的冪指數,也正比於λ的線性函式的指數。這對應於Gamma分佈,定義為

1507799-eea46fe2849b3caa.png

所以我們得到後驗分佈

1507799-e276b50fbded123a.png
1507799-1e4bafaa7b15d8b8.png

現在假設均值和精度都是未知的。為了找到共軛先驗

1507799-9e28511408debcd7.png

我們現在想找到一個先驗分佈,它對於u和精度的依賴與似然函式有著相同的函式形式

1507799-d1c4672f00c383c6.png
1507799-57b26a881f518f6a.png

這就是高斯-Gamma分佈

在多維的情況下有些不一樣

1507799-9297313a35f588ab.png

學生t分佈

對高斯-Gamma分佈積分

1507799-6b0e10a5b8a7d56b.png
1507799-c878fae7b278fa71.png

這就是student-t分佈,引數lamda有時被稱為t分佈的精度(precision),即使它通常不等於方差的倒數。引數v被稱為自由度(degrees of freedom),當自由度無窮的時候student-t分佈變為高斯分佈。

1507799-0f10c4e79d71d8f9.png

整理一下student-t的表示形式

1507799-ae9233fada6dc066.png
1507799-7ebcfa690f5cb26a.png
1507799-995023d125f76e8c.png
1507799-43390e0371134595.png

週期變數

高斯分佈不適合對週期變數建模,例如:我們可以測量許多天的風向值,然後希望使用一個引數分佈來總結風向的規律。選擇一個方向作為原點,然後應用傳統的概率分佈(例如高斯分佈)。但是,這種方法的結果將會強烈依賴於原點的選擇。

所以我們考慮下面的方法

1507799-c337b933f4959046.png
1507799-571572473e80d192.png
1507799-b8d64651e4e7acab.png

我們現在考慮高斯分佈對於週期變數的一個推廣:von Mises分佈

1507799-96c25629fb23edc1.png

設一個二維的高斯分佈

1507799-063706dbf44f8b6d.png
1507799-c618e893f10d69ec.png

根據前面的方法有

1507799-64f6a4f7270a3864.png

代入二維高斯分佈中

1507799-9cc4b492b48f27aa.png

混合高斯模型

我們考慮K個高斯概率密度的疊加,形式為

1507799-c885b3fa4684bea7.png

對數似然函式

1507799-07e64e9a5ff21c43.png

我們立刻看到現在的情形比一元高斯分佈複雜得多,因為對數中存在一個求和式。這就導致引數的最大似然解不再有一個封閉形式的解析解。一種最大化這個似然函式的方法是使用迭代數值優化方法(Fletcher, 1987; Nocedal and Wright, 1999; Bishop andNabney, 2008)。另一種方法是使用一個被稱為期望最大化(expectation maximization)的強大的框架,這將在第9章詳細討論。

指數族分佈

1507799-5ac8c5f2eb73427d.png

伯努利分佈轉換為指數族分佈形式

1507799-59877347fb5bdce2.png

多項式分佈轉換為指數分佈族形式

1507799-943175c170853e1a.png
1507799-b82c4728aaec0d31.png

整理後可表示為

1507799-15cc4ab6618097cb.png

一元高斯分佈轉換為指數分佈族形式

1507799-40fc2042d77439b8.png

最大似然與充分統計量

讓我們考慮用最大似然法估計公式(2.194)給出的一般形式的指數族分佈的引數向量u的問題。

對公式(2.195)的兩側取梯度

1507799-01bbfe3fbd0a7e58.png
1507799-003b9dd00d181845.png

共軛先驗

我們已經多次遇到共軛先驗的概念。例如在伯努利分佈中,共軛先驗是Beta分佈。在高斯分佈中,均值的共軛先驗是高斯分佈,精度的共軛先驗是Wishart分佈。一般情況下,對於一個給定的概率分佈p(x|u),我們能夠尋找一個先驗p(η)使其與似然函式共軛,從而後驗分佈的函式形式與先驗分佈相同。對於指數族分佈(2.194)的任何成員,都存在一個共軛先驗,可以寫成下面的形式

1507799-490b0673747dd687.png

無資訊先驗

我們可以尋找一種形式的先驗分佈,被稱為無資訊先驗(noninformativeprior)。這種先驗分佈的目的是儘量對後驗分佈產生儘可能小的影響(Jeffreys, 1946; Box andTiao, 1973; Bernardo and Smith, 1994)。這有時被稱為“讓資料自己說話”。

1507799-cbb3ca54e1899f4f.png
1507799-0ea8e72d3649bcb1.png

並且由於這必須對於任意的A和B的選擇都成立,因此我們有

1507799-22d001f3a2df868d.png

可以看出p(u)是常數,並且u的共軛先驗分佈是一個高斯分佈。
根據公式(2.141)和公式(2.142),並且在標準差取無窮的情況下,在u的後驗分佈中,先驗的貢獻消失了。

非引數化方法
本章中,我們已經關注過的概率分佈都有具體的函式形式,並且由少量的引數控制。這些引數的值可以由資料集確定。這被稱為概率密度建模的引數化(parametric)方法。這種方法的一個重要侷限性是選擇的概率密度可能對於生成資料來說,是一個很差的模型,從而會導致相當差的預測表現。例如,如果生成資料的過程是多峰的,那麼這種分佈不可能被高斯分佈描述,因為它是單峰的。

首先讓我們討論密度估計的直方圖方法。

1507799-9446d6841a4f0a7a.png
1507799-5abd1f1bd4b04a4a.png

在實際應用中,直方圖方法對於快速地將一維或者二維的資料視覺化很有用,但是並不適用於大多數概率密度估計的應用。一個明顯的問題是估計的概率密度具有不連續性,這種不連續性是因為箱子的邊緣造成的,而不是因為生成資料的概率分佈本身的性質造成。

核密度估計

讓我們假設觀測服從D維空間的某個未知的概率密度分佈p(x)。我們把這個D維空間選擇成歐幾里得空間,並且我們想估計p(x)的值。區域R的概率質量為

1507799-c0bfd44a76f9e159.png

在我們假設我們收集了服從p(x)分佈的N次觀測。由於每個資料點都有一個落在區域R中的概率P,因此位於區域R內部的資料點的總數K將服從二項分佈

1507799-108477a1482e9e80.png
1507799-0780ac61f5a6215d.png

但是,如果我們也假定區域R足夠小,使得在這個區域內的概率密度p(x)大致為常數,那麼我們有

1507799-c46f85a4cf650f75.png

其中V是區域R的體積。把公式(2.244)和公式(2.245)結合,我們得到概率密度的估計,形式為

1507799-ee94f3a4d6c8a657.png

注意,公式(2.246)的成立依賴於兩個相互矛盾的假設,即區域R要足夠小,使得這個區域內的概率密度近似為常數,但是也要足夠大,使得落在這個區域內的資料點的數量K能夠足夠讓二項分佈達到尖峰。

我們有兩種方式利用(2.246)的結果。我們可以固定K然後從資料中確定V的值,這就是K近鄰方法。我們還可以固定V然後從資料中確定K,這就是核方法。

1507799-7b32b71f97cd0da4.png

這表示一個以原點為中心的單位立方體。函式k(u)是核函式(kernel function)的一個例子,在這個問題中也被稱為Parzen窗(Parzen window)。根據公式(2.247),如果資料點xn位於以x為中心的邊長為h的立方體中,那麼量k(x - xn/h)的值等於1,否則它的值為0。

於是,位於這個立方體內的資料點的總數為

1507799-5fe1dd87e5dd81df.png

把這個表示式代入公式(2.246),可以得到點x處的概率密度估計

1507799-8838a0880b665d06.png

核密度估計(2.249)有一個問題,這個問題也是直方圖方法具有的問題中的一個。這個問題就是人為帶來的非連續性。在之前所述的核密度估計方法中就是立方體的邊界。如果我們選擇一個平滑的核函式,那麼我們就可以得到一個更加光滑的模型。

1507799-6ea2ded1847727af.png

其中h表示高斯分佈的標準差。

近鄰方法

核方法進行概率密度估計的一個困難之處是控制核寬度的引數h對於所有的核都是固定的。在高資料密度的區域,大的h值可能會造成過度平滑,並且破壞了本應從資料中提取出的結構。但是,減小h的值可能導致資料空間中低密度區域估計的噪聲。因此,h的最優選擇可能依賴於資料空間的位置。這個問題可以通過概率密度的近鄰方法解決。

因此我們回到區域性概率密度估計的一般結果(2.246)。與之前固定V然後從資料中確定K的值不同,我們考慮固定K的值然後使用資料來確定合適的V值。為了完成這一點,我們考慮一個以x為中心的小球體,然後我們想估計概率密度p(x)。並且,我們允許球體的半徑可以自由增長,直到它精確地包含K個資料點。這樣,概率密度p(x)的估計就由公式(2.246)給出,其中V等於最終球體的體積。這種方法被稱為K近鄰方法。

如果應用於分類問題

1507799-142c838c2f4e41f5.png
1507799-d0a699491668f3a9.png

相關文章