模式識別與機器學習——概率分佈
二元變數
伯努利分佈


似然函式為

對數似然函式為

如果我們令關於u的導數等於零,我們就得到了最大似然的估計值

現在假設我們扔一個硬幣3次,碰巧3次都是正面朝上。那麼N=m= 3,且uML= 1。這種情況下,最大似然的結果會預測所有未來的觀測值都是正面向上。常識告訴我們這個是不合理的。事實上,這是最大似然中過擬合現象的一個極端例子。
二項分佈

Beta分佈
如果我們選擇一個正比於u和(1-u)的冪指數的先驗概率分佈,那麼後驗概率分佈(正比於先驗和似然函式的乘積)就會有著與先驗分佈相同的函式形式。

其中前面的係數用於保證Beta分佈是歸一化的

u的後驗概率


後驗概率是一個Beta分佈,對於x= 1和x= 0的觀測總數(先驗的和實際的)由引數a和b給出。觀測到一個x= 1僅僅對應於把a的值增加1,而觀測到x= 0會使b增加1。圖2.3說明了這個過程中的一個步驟。

預測可以表示為


在資料集無限大的極限情況下,此時公式(2.20)的結果變成了最大似然的結果(2.8)
多項式變數

那麼分佈可以表示為


似然函式

拉格朗日求解帶約束的最大似然函式


多項式分佈

狄利克雷分佈

後驗概率


高斯分佈
一維形式

高維形式

我們考慮高斯分佈的幾何形式

首先,我們注意到協方差矩陣可以取為對稱矩陣,而不失一般性。這是因為任何非對稱項都會從指數中消失。現在考慮協方差矩陣的特徵向量方程

特徵值可以選為正交的

協方差矩陣可以表示成特徵向量的展開的形式(特徵值分解)


把公式(2.49)代入公式(2.44),二次型就變成了

這個座標變換也可以表示為

現在考慮在由yi定義的新座標系下高斯分佈的形式。

其行列式為

協方差矩陣的行列式可以寫成特徵值的乘積

所以y座標下的高斯分佈可以表示為

這是D個獨立一元高斯分佈的乘積。特徵向量因此定義了一個新的旋轉、平移的座標系,在這個座標系中聯合概率分佈可以分解成獨立分佈的乘積。
一階矩

二階矩

可以化簡得到


條件高斯分佈
多元高斯分佈的一個重要性質是,如果兩組變數是聯合高斯分佈,那麼以一組變數為條件,另一組變數同樣是高斯分佈。類似地,任何一個變數的邊緣分佈也是高斯分佈。
我們把x劃分成兩個不相交的子集xa和xb



首先,我們來尋找條件概率分佈p(xa|xb)的表示式。根據概率的乘積規則,我們看到,條件分佈可以根據聯合分佈p(x) =p(xa;xb)很容易地計算出來。我們只需把xb固定為觀測值,然後對得到的表示式進行歸一化,得到xa的一個合法的概率分佈。我們不顯示地進行歸一化,相反,我們可以用一種更有效率的方式求解。我們首先考慮由公式(2.44)給出的高斯分佈指數項中出現的二次型,然後在計算的最後階段重新考慮歸一化係數。

可以表示為


因此可以得到

由於

所以可以得到

邊緣高斯分佈

首先考慮涉及到xb的項,然後配出平方項,使得積分能夠更方便地計算。選出涉及到xb的項,我們有

唯一剩餘的與xa相關的項就是公式(2.84)的右側的最後一項,其中m由公式(2.85)給出。把這一項與公式(2.70)中餘下的與xa相關的項結合,我們有



高斯變數的貝葉斯定理
我們令邊緣概率分佈和條件概率分佈的形式如下

考慮一個聯合分佈z


為了找到這個高斯分佈的精度,我們考慮公式(2.102)的第二項,它可以寫成


找到(2.102)中的線性項,採用前面類似的方法可以得到

同時利用前文邊緣分佈、條件分佈的結論


小結

高斯分佈的最大似然估計




順序估計
考慮公式(2.121)給出的均值的最大似然估計結果uML。當它依賴於第N次觀察時,將被記作u(N)ML。如果我們想分析最後一個資料點xN的貢獻,我們有

Robbins-Monro演算法
考慮一對隨機變數Θ和z,它們由一個聯合概率分佈p(z;Θ)所控制。已知Θ的條件下,z的條件期望定義了一個確定的函式f(Θ),形式如下

我們的目標是尋找Θ*使得f(Θ*) = 0。
我們假定z的條件方差是有窮的,因此




高斯分佈的貝葉斯推斷
假設方差是已知的

令u服從先驗分佈




花一點時間來研究後驗概率分佈的均值和方差是很有意義的。首先,我們注意到由公式(2.141)給出的後驗分佈的均值是先驗均值u0和最大似然解uML的折中。如果觀測資料點的數量N= 0,那麼與我們想的一樣,公式(2.141)就變成了先驗均值。
如果從一個順序的觀點來看,那麼貝葉斯方法就變得非常自然了。為了在高斯分佈均值推斷的問題中說明這一點,我們把後驗分佈中最後一個資料點xN的貢獻單獨寫出來,即

現在假設均值是已知的,我們要推斷方差

對應的共軛先驗因此應該正比於λ的冪指數,也正比於λ的線性函式的指數。這對應於Gamma分佈,定義為

所以我們得到後驗分佈


現在假設均值和精度都是未知的。為了找到共軛先驗

我們現在想找到一個先驗分佈,它對於u和精度的依賴與似然函式有著相同的函式形式


這就是高斯-Gamma分佈
在多維的情況下有些不一樣

學生t分佈
對高斯-Gamma分佈積分


這就是student-t分佈,引數lamda有時被稱為t分佈的精度(precision),即使它通常不等於方差的倒數。引數v被稱為自由度(degrees of freedom),當自由度無窮的時候student-t分佈變為高斯分佈。

整理一下student-t的表示形式




週期變數
高斯分佈不適合對週期變數建模,例如:我們可以測量許多天的風向值,然後希望使用一個引數分佈來總結風向的規律。選擇一個方向作為原點,然後應用傳統的概率分佈(例如高斯分佈)。但是,這種方法的結果將會強烈依賴於原點的選擇。
所以我們考慮下面的方法



我們現在考慮高斯分佈對於週期變數的一個推廣:von Mises分佈

設一個二維的高斯分佈


根據前面的方法有

代入二維高斯分佈中

混合高斯模型
我們考慮K個高斯概率密度的疊加,形式為

對數似然函式

我們立刻看到現在的情形比一元高斯分佈複雜得多,因為對數中存在一個求和式。這就導致引數的最大似然解不再有一個封閉形式的解析解。一種最大化這個似然函式的方法是使用迭代數值優化方法(Fletcher, 1987; Nocedal and Wright, 1999; Bishop andNabney, 2008)。另一種方法是使用一個被稱為期望最大化(expectation maximization)的強大的框架,這將在第9章詳細討論。
指數族分佈

伯努利分佈轉換為指數族分佈形式

多項式分佈轉換為指數分佈族形式


整理後可表示為

一元高斯分佈轉換為指數分佈族形式

最大似然與充分統計量
讓我們考慮用最大似然法估計公式(2.194)給出的一般形式的指數族分佈的引數向量u的問題。
對公式(2.195)的兩側取梯度


共軛先驗
我們已經多次遇到共軛先驗的概念。例如在伯努利分佈中,共軛先驗是Beta分佈。在高斯分佈中,均值的共軛先驗是高斯分佈,精度的共軛先驗是Wishart分佈。一般情況下,對於一個給定的概率分佈p(x|u),我們能夠尋找一個先驗p(η)使其與似然函式共軛,從而後驗分佈的函式形式與先驗分佈相同。對於指數族分佈(2.194)的任何成員,都存在一個共軛先驗,可以寫成下面的形式

無資訊先驗
我們可以尋找一種形式的先驗分佈,被稱為無資訊先驗(noninformativeprior)。這種先驗分佈的目的是儘量對後驗分佈產生儘可能小的影響(Jeffreys, 1946; Box andTiao, 1973; Bernardo and Smith, 1994)。這有時被稱為“讓資料自己說話”。


並且由於這必須對於任意的A和B的選擇都成立,因此我們有

可以看出p(u)是常數,並且u的共軛先驗分佈是一個高斯分佈。
根據公式(2.141)和公式(2.142),並且在標準差取無窮的情況下,在u的後驗分佈中,先驗的貢獻消失了。
非引數化方法
本章中,我們已經關注過的概率分佈都有具體的函式形式,並且由少量的引數控制。這些引數的值可以由資料集確定。這被稱為概率密度建模的引數化(parametric)方法。這種方法的一個重要侷限性是選擇的概率密度可能對於生成資料來說,是一個很差的模型,從而會導致相當差的預測表現。例如,如果生成資料的過程是多峰的,那麼這種分佈不可能被高斯分佈描述,因為它是單峰的。
首先讓我們討論密度估計的直方圖方法。


在實際應用中,直方圖方法對於快速地將一維或者二維的資料視覺化很有用,但是並不適用於大多數概率密度估計的應用。一個明顯的問題是估計的概率密度具有不連續性,這種不連續性是因為箱子的邊緣造成的,而不是因為生成資料的概率分佈本身的性質造成。
核密度估計
讓我們假設觀測服從D維空間的某個未知的概率密度分佈p(x)。我們把這個D維空間選擇成歐幾里得空間,並且我們想估計p(x)的值。區域R的概率質量為

在我們假設我們收集了服從p(x)分佈的N次觀測。由於每個資料點都有一個落在區域R中的概率P,因此位於區域R內部的資料點的總數K將服從二項分佈


但是,如果我們也假定區域R足夠小,使得在這個區域內的概率密度p(x)大致為常數,那麼我們有

其中V是區域R的體積。把公式(2.244)和公式(2.245)結合,我們得到概率密度的估計,形式為

注意,公式(2.246)的成立依賴於兩個相互矛盾的假設,即區域R要足夠小,使得這個區域內的概率密度近似為常數,但是也要足夠大,使得落在這個區域內的資料點的數量K能夠足夠讓二項分佈達到尖峰。
我們有兩種方式利用(2.246)的結果。我們可以固定K然後從資料中確定V的值,這就是K近鄰方法。我們還可以固定V然後從資料中確定K,這就是核方法。

這表示一個以原點為中心的單位立方體。函式k(u)是核函式(kernel function)的一個例子,在這個問題中也被稱為Parzen窗(Parzen window)。根據公式(2.247),如果資料點xn位於以x為中心的邊長為h的立方體中,那麼量k(x - xn/h)的值等於1,否則它的值為0。
於是,位於這個立方體內的資料點的總數為

把這個表示式代入公式(2.246),可以得到點x處的概率密度估計

核密度估計(2.249)有一個問題,這個問題也是直方圖方法具有的問題中的一個。這個問題就是人為帶來的非連續性。在之前所述的核密度估計方法中就是立方體的邊界。如果我們選擇一個平滑的核函式,那麼我們就可以得到一個更加光滑的模型。

其中h表示高斯分佈的標準差。
近鄰方法
核方法進行概率密度估計的一個困難之處是控制核寬度的引數h對於所有的核都是固定的。在高資料密度的區域,大的h值可能會造成過度平滑,並且破壞了本應從資料中提取出的結構。但是,減小h的值可能導致資料空間中低密度區域估計的噪聲。因此,h的最優選擇可能依賴於資料空間的位置。這個問題可以通過概率密度的近鄰方法解決。
因此我們回到區域性概率密度估計的一般結果(2.246)。與之前固定V然後從資料中確定K的值不同,我們考慮固定K的值然後使用資料來確定合適的V值。為了完成這一點,我們考慮一個以x為中心的小球體,然後我們想估計概率密度p(x)。並且,我們允許球體的半徑可以自由增長,直到它精確地包含K個資料點。這樣,概率密度p(x)的估計就由公式(2.246)給出,其中V等於最終球體的體積。這種方法被稱為K近鄰方法。
如果應用於分類問題


相關文章
- 模式識別與機器學習(二)模式機器學習
- 模式識別與機器學習——迴歸的線性模型模式機器學習模型
- 模式識別與機器學習筆記專欄之貝葉斯分類決策(一)模式機器學習筆記
- 機器學習數學知識積累之概率論機器學習
- 重磅 | AI 聖經 PRML《模式識別與機器學習》官方開源了!AI模式機器學習
- 機器學習--白板推導系列筆記3 概率:高斯分佈之有偏估計與無偏估計機器學習筆記
- 開源!《模式識別與機器學習(PRML)》筆記、程式碼、NoteBooks 釋出模式機器學習筆記
- PRML 概率分佈概率分佈
- 機器學習--白板推導系列筆記2 概率:高斯分佈之極大似然估計機器學習筆記
- 機器學習中的概率統計機器學習
- 概率論——常用分佈
- 【機器學習】手寫數字識別機器學習
- 熟悉常見概率分佈概率分佈
- 機器學習數學複習 - 1.概率論基礎機器學習
- 機器視覺學習筆記:臉性別識別視覺筆記
- 深度學習與機器學習之間區別 - javaworld深度學習機器學習Java
- 機器學習框架ML.NET學習筆記【4】多元分類之手寫數字識別機器學習框架筆記
- 肺癌診斷新突破!機器學習識別腫瘤模式及亞型,表現與病理學家相當機器學習模式
- 機器學習判別式與生成式機器學習
- Python中的隨機取樣和概率分佈(一)Python隨機概率分佈
- Python中的隨機取樣和概率分佈(二)Python隨機概率分佈
- 機器學習之邏輯迴歸:計算概率機器學習邏輯迴歸
- 初識機器學習機器學習
- 5分鐘內看懂機器學習和深度學習的區別機器學習深度學習
- 概率演算法_二項分佈和泊松分佈演算法
- 用機器學習識別隨機生成的C&C域名機器學習隨機
- 吳恩達機器學習系列0——初識機器學習吳恩達機器學習
- 動態分佈與靜態分佈的區別
- 機器學習數學知識積累之高等數學微積分機器學習
- 例項複習機器學習數學 - 2. 幾種典型離散隨機變數分佈機器學習隨機變數
- [機器學習 ]RandomForest、GBDT、XGBoost、lightGBM 原理與區別機器學習randomREST
- 【機器學習】支援向量機分類機器學習
- 概率統計第二章 隨機變數及其分佈隨機變數
- 機器學習學習筆記——基本知識機器學習筆記
- Scikit-Learn機器學習實踐——垃圾簡訊識別機器學習
- 機器學習實戰-SVM模型實現人臉識別機器學習模型
- Python高效深度學習機器識別驗證碼教程分享Python深度學習
- 機器學習之分類:真與假以及正類別與負類別機器學習