EM演算法學習(三)

雲時之間發表於2018-01-15

原文網址 : https://juejin.im/post/5a576f31f265da3e5537d509

演算法

在前兩篇文章中,我們已經大致的講述了關於EM演算法的一些基本理論和一些基本的性質,以及針對EM演算法的缺點進行的優化改進的新型EM演算法,研究之後大致就能夠進行初步的瞭解.現在在這最後一篇文章,我想對EM演算法的應用進行一些描述:

EM演算法在多元正態分佈缺失的資料下一般都是有較為廣泛的應用,所以在這樣典型的應用情境下,我將主要研究EM演算法在二元正態分佈下的應用.

1:二元正態分佈的介紹:

設二維的隨機變數(X,Y)的概率密度為:

其中u1,u2,p,&1,&2都是常數,並且&1>0,%2>0,-1

因為接下來的推導需要幾個性質,現在先給出幾個重要的性質:

性質1:二元正態分佈的邊際分佈

證:

由於

於是得到:

在這裡設一個引數t:

即可以得到:

同理:

哼,證明證明出來了

性質2:正態分佈的條件分佈仍是正態分佈

二元正態分佈(X,Y) ~N(u,M),其中:

求證:

證明過程如下:

2:對於二元正態分佈均值的MCEM估計:

設總體Z=(X,Y)~N(u,M),其中:

現在有如下的觀測資料:

顯然這個資料是缺失的,如果資料完整的話,那麼這個引數估計起來很簡單,用極大似然估計就OK,但是這樣的資料不完整的情況下,用極大似然估計求引數是非常困難的,現在我們知道EM演算法對於缺失資料是非常有利的,現在我們用EM演算法來求:

假設協方差矩陣

估計未知引數:

首先以u=[2,4]為例產生二元正態分佈隨機數,並將產生的隨機數扣掉一部分資料,將扣掉的這一部分資料當成未知的缺失資料M=[M1,M2],剩下的資料作為觀測資料Z=[X,Y]

假設在第K+1次迭代中有u的估計值u(k)=[u1(k),u2(k)],在上邊的性質中,可以應用得到:

然後按照上邊的條件分佈生成n個隨機數:

M1=(m1(1),m1(2),……..m1(n))

M2=(m2(1),m2(2)…….m2(n))

計算E步,得出Q函式:

這樣M1與觀察資料構成完全資料(M1(K),X),在M步中,對於函式Q的未知引數u1求導進行極大似然估計,想當是對在完全資料下的u1求極大似然估計,即:

這裡的M1表示在完全資料下的均值,u2的估計值求法與此相似.

有興趣的同學可以用MATLAB這樣的工具試一試,實驗室的小夥伴試驗後表示在u1,u2初始值都為1,迭代20次以後,最終都會收斂,u1=2.0016,u2=3,9580

3:高斯混合分佈的定義;

混合模型是指隨機變數X的概率密度函式為下式:

這個式子表現的是這個混合模型有M個分支組成,每個分支的權值為ak,當每個分支的分佈都是高斯分佈時,則稱混合分佈為有M個分支的高斯混合分佈(GMM)

現在進行假設:

設樣本觀測值為X={x1,x2,,,,,xN},由上邊的式子的到,高斯分佈混合分佈的對數似然函式可以寫成:

我們現在進行簡化:

把上式中的累加求和去掉,，如果直接對對數似然函式求導來尋求極值是不可行的。但是如果我們知道每一個觀測值甄具體是來自M個分支的哪一個分支的，則問題的難度就會下降很多。因此，從這個想法出發，我們引進隱含變量y，它是這麼定義的:設Y={y1,y2,,,,yN}且y(i)∈{1，2，…，M}，i= 1，2，…，N。則當y(i)=k時，表示第i個樣本觀測值x(i)是由高斯混合分佈的第k個分支產生的。因此，引入變數y後，對數似然函式可以改寫成為:

改寫似然函式之後，我們就可以考慮用EM演算法來對模型進行引數估計。

在演算法的E步中，需要求完全資料的對數似然函式的期望。假設在第t一

1次迭代開始時，X已知,而Y是變數,對Y積分有:

已知第i個觀察x(i)來自第K個分支的概率為p,因此下邊的式子可以寫為:

而由貝葉斯公式可知

在接下來M步中,我們要求極大化式函式:

首先為了求u(k)，可以將Q對u(k)進行求偏導並令其為零,即:

可得:

同理求&k平方:

最後,為了求ak,我們引入拉格朗日乘子:

因此有:

將這個式子進行求和得到:

最後將入=-N帶入上式,得到:

至此，我們得到所有引數的更新公式，通過程式設計可以實現迭代得到引數估計。

4:至於HMM隱馬爾科夫模型演算法,我也是正在學習,以後再專門一篇文章進行講述

總結:在寫這一系列文章中,發現了EM演算法當前存在的一些問題,但是自己的能力實在不行,比如儘管提到了使用N-R和aitken演算法進行加速,但是計算還是太複雜,更有意思的是如何巧妙地擴充引數空間進行加速收斂.還有在高斯混合模型研究中，本文是因為事先知道GMM分支的數量來進行估計的，但是如果給的是一堆雜亂的資料，需要解決如何確定分支的問題，才能更好的擬合樣本，這是一個有待考慮的問題 .最後還有EM演算法在其他模型中的應用，在其他方向的應用，如不止可以用來進行引數估計，還

可以進行假設檢驗等。

通過近期對EM演算法的研究，可以看出EM演算法在處理資料缺失問題中優勢明顯，演算法和原理簡單，收斂穩定，適用性廣，當然其也存在諸多缺點(比如收斂速度慢;E步、M步計算困難)等，但是相信隨著更多的學者對EM演算法進行深入的研究，EM演算法會得到更大的推廣和改進，這些問題也都會逐步得到解決。

也希望這方面的相關人士可以給我一些指教,不勝感激.

統計學習方法筆記-EM演算法
2020-11-19
筆記演算法
python機器學習筆記：EM演算法
2020-05-16
Python機器學習筆記演算法
機器學習經典演算法之EM
2019-07-06
機器學習演算法
機器學習十大演算法之EM演算法
2018-11-08
機器學習演算法
【機器學習】--EM演算法從初識到應用
2018-04-09
機器學習演算法
04EM演算法-EM演算法收斂證明
2018-12-29
演算法
EM演算法1
2024-10-24
演算法
03EM演算法-EM演算法流程和直觀案例
2018-12-28
演算法
白話EM演算法
2018-09-04
演算法
09_EM演算法
2020-06-06
演算法
統計學習：EM演算法及其在高斯混合模型(GMM)中的應用
2022-03-09
演算法模型
演算法進階(8): EM演算法
2020-12-22
演算法
如何感性地理解EM演算法？
2021-09-09
演算法
05EM演算法-高斯混合模型-GMM
2018-12-31
演算法模型
期望最大化演算法（EM）簡介
2023-04-15
演算法
三味Capsule：矩陣Capsule與EM路由
2018-03-02
矩陣路由
EM
2024-05-08
演算法學習
2024-03-10
演算法
Vue原始碼學習(十六):diff演算法(三)暴力比對
2023-11-10
Vue原始碼演算法
高斯混合模型(GMM)和EM演算法 —— python實現
2024-03-27
模型演算法Python
聚類之K均值聚類和EM演算法
2019-05-13
聚類演算法
TypeScript 學習（三）
2018-10-18
TypeScript
django學習(三)
2020-09-06
Django
hdfs學習(三)
2020-08-15
redis學習(三)
2020-04-05
Redis
goblg學習三
2021-03-22
Go
演算法學習->求解三角形最小路徑
2021-11-04
演算法
機器學習演算法學習筆記
2023-03-13
機器學習演算法筆記
演算法學習思路
2019-04-09
演算法
Gusfield演算法學習
2023-04-29
演算法
TLD演算法學習
2020-04-06
演算法
加密演算法學習
2024-08-11
加密演算法
演算法學習指南
2020-11-23
演算法
EM 演算法-對鳶尾花資料進行聚類
2020-12-14
演算法聚類
機器學習演算法（三）：K近鄰(k-nearest neighbors)初探
2020-12-21
機器學習演算法REST
HIVE學習之（三）
2018-07-25
Hive
函式學習三
2020-06-05
函式
TypeScript學習（三）—— 類
2019-04-24
TypeScript
2024暑期學習(三)
2024-08-18

EM演算法學習(三)

相關文章