如何感性地理解EM演算法?
如果使用基於最大似然估計的模型,模型中存在隱變數,就要用EM演算法做引數估計。個人認為,理解EM演算法背後的idea,遠比看懂它的數學推導重要。idea會讓你有一個直觀的感受,從而明白演算法的合理性,數學推導只是將這種合理性用更加嚴謹的語言表達出來而已。打個比方,一個梨很甜,用數學的語言可以表述為糖分含量90%,但只有親自咬一口,你才能真正感覺到這個梨有多甜,也才能真正理解數學上的90%的糖分究竟是怎麼樣的。如果EM是個梨,本文的目的就是帶領大家咬一口。
001、一個非常簡單的例子
假設現在有兩枚硬幣1和2,,隨機拋擲後正面朝上機率分別為P1,P2。為了估計這兩個機率,做實驗,每次取一枚硬幣,連擲5下,記錄下結果,如下:
硬幣 | 結果 | 統計 |
---|---|---|
1 | 正正反正反 | 3正-2反 |
2 | 反反正正反 | 2正-3反 |
1 | 正反反反反 | 1正-4反 |
2 | 正反反正正 | 3正-2反 |
1 | 反正正反反 | 2正-3反 |
可以很容易地估計出P1和P2,如下:
P1 = (3+1+2)/ 15 = 0.4
P2= (2+3)/10 = 0.5
到這裡,一切似乎很美好,下面我們加大難度。
010、加入隱變數z
還是上面的問題,現在我們抹去每輪投擲時使用的硬幣標記,如下:
硬幣 | 結果 | 統計 |
---|---|---|
Unknown | 正正反正反 | 3正-2反 |
Unknown | 反反正正反 | 2正-3反 |
Unknown | 正反反反反 | 1正-4反 |
Unknown | 正反反正正 | 3正-2反 |
Unknown | 反正正反反 | 2正-3反 |
好了,現在我們的目標沒變,還是估計P1和P2,要怎麼做呢?
顯然,此時我們多了一個隱變數z,可以把它認為是一個5維的向量(z1,z2,z3,z4,z5),代表每次投擲時所使用的硬幣,比如z1,就代表第一輪投擲時使用的硬幣是1還是2。但是,這個變數z不知道,就無法去估計P1和P2,所以,我們必須先估計出z,然後才能進一步估計P1和P2。
但要估計z,我們又得知道P1和P2,這樣我們才能用最大似然機率法則去估計z,這不是雞生蛋和蛋生雞的問題嗎,如何破?
答案就是先隨機初始化一個P1和P2,用它來估計z,然後基於z,還是按照最大似然機率法則去估計新的P1和P2,如果新的P1和P2和我們初始化的P1和P2一樣,請問這說明了什麼?(此處思考1分鐘)
這說明我們初始化的P1和P2是一個相當靠譜的估計!
就是說,我們初始化的P1和P2,按照最大似然機率就可以估計出z,然後基於z,按照最大似然機率可以反過來估計出P1和P2,當與我們初始化的P1和P2一樣時,說明是P1和P2很有可能就是真實的值。這裡麵包含了兩個互動的最大似然估計。
如果新估計出來的P1和P2和我們初始化的值差別很大,怎麼辦呢?就是繼續用新的P1和P2迭代,直至收斂。
這就是下面的EM初級版。
011、EM初級版
我們不妨這樣,先隨便給P1和P2賦一個值,比如:
P1 = 0.2
P2 = 0.7
然後,我們看看第一輪拋擲最可能是哪個硬幣。
如果是硬幣1,得出3正2反的機率為 0.2*0.2*0.2*0.8*0.8 = 0.00512
如果是硬幣2,得出3正2反的機率為0.7*0.7*0.7*0.3*0.3=0.03087
然後依次求出其他4輪中的相應機率。做成表格如下:
輪數 | 若是硬幣1 | 若是硬幣2 |
---|---|---|
1 | 0.00512 | 0.03087 |
2 | 0.02048 | 0.01323 |
3 | 0.08192 | 0.00567 |
4 | 0.00512 | 0.03087 |
5 | 0.02048 | 0.01323 |
按照最大似然法則:
第1輪中最有可能的是硬幣2
第2輪中最有可能的是硬幣1
第3輪中最有可能的是硬幣1
第4輪中最有可能的是硬幣2
第5輪中最有可能的是硬幣1
我們就把上面的值作為z的估計值。然後按照最大似然機率法則來估計新的P1和P2。
P1 = (2+1+2)/15 = 0.33
P2=(3+3)/10 = 0.6
設想我們是全知的神,知道每輪拋擲時的硬幣就是如本文第001部分標示的那樣,那麼,P1和P2的最大似然估計就是0.4和0.5(下文中將這兩個值稱為P1和P2的真實值)。那麼對比下我們初始化的P1和P2和新估計出的P1和P2:
初始化的P1 | 估計出的P1 | 真實的P1 | 初始化的P2 | 估計出的P2 | 真實的P2 |
---|---|---|---|---|---|
0.2 | 0.33 | 0.4 | 0.7 | 0.6 | 0.5 |
看到沒?我們估計的P1和P2相比於它們的初始值,更接近它們的真實值了!
可以期待,我們繼續按照上面的思路,用估計出的P1和P2再來估計z,再用z來估計新的P1和P2,反覆迭代下去,就可以最終得到P1 = 0.4,P2=0.5,此時無論怎樣迭代,P1和P2的值都會保持0.4和0.5不變,於是乎,我們就找到了P1和P2的最大似然估計。
這裡有兩個問題:
1、新估計出的P1和P2一定會更接近真實的P1和P2?
答案是:沒錯,一定會更接近真實的P1和P2,數學可以證明,但這超出了本文的主題,請參閱其他書籍或文章。
2、迭代一定會收斂到真實的P1和P2嗎?
答案是:不一定,取決於P1和P2的初始化值,上面我們之所以能收斂到P1和P2,是因為我們幸運地找到了好的初始化值。
100、EM進階版
下面,我們思考下,上面的方法還有沒有改進的餘地?
我們是用最大似然機率法則估計出的z值,然後再用z值按照最大似然機率法則估計新的P1和P2。也就是說,我們使用了一個最可能的z值,而不是所有可能的z值。
如果考慮所有可能的z值,對每一個z值都估計出一個新的P1和P2,將每一個z值機率大小作為權重,將所有新的P1和P2分別加權相加,這樣的P1和P2應該會更好一些。
所有的z值有多少個呢?顯然,有2^5=32種,需要我們進行32次估值??
不需要,我們可以用期望來簡化運算。
輪數 | 若是硬幣1 | 若是硬幣2 |
---|---|---|
1 | 0.00512 | 0.03087 |
2 | 0.02048 | 0.01323 |
3 | 0.08192 | 0.00567 |
4 | 0.00512 | 0.03087 |
5 | 0.02048 | 0.01323 |
利用上面這個表,我們可以算出每輪拋擲中使用硬幣1或者使用硬幣2的機率。比如第1輪,使用硬幣1的機率是:
0.00512/(0.00512+0.03087)=0.14
使用硬幣2的機率是1-0.14=0.86
依次可以算出其他4輪的機率,如下:
輪數 | z_i=硬幣1 | z_i=硬幣2 |
---|---|---|
1 | 0.14 | 0.86 |
2 | 0.61 | 0.39 |
3 | 0.94 | 0.06 |
4 | 0.14 | 0.86 |
5 | 0.61 | 0.39 |
上表中的右兩列表示期望值。看第一行,0.86表示,從期望的角度看,這輪拋擲使用硬幣2的機率是0.86。相比於前面的方法,我們按照最大似然機率,直接將第1輪估計為用的硬幣2,此時的我們更加謹慎,我們只說,有0.14的機率是硬幣1,有0.86的機率是硬幣2,不再是非此即彼。這樣我們在估計P1或者P2時,就可以用上全部的資料,而不是部分的資料,顯然這樣會更好一些。
這一步,我們實際上是估計出了z的機率分佈,這步被稱作E步。
結合下表:
硬幣 | 結果 | 統計 |
---|---|---|
Unknown | 正正反正反 | 3正-2反 |
Unknown | 反反正正反 | 2正-3反 |
Unknown | 正反反反反 | 1正-4反 |
Unknown | 正反反正正 | 3正-2反 |
Unknown | 反正正反反 | 2正-3反 |
我們按照期望最大似然機率的法則來估計新的P1和P2:
以P1估計為例,第1輪的3正2反相當於
0.14*3=0.42正
0.14*2=0.28反
依次算出其他四輪,列表如下:
輪數 | 正面 | 反面 |
---|---|---|
1 | 0.42 | 0.28 |
2 | 1.22 | 1.83 |
3 | 0.94 | 3.76 |
4 | 0.42 | 0.28 |
5 | 1.22 | 1.83 |
總計 | 4.22 | 7.98 |
P1=4.22/(4.22+7.98)=0.35
可以看到,改變了z值的估計方法後,新估計出的P1要更加接近0.4。原因就是我們使用了所有拋擲的資料,而不是之前只使用了部分的資料。
這步中,我們根據E步中求出的z的機率分佈,依據最大似然機率法則去估計P1和P2,被稱作M步。
101、總結
以上,我們用一個實際的小例子,來實際演示了EM演算法背後的idea,共性存於個性之中,透過這個例子,我們可以對EM演算法究竟在幹什麼有一個深刻感性的認識,掌握EM演算法的思想精髓。
Reference:
作者:milter
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4606/viewspace-2805756/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 04EM演算法-EM演算法收斂證明演算法
- EM演算法1演算法
- 03EM演算法-EM演算法流程和直觀案例演算法
- 白話EM演算法演算法
- 09_EM演算法演算法
- 演算法進階(8): EM演算法演算法
- 來感性的理解docker,看看docker是什麼吧Docker
- 如何更好理解Peterson演算法?演算法
- 05EM演算法-高斯混合模型-GMM演算法模型
- 期望最大化演算法(EM)簡介演算法
- 統計學習方法筆記-EM演算法筆記演算法
- python機器學習筆記:EM演算法Python機器學習筆記演算法
- 機器學習經典演算法之EM機器學習演算法
- 機器學習十大演算法之EM演算法機器學習演算法
- 感性認識JWTJWT
- EM
- 高斯混合模型(GMM)和EM演算法 —— python實現模型演算法Python
- 聚類之K均值聚類和EM演算法聚類演算法
- 深入理解CSS中em, rem, ex區別,及使用技巧CSSREM
- Promise--感性認知Promise
- EM 演算法-對鳶尾花資料進行聚類演算法聚類
- 【機器學習】--EM演算法從初識到應用機器學習演算法
- em 和 remREM
- 從感性角度談原型 / 原型鏈原型
- rem與em的區別||結合使用rem與emREM
- 如何理解JavaScript中常用的4種排序演算法?JavaScript排序演算法
- oracle EM 優化Oracle優化
- 強填EM演算法在理論與工程之間的鴻溝(上)演算法
- 期望最大化(EM)演算法:從理論到實戰全解析演算法
- 從感性角度學習原型/原型鏈原型
- 如何優雅地從四個方面加深對深度學習的理解深度學習
- EM(最大期望)演算法推導、GMM的應用與程式碼實現演算法
- px em rem 探討REM
- Oracle 19C EMOracle
- 人工智慧中的線性代數:如何理解並更好地應用它人工智慧
- 質量屋如何把客戶的感性需求體現到產品中?
- 統計學習:EM演算法及其在高斯混合模型(GMM)中的應用演算法模型
- 淺談px,em與remREM