如何通俗地理解概率論中的「極大似然估計法」?
我們假設硬幣有兩面,一面是“花”,一面是“字”。
一般來說,我們都覺得硬幣是公平的,也就是“花”和“字”出現的概率是差不多的。
如果我扔了100次硬幣,100次出現的都是“花”。
在這樣的事實下,我覺得似乎硬幣的引數不正常。極有可能兩面都是“花”!
這種通過事實,反過來猜測硬幣的情況,就是似然。
通過事實,推斷出最有可能的硬幣情況,就是最大似然估計。
1 概率vs似然
讓我們先來比較下概率和似然。
為了避免和我們想討論的概率混淆,我們把硬幣的“花”出現的概率稱為硬幣的引數。
1.1 概率
已知硬幣的引數,就可以去推測拋硬幣的各種情況的可能性,這稱為概率。
比如已知硬幣是個正常的硬幣,也就是硬幣的引數為0.5。
那麼我們就可以推測,扔10次硬幣,出現5次“花”朝上的概率為(拋硬幣遵循二項分佈,這個就不多解釋了):
1.2 似然
正如開頭所說,我們對硬幣的引數並不清楚,要通過拋硬幣的情況去推測硬幣的引數,這稱為似然。
可以再舉不那麼恰當(主要模型不好建立)的例子,蹭下熱點。
比如我們發現,鹿晗和關曉彤戴同款手鍊,穿同款衛衣,我們應該可以推測這兩人關係的“引數”是“親密”。
進一步發現,兩人在同一個地方跨年,似乎,關係的“引數”是“不簡單”。
最後,關曉彤號稱要把初吻留給男友,但是最近在熒幕中獻出初吻,物件就是鹿晗:我覺得最大的可能性,關係的“引數”是“在一起”。
通過證據,對兩人的關係的“引數”進行推斷,叫做似然,得到最可能的引數,叫做最大似然估計。
2 最大似然估計
來看看怎麼進行最大似然估計。
2.1 具體的例子
我們實驗的結果是,10次拋硬幣,有6次是“花”。
所謂最大似然估計,就是假設硬幣的引數,然後計算實驗結果的概率是多少,概率越大的,那麼這個假設的引數就越可能是真的。
我們先看看硬幣是否是公平的,就用0.5作為硬幣的引數,實驗結果的概率為:
單獨的一次計算沒有什麼意義,讓我們繼續往後面看。
再試試用0.6作為硬幣的引數,實驗結果的概率為:
之前說了,單次計算沒有什麼意義,但是兩次計算就有意義了,因為可以進行比較了。
可以看到:
我們可以認為,0.6作為引數的可能性,是0.5作為引數的可能性的1.2倍。
2.2 作圖
我們設硬幣的引數為為
θ
θ
θ ,可以得到似然函式為:
這個函式用圖形表示就是這樣(橫軸是
θ
θ
θ , 縱軸是 似然函式 L)
我們可以從圖中看出兩點:
• 引數為0.6時,概率最大
• 引數為0.5 或其他值也是有可能的,但可能性都小一點
所以更準確的說,似然(現在可以說似然函式了)是引數
θ
θ
θ 的概率分佈。
而求最大似然估計的問題,就變成了求似然函式的極值。在這裡,極值出現在 θ θ θ 為 0.6 時。
2.3 更多的實驗結果
如果實驗結果是,投擲100次,出現了60次“花”呢?
似然函式為:
用 0.5 作為硬幣的引數,實驗結果的概率為:
再試試用0.6作為硬幣的引數,實驗結果的概率為:
此時,0.6作為引數的可能性是0.5作為引數的可能性的8倍,新的實驗結果更加支援0.6這個引數。
用圖形表示這個似然函式:
很明顯影像縮窄了,可以這麼解讀,可選的引數的分佈更集中了。也就是越多的實驗結果(拋100次 vs. 拋 10次),讓引數越來越明確。
2.4 更復雜一些的最大似然估計
2.4.1 數學名詞
下面提升一點難度,開始採用更多的數學名詞了。
先說一下數學名詞:
• 一次實驗:拋硬幣10次,出現6次“花”,就是一次實驗。
• 二項分佈:拋硬幣10次,出現6次“花”的概率為0.25,出現5次“花”的概率為0.21,所有的可能的結果(比如拋硬幣10次,出現11次“花”,這就是不可能)的概率,放在一起就是二項分佈
2.4.2 多次實驗
之前的例子只做了一次實驗。只做一次實驗,沒有必要算這麼複雜,比如投擲100次,出現了60次“花”,我直接這樣求最大似然估計:
不就好了?
最大似然估計真正的用途是針對多次實驗。
2.4.3 上帝視角
為了說清楚這個問題,我引入一個上帝視角。
比如,我有如下的二項分佈,
θ
θ
θ 為出現“花”的概率(硬幣最多拋10次):
在實際生活中,
θ
θ
θ 往往是不知道的,這裡你可以看得到,就好像你是上帝一樣。
要提醒大家注意的一點,上面的影像只有上帝才能看到的,包括:
• 二次分佈的柱狀圖
• 二次分佈的曲線圖
•
θ
θ
θ 值為多少
我把只有上帝能看到的用虛線表示,
θ
θ
θ 用淡一點的顏色表示:
2.4.4 通過多次實驗進行最大似然估計
上面的二項分佈用通俗點的話來說,就是描述了拋10次硬幣的結果的概率,其中,“花”出現的概率為
θ
θ
θ 。
針對上面的二項分佈,我進行6次實驗(也就是總共6次,每次拋10次硬幣),把實驗結果用點的形式標記在影像上(從技術上講,這6個點是根據二項分佈隨機得到的):
這個實驗結果,也就是圖上的點,是我們“愚蠢的人類”可以看見的了。
可以看到,雖然進行了6次實驗,但是卻沒有6個點,這是因為有的實驗結果是一樣的,就重合了。
為了方便觀察,我把6個點的值用文字表示出來:
上圖中的 {4,5,5,2,7,4} 就是6次實驗的結果,分別表示:
• 第一次實驗,4次出現“花”
• 第二次實驗,5次出現“花”
• 第三次實驗,5次出現“花”
• 以此類推
我們用
x
1
,
x
2
,
x
3
,
…
x
n
x1,x2,x3,…xn
x1,x2,x3,…xn 表示每次實驗結果,因為每次實驗都是獨立的,所以,多次實驗的似然函式可以寫作(得到這個似然函式很簡單,獨立事件的聯合概率,直接相乘就可以得到):
f
(
x
n
∣
θ
)
f(xn∣θ)
f(xn∣θ) 表示在同一個引數下的實驗結果,也可以認為是條件概率。
上面除了實驗結果外,其他都是上帝看到的,而下面是通過實驗結果,利用似然函式對
θ
θ
θ 值進行推斷:
下面這幅圖,分為兩部分,上面這個圖是6次試驗的上帝視角,下圖是估算出的
θ
θ
θ 值(具體的估算方法參見二項分佈的最大似然估計相關的演算法和計算步驟)。
可以看出,推斷出來的
θ
θ
θ 值和上帝看到的差不多。之所以有差別是因為實驗本身具有二項隨機性,相信試驗次數越多,推測會越準確。
自己動手試試當上帝的感覺吧,上面的 滑動條可以拖動哦:
此處有互動內容,點選此處前往操作。
最大似然估計也是機器學習的一個重要演算法,大家是否通過上面的操作,是否感受到了機器是如何學習的?
3 最大似然估計與貝葉斯定理的異同
3.1 相同之處
扔了100次硬幣,100次出現的都是“花”,不論是最大似然估計,或者是貝葉斯定理,都認為有必要對之前假設的硬幣的引數進行調整。
我在 怎樣用非數學語言講解貝葉斯定理(Bayes’ theorem)? 的最後也提出了這個問題。
3.2 不同之處
貝葉斯定理還要考慮,兩面都是“花”的硬幣本身存在的概率有多高。
如果我的硬幣不是精心準備的,而是隨機挑選的,那麼一枚硬幣兩面都是“花”可能性微乎其微,幾乎就是一個傳說。
那麼貝葉斯會認為哪怕扔了100次硬幣,100次出現的都是“花”,但是因為兩面都是“花”的硬幣實在太少,那麼實際這枚硬幣是兩面“花”的可能性仍然不高。
4 如何求解極大似然估計
https://blog.csdn.net/zengxiantao1994/article/details/72787849
5 極大似然估計的python實現
https://blog.csdn.net/pengjian444/article/details/71215965
6 參考
本文轉載自 https://www.matongxue.com/madocs/447.html
相關文章
- 極大似然估計
- 極大似然估計理解與應用
- [筆記]極大似然估計、最大後驗概率、貝葉斯估計筆記
- 先驗概率 後驗概率 似然估計
- 從極大似然估計的角度理解深度學習中loss函式深度學習函式
- 基於極大似然估計方法的diffusion
- 極大似然估計思想的最簡單解釋
- 詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解公式
- 損失函式:最小二乘法與極大似然估計法函式
- 機器學習--白板推導系列筆記2 概率:高斯分佈之極大似然估計機器學習筆記
- 從DDPM到DDIM (一) 極大似然估計與證據下界
- 最大似然估計詳解
- 01EM演算法-大綱-最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)演算法
- 機器學習必知概念:貝葉斯估計、最大似然估計、最大後驗估計機器學習
- Machine Learning 學習筆記 03 最小二乘法、極大似然法、交叉熵Mac筆記熵
- 最大似然函式和最大後驗概率區別函式
- 最大似然估計可能因 "流形過度擬合 "而失敗
- 如何通俗理解設計模式及其思想?設計模式
- 如何通俗的理解散度?
- 【小白學AI】線性迴歸與邏輯迴歸(似然引數估計)AI邏輯迴歸
- 大資料之概率論大資料
- ML-樸素貝葉斯-先驗分佈/後驗分佈/似然估計
- Redis Hyperloglog的原理及數學理論的通俗理解Redis
- 概率論
- 最大似然分類器
- 如何通俗理解泊松分佈?
- 基於似然場的全域性定位
- 概率論與數理統計 17
- 概率論與數理統計 19
- 概率論與數理統計(1)
- UA MATH563 概率論的數學基礎 中心極限定理23 概率測度族的緊性H5
- 線性迴歸,邏輯迴歸的學習(包含最小二乘法及極大似然函式等)邏輯迴歸函式
- 通俗理解kaggle比賽大殺器xgboost
- 關於MySQL中的自聯結的通俗理解MySql
- 全概率公式理解公式
- AI中有關概率統計的直觀且通俗易懂的圖片介紹AI
- 八大基礎演算法 自己的通俗理解演算法
- 如何通俗地理解傅立葉變換?