極大似然估計

kael.li發表於2018-09-07

原文網址 : https://flycode.co/archives/206828

極大似然估計

貝葉斯決策

    首先來看貝葉斯分類，我們都知道經典的貝葉斯公式：

    其中：p(w)：為先驗概率，表示每種類別分佈的概率；：類條件概率，表示在某種類別前提下，某事發生的概率；而為後驗概率，表示某事發生了，並且它屬於某一類別的概率，有了這個後驗概率，我們就可以對樣本進行分類。後驗概率越大，說明某事物屬於這個類別的可能性越大，我們越有理由把它歸到這個類別下。

    我們來看一個直觀的例子：已知：在夏季，某公園男性穿涼鞋的概率為1/2，女性穿涼鞋的概率為2/3，並且該公園中男女比例通常為2:1，問題：若你在公園中隨機遇到一個穿涼鞋的人，請問他的性別為男性或女性的概率分別為多少？

    從問題看，就是上面講的，某事發生了，它屬於某一類別的概率是多少？即後驗概率。

    設：

    由已知可得：

    男性和女性穿涼鞋相互獨立，所以

（若只考慮分類問題，只需要比較後驗概率的大小，的取值並不重要）。

    由貝葉斯公式算出：

問題引出

    但是在實際問題中並不都是這樣幸運的，我們能獲得的資料可能只有有限數目的樣本資料，而先驗概率和類條件概率(各類的總體分佈)都是未知的。根據僅有的樣本資料進行分類時，一種可行的辦法是我們需要先對先驗概率和類條件概率進行估計，然後再套用貝葉斯分類器。

    先驗概率的估計較簡單，1、每個樣本所屬的自然狀態都是已知的（有監督學習）；2、依靠經驗；3、用訓練樣本中各類出現的頻率估計。

    類條件概率的估計（非常難），原因包括：概率密度函式包含了一個隨機變數的全部資訊；樣本資料可能不多；特徵向量x的維度可能很大等等。總之要直接估計類條件概率的密度函式很難。解決的辦法就是，把估計完全未知的概率密度轉化為估計引數。這裡就將概率密度估計問題轉化為引數估計問題，極大似然估計就是一種引數估計方法。當然了，概率密度函式的選取很重要，模型正確，在樣本區域無窮時，我們會得到較準確的估計值，如果模型都錯了，那估計半天的引數，肯定也沒啥意義了。

重要前提

    上面說到，引數估計問題只是實際問題求解過程中的一種簡化方法（由於直接估計類條件概率密度函式很困難）。所以能夠使用極大似然估計方法的樣本必須需要滿足一些前提假設。

    重要前提：訓練樣本的分佈能代表樣本的真實分佈。每個樣本集中的樣本都是所謂獨立同分布的隨機變數 (iid條件)，且有充分的訓練樣本。

極大似然估計

    極大似然估計的原理，用一張圖片來說明，如下圖所示：

    總結起來，最大似然估計的目的就是：利用已知的樣本結果，反推最有可能（最大概率）導致這樣結果的引數值。

    原理：極大似然估計是建立在極大似然原理的基礎上的一個統計方法，是概率論在統計學中的應用。極大似然估計提供了一種給定觀察資料來評估模型引數的方法，即：“模型已定，引數未知”。通過若干次試驗，觀察其結果，利用試驗結果得到某個引數值能夠使樣本出現的概率為最大，則稱為極大似然估計。

    由於樣本集中的樣本都是獨立同分布，可以只考慮一類樣本集D，來估計引數向量θ。記已知的樣本集為：

    似然函式（linkehood function）：聯合概率密度函式稱為相對於的θ的似然函式。

    如果是引數空間中能使似然函式最大的θ值，則應該是“最可能”的引數值，那麼就是θ的極大似然估計量。它是樣本集的函式，記作：

求解極大似然函式

    ML估計：求使得出現該組樣本的概率最大的θ值。

     實際中為了便於分析，定義了對數似然函式：

    1. 未知引數只有一個（θ為標量）

    在似然函式滿足連續、可微的正則條件下，極大似然估計量是下面微分方程的解：

    2.未知引數有多個（θ為向量）

    則θ可表示為具有S個分量的未知向量：

     記梯度運算元：

     若似然函式滿足連續可導的條件，則最大似然估計量就是如下方程的解。

     方程的解只是一個估計值，只有在樣本數趨於無限多的時候，它才會接近於真實值。

極大似然估計的例子

    例1：設樣本服從正態分佈，則似然函式為：

    它的對數：

    求導，得方程組：

    聯合解得：

    似然方程有唯一解：，而且它一定是最大值點，這是因為當或時，非負函式。於是U和的極大似然估計為。

    例2：設樣本服從均勻分佈[a, b]。則X的概率密度函式：

    對樣本：

    很顯然，L(a,b)作為a和b的二元函式是不連續的，這時不能用導數來求解。而必須從極大似然估計的定義出發，求L(a,b)的最大值，為使L(a,b)達到最大，b-a應該儘可能地小，但b又不能小於，否則，L(a,b)=0。類似地a不能大過，因此，a和b的極大似然估計：

總結

    求最大似然估計量的一般步驟：

    （1）寫出似然函式；

    （2）對似然函式取對數，並整理；

    （3）求導數；

    （4）解似然方程。

    最大似然估計的特點：

    1.比其他估計方法更加簡單；

    2.收斂性：無偏或者漸近無偏，當樣本數目增加時，收斂性質會更好；

    3.如果假設的類條件概率模型正確，則通常能獲得較好的結果。但如果假設模型出現偏差，將導致非常差的估計結果。

極大似然估計理解與應用
2019-03-11
基於極大似然估計方法的diffusion
2024-07-11
極大似然估計思想的最簡單解釋
2018-08-06
[筆記]極大似然估計、最大後驗概率、貝葉斯估計
2020-11-07
筆記
從DDPM到DDIM (一) 極大似然估計與證據下界
2024-07-23
如何通俗地理解概率論中的「極大似然估計法」?
2020-11-26
最大似然估計詳解
2021-06-09
從極大似然估計的角度理解深度學習中loss函式
2019-06-10
深度學習函式
損失函式：最小二乘法與極大似然估計法
2021-08-02
函式
先驗概率後驗概率似然估計
2018-03-30
機器學習--白板推導系列筆記2 概率：高斯分佈之極大似然估計
2019-04-15
機器學習筆記
機器學習必知概念：貝葉斯估計、最大似然估計、最大後驗估計
2018-07-02
機器學習
01EM演算法-大綱-最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)
2018-12-22
演算法
最大似然估計可能因 "流形過度擬合 "而失敗
2022-04-20
詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解
2019-03-30
公式
【小白學AI】線性迴歸與邏輯迴歸（似然引數估計）
2020-08-02
AI邏輯迴歸
ML-樸素貝葉斯-先驗分佈/後驗分佈/似然估計
2019-02-21
Machine Learning 學習筆記 03 最小二乘法、極大似然法、交叉熵
2022-04-07
Mac筆記熵
最大似然分類器
2021-01-03
線性迴歸，邏輯迴歸的學習（包含最小二乘法及極大似然函式等）
2018-03-27
邏輯迴歸函式
基於似然場的全域性定位
2024-03-18
【機器學習】【邏輯迴歸】代價函式為什麼用最大似然估計而不是最小二乘法？
2019-02-22
機器學習邏輯迴歸函式
負對數似然（NLL）和困惑度（PPL）
2024-08-29
熵、交叉熵及似然函式的關係
2019-07-31
熵函式
最大似然函式和最大後驗概率區別
2020-04-06
函式
機器學習系列文章：引數方法（最大似然、分類）
2018-09-23
機器學習
機器學習 - 似然函式：概念、應用與程式碼例項
2023-11-30
機器學習函式
CVPR 2019 | 曠視提出極輕量級年齡估計模型C3AE
2019-06-12
模型
圓周率π的計算曆程及各種腦洞大開的估計方法
2018-10-18
數理統計8：點估計的有效性、一致最小方差無偏估計(UMVUE)、零無偏估計法
2021-02-08
Vue
如何評估大語言模型
2023-03-29
模型
什麼是敏捷估計？
2018-12-31
敏捷
基音週期估計--Yin
2021-04-02
非極大值抑制
2020-11-10
轉：單應性Homography估計
2024-03-14
openGauss-智慧基數估計
2024-08-29
單目深度估計+導航
2024-07-23
人體姿態估計——PBN
2020-11-28

極大似然估計

相關文章