機器學習系列文章:引數方法(最大似然、分類)
前面,我們討論了貝葉斯方法,使用概率對不確定性建模做出最優決策。現在我們考慮如何從給定的訓練集估計這些概率。
引言
引數化方法是指我們假設樣本取自服從某種一直模型的某個分佈。我們利用最大似然和樣本資料近似的估計這個分佈的引數資訊,從而得出這個分佈的一般模型。換言之,一旦從樣本中估計出這些引數 ,就知道了整個分佈,然後使用它進行決策。
一、最大似然估計
最大似然估計的假設前提,獨立同分布樣本,假設Xt是從某個定義在引數上的已知概率密度族中抽取的例項:
我們希望找出這樣的引數,使得樣本儘可能像是從中抽取的。因為假設前提是樣本獨立同分布,所以給定引數,樣本X的似然是單點似然的乘積:
我們感興趣的是找到這樣的引數,使得X最像是從中抽取的。因此我們尋找最大化樣本似然。由於原式中含有較多的乘積運算,為了簡化運算,我們可以使用最大化該似然的對數,而不改變它取最大值的數值。可以將乘積轉換成求和。簡化運算。
上述內容詳細講解了,引數估計方法最大似然法。然而,我們對估計的引數的具體形式,還不太清楚。所以針對這個問題,我們引出其他內容。下面內容是介紹當假設我們的類似然函式服從某種分佈,我們通過最大似然法求得分佈中引數,從而進行決策。
二、常見類似然分佈
這裡我們以伯努利分佈、多項式分佈、高斯分佈為例。並且以下我們都假設給定樣本服從獨立同分布。
1、伯努利密度
伯努利分佈也叫兩點分佈或零一分佈。白女裡隨機變數X發生概率為p取值1,時間不發生概率為1-p取值0。其概率密度函式如下:
對應的對數似然函式為:
最大化上述似然函式,求 偏導數 可得到該對數似然的估計 。
.
p的估計是時間發生的次數與實驗次數的比值。
2、多項式密度
多項式分佈可以看作伯努利分佈的推廣,其中隨機事件的結果不是兩種狀態,而是K中互斥、窮舉狀態之一,每種狀態出現的概率為pi,其概率密度函式為:
如果xi是0/1,則可以認為它們是K次獨立的伯努利試驗。
3、高斯密度
高斯分佈也叫正太分佈,其密度函式為:
對於給定樣本高斯樣本的對數似然為:
最大似然估計引數為:
三、利用最大似然進行引數化分類
本節將利用前面講解的貝葉斯規則和最大似然估計方法,解決實際問題中引數化分類方法的公式推導和概念理解。
本節假設作者已瞭解貝葉斯規則和最大似然方法,具體概念筆者不再一一贅述。直接進行公式推導。
貝葉斯公式:
前面介紹過,貝葉斯公式中的證據項是觀測樣本的邊緣概率,無論正例負例,在同一個樣本中,其值固定。所以我們根據貝葉斯公式,得出引數化分類的判別式函式。
或等價於
當我們假設類似然服從高斯分散式時,則:
判別式函式變為:
到此,就完成了對引數分類方法的公式推導過程。接下來我們需要求的判別式函式中引數資訊,也就是類似然函式所服從的高斯分佈的均值和方差資訊。因為,我們不能準確知道和,但是我們有樣本資料,所以我們可以通過樣本估計它們並把它們的估計插入上述判別式函式得到判別式函式的估計。進而進行分類決策。
根據樣本資料的最大似然估計得到的均值和方差的估計:
最終每個類的判別式的估計為:
有趣的是,第一項是常數,因為它在所有類中都是公共項,如果這些先驗也相等,則最後一項也可以去掉,再進一步假設每一個類的方差也相等,則上式變為:
總結:
本節我們使用基於似然的分類方法,其本質是使用資料估計密度,使用貝葉斯計算後驗概率,然後得到判別。在以後的我們會討論基於判別式的分類方法,在哪裡我們將直接繞開密度估計直接估計判別式函式來實現分類。對本節內容,簡言之,就是為樣本資料假設一個概率分佈,然後通過最大似然法通過資料求得概率密度函式中的引數資訊,進而完成判別式函式的構造。
引:機器學習導論
原創文章,轉載註明出處!!!!!
相關文章
- 似然函式與最大似然估計函式
- 最大似然估計詳解
- 從最大似然估計開始,你需要打下的機器學習基石機器學習
- 【機器學習演算法-python實現】最大似然估計(Maximum Likelihood)機器學習演算法Python
- 機器學習--分類變數編碼方法機器學習變數
- 機器學習必知概念:貝葉斯估計、最大似然估計、最大後驗估計機器學習
- 機器學習--白板推導系列筆記2 概率:高斯分佈之極大似然估計機器學習筆記
- 最大似然函式和最大後驗概率區別函式
- 從最大似然到EM演算法淺解演算法
- ThinkPHP 類似 AOP 思想的引數驗證PHP
- dedecms文章標題呼叫文章分類名稱的方法
- 機器學習 - 似然函式:概念、應用與程式碼例項機器學習函式
- 負對數似然(NLL)和困惑度(PPL)
- 【小白學AI】線性迴歸與邏輯迴歸(似然引數估計)AI邏輯迴歸
- 機器學習系列之分類機器學習
- 基於極大似然估計方法的diffusion
- process和session引數最大值估算方法Session
- 我愛機器學習網機器學習類別文章彙總機器學習
- 【機器學習】【邏輯迴歸】代價函式為什麼用最大似然估計而不是最小二乘法?機器學習邏輯迴歸函式
- mysql記憶體引數分類大全MySql記憶體
- [筆記]極大似然估計、最大後驗概率、貝葉斯估計筆記
- 機器學習總結(2)—分類中的代數模型機器學習模型
- 詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解公式
- 幽默:駭客式程式設計其實類似機器學習!程式設計機器學習
- 機器學習之超引數機器學習
- 【機器學習】支援向量機分類機器學習
- C#通過反射獲取類中的方法和引數個數,反射呼叫方法帶引數C#反射
- 人工智慧 (02) 機器學習 - 監督式學習分類方法人工智慧機器學習
- 如何用機器學習對文字分類機器學習文字分類
- 如何選擇機器學習分類器?機器學習
- 織夢DedeCMS文章內容分頁頁數控制方法教程
- 基於似然場的全域性定位
- PbootCMS修改後臺文章顯示最大數量boot
- 機器學習系列文章:貝葉斯決策理論機器學習
- 用數學方法分析哪類遊戲中的AI難度最大遊戲AI
- JavaScript類似c#字串處理方法format()JavaScriptC#字串ORM
- c# 方法引數_值引數C#
- c# 方法引數_引用引數C#