機器學習系列文章:引數方法(最大似然、分類)
前面,我們討論了貝葉斯方法,使用概率對不確定性建模做出最優決策。現在我們考慮如何從給定的訓練集估計這些概率。
引言
引數化方法是指我們假設樣本取自服從某種一直模型的某個分佈。我們利用最大似然和樣本資料近似的估計這個分佈的引數資訊,從而得出這個分佈的一般模型。換言之,一旦從樣本中估計出這些引數 ,就知道了整個分佈,然後使用它進行決策。
一、最大似然估計
最大似然估計的假設前提,獨立同分布樣本,假設Xt是從某個定義在引數上的已知概率密度族中抽取的例項:
我們希望找出這樣的引數,使得樣本儘可能像是從中抽取的。因為假設前提是樣本獨立同分布,所以給定引數,樣本X的似然是單點似然的乘積:
我們感興趣的是找到這樣的引數,使得X最像是從中抽取的。因此我們尋找最大化樣本似然。由於原式中含有較多的乘積運算,為了簡化運算,我們可以使用最大化該似然的對數,而不改變它取最大值的數值。可以將乘積轉換成求和。簡化運算。
上述內容詳細講解了,引數估計方法最大似然法。然而,我們對估計的引數的具體形式,還不太清楚。所以針對這個問題,我們引出其他內容。下面內容是介紹當假設我們的類似然函式服從某種分佈,我們通過最大似然法求得分佈中引數,從而進行決策。
二、常見類似然分佈
這裡我們以伯努利分佈、多項式分佈、高斯分佈為例。並且以下我們都假設給定樣本服從獨立同分布。
1、伯努利密度
伯努利分佈也叫兩點分佈或零一分佈。白女裡隨機變數X發生概率為p取值1,時間不發生概率為1-p取值0。其概率密度函式如下:
對應的對數似然函式為:
最大化上述似然函式,求 偏導數 可得到該對數似然的估計 。
.
p的估計是時間發生的次數與實驗次數的比值。
2、多項式密度
多項式分佈可以看作伯努利分佈的推廣,其中隨機事件的結果不是兩種狀態,而是K中互斥、窮舉狀態之一,每種狀態出現的概率為pi,其概率密度函式為:
如果xi是0/1,則可以認為它們是K次獨立的伯努利試驗。
3、高斯密度
高斯分佈也叫正太分佈,其密度函式為:
對於給定樣本高斯樣本的對數似然為:
最大似然估計引數為:
三、利用最大似然進行引數化分類
本節將利用前面講解的貝葉斯規則和最大似然估計方法,解決實際問題中引數化分類方法的公式推導和概念理解。
本節假設作者已瞭解貝葉斯規則和最大似然方法,具體概念筆者不再一一贅述。直接進行公式推導。
貝葉斯公式:
前面介紹過,貝葉斯公式中的證據項是觀測樣本的邊緣概率,無論正例負例,在同一個樣本中,其值固定。所以我們根據貝葉斯公式,得出引數化分類的判別式函式。
或等價於
當我們假設類似然服從高斯分散式時,則:
判別式函式變為:
到此,就完成了對引數分類方法的公式推導過程。接下來我們需要求的判別式函式中引數資訊,也就是類似然函式所服從的高斯分佈的均值和方差資訊。因為,我們不能準確知道和,但是我們有樣本資料,所以我們可以通過樣本估計它們並把它們的估計插入上述判別式函式得到判別式函式的估計。進而進行分類決策。
根據樣本資料的最大似然估計得到的均值和方差的估計:
最終每個類的判別式的估計為:
有趣的是,第一項是常數,因為它在所有類中都是公共項,如果這些先驗也相等,則最後一項也可以去掉,再進一步假設每一個類的方差也相等,則上式變為:
總結:
本節我們使用基於似然的分類方法,其本質是使用資料估計密度,使用貝葉斯計算後驗概率,然後得到判別。在以後的我們會討論基於判別式的分類方法,在哪裡我們將直接繞開密度估計直接估計判別式函式來實現分類。對本節內容,簡言之,就是為樣本資料假設一個概率分佈,然後通過最大似然法通過資料求得概率密度函式中的引數資訊,進而完成判別式函式的構造。
引:機器學習導論
原創文章,轉載註明出處!!!!!
相關文章
- 最大似然分類器
- 機器學習--分類變數編碼方法機器學習變數
- 機器學習必知概念:貝葉斯估計、最大似然估計、最大後驗估計機器學習
- 機器學習--白板推導系列筆記2 概率:高斯分佈之極大似然估計機器學習筆記
- 機器學習系列之分類機器學習
- 最大似然估計詳解
- 機器學習 - 似然函式:概念、應用與程式碼例項機器學習函式
- 【機器學習】支援向量機分類機器學習
- 人工智慧 (02) 機器學習 - 監督式學習分類方法人工智慧機器學習
- 機器學習之超引數機器學習
- 系統學習機器學習之半引數方法(二)--基於密度機器學習
- 最大似然函式和最大後驗概率區別函式
- 機器學習--有監督學習--分類演算法(預測分類)機器學習演算法
- 機器學習總結(2)—分類中的代數模型機器學習模型
- 機器學習常用的分類器比較機器學習
- 從零開始學機器學習——初探分類器機器學習
- 如何用機器學習對文字分類機器學習文字分類
- 幽默:駭客式程式設計其實類似機器學習!程式設計機器學習
- 【機器學習】【邏輯迴歸】代價函式為什麼用最大似然估計而不是最小二乘法?機器學習邏輯迴歸函式
- 機器學習系列文章:貝葉斯決策理論機器學習
- 【小白學AI】線性迴歸與邏輯迴歸(似然引數估計)AI邏輯迴歸
- ENVI深度學習隨機引數訓練方法深度學習隨機
- 入門系列之Scikit-learn在Python中構建機器學習分類器Python機器學習
- 從零開始學機器學習——分類器詳解機器學習
- java學習:虛擬機器對於方法中引數為類型別的如何處理的Java虛擬機型別
- ThinkPHP 類似 AOP 思想的引數驗證PHP
- 機器學習3-分類演算法機器學習演算法
- 機器學習十講-第三講分類機器學習
- 機器學習Sklearn系列:(五)聚類演算法機器學習聚類演算法
- 機器學習之樸素貝葉斯分類機器學習
- 機器學習4-分類演算法2機器學習演算法
- 機器學習讀書筆記:貝葉斯分類器機器學習筆記
- 機器學習框架ML.NET學習筆記【4】多元分類之手寫數字識別機器學習框架筆記
- 【機器學習】求解邏輯迴歸引數(三種方法程式碼實現)機器學習邏輯迴歸
- 機器學習引數模型與非引數模型/生成模型與判別模型機器學習模型
- 【機器學習】--xgboost初始之程式碼實現分類機器學習
- 利用機器學習進行惡意程式碼分類機器學習
- 機器學習入門(六)——評價分類結果機器學習