ML-樸素貝葉斯-先驗分佈/後驗分佈/似然估計
文章目錄
引言
介紹先驗分佈/後驗分佈/似然估計
參考 一個例子搞清楚(先驗分佈/後驗分佈/似然估計)
問題
樸素貝葉斯中有沒有涉及到引數的計算?(把先驗概率、條件概率看作引數)
計算先驗概率、條件概率時使用的貝葉斯估計、最大似然估計
樸素貝葉斯
首先開宗明義,樸素貝葉斯屬於生成模型一類,原因在於它試圖學習到資料背後的生成機制,生成方法由訓練資料學習聯合概率分佈P(X,Y),儘管只是很粗線條的描述。(統計學習方法P52更詳細)
定義:樸素貝葉斯是基於貝葉斯定理和特徵條件獨立假設獨立的分類方法。具體地,對於給定的訓練資料,首先基於特徵條件獨立假設(naive,天真,因為把模型想的這麼簡單)學習輸入/輸出的聯合概率分佈;然後基於此模型,對給定的輸入x,利用貝葉斯定理求出後驗概率最大的輸出y。
介紹(最新更新2018.02.22)
參考這裡
樸素貝葉斯(naive Bayes)法是是基於貝葉斯定理 和 特徵條件獨立假設的分類方法,對於給定的訓練資料集,首先基於特徵條件獨立假設學習輸入/輸出的聯合分佈概率;然後基於此模型,對給定的輸入x,再利用貝葉斯定理求出其後驗概率最大的輸出y。
樸素在哪裡?
樸素貝葉斯的關鍵在於樸素,體現在兩個獨立性假設上:
1. 資料樣本獨立同分布
這一點其實沒什麼好說的,以至於大家經常習慣性忽視或者省略這一點,但為了在理論邏輯層面釐清概念還是有必要點出來。資料樣本之間獨立同分布意味著各個資料樣本點之間沒有依賴關係,也沒有時序關係(或者時序關係不重要),是從同一個分佈經過多次取樣得到的。如果不是同分布,是由多個分佈產生的,那就是混合模型了,典型的如混合高斯模型;如果不獨立,樣本之間存在某種關係,那就需要把這種依賴關係建模進模型,如幾天的天氣情況可以使用馬爾科夫網路建模。
2. 特徵條件獨立性假設
這個是NB區別於其他模型的特點,也是它長得樸素的原因。假設一個樣本x有n個特徵,比如垃圾郵件過濾,一封郵件就是一個樣本,是否是垃圾就是他的類別或者說標籤,我們需要把文字郵件預處理成特定模板,比如把郵件x表示成一個n維度向量,其中每一維代表一種特徵(比如是否包含關鍵詞"促銷",是否包含關鍵詞"優惠"等等)。特徵條件獨立性假設說的就是在特定類別下這些特徵之間是獨立的。做出條件獨立假設的原因當然不是為了讓自己看起來樸素而已,而是有著實際的好處的。開篇我們說了,NB是生成模型,需要學習聯合概率分佈P(X,Y), 也等價於要學習先驗分佈P(Y)以及條件概率分佈P(X|Y),
如果不進行獨立性假設,根據全概率公式,P(X|Y)的計算複雜度會非常的高,而在特徵條件獨立性假設的庇護下,式子就變得清爽很多,直接相乘就好了:
貝葉斯公式 + 條件獨立假設 = 樸素貝葉斯方法
參考1(最新更新2019-02-26)
1、為什麼要有特徵條件獨立假設
--------最新更新2019-02-26 start------
p(Fn|C,F1,F2…Fn-1)之所以引數多的意思是,分母p(C,F1,F2…Fn-1)的計算是靠頻率統計計算的。排列組合的情況過多,不好求p(C,F1,F2…Fn-1)
--------最新更新2019-02-26 end------
如果沒有獨立假設,則很難計算類條件概率p(X=x|Y=ck),也就是下圖的p(F1,F2,…Fn|C)
詳細見原文
2、計算樸素貝葉斯引數類的先驗概率p(Y=ck) 以及 類條件概率p(X=x|Y=ck)
特徵為離散值時用的頻率統計。(統計學習方法中使用的是極大似然估計/貝葉斯估計)
特徵值是連續型變數時:
用的是計算高斯分佈的引數,從而求的類條件概率。(統計學習方法中使用的是極大似然估計/貝葉斯估計)
講解聯合概率分佈的展開的樣子,但不是太懂如何計算非獨立的多變數的聯合概率分佈
我們這麼想,假如沒有這個假設,那麼我們對右邊這些概率的估計其實是不可做的,這麼說,我們這個例子有4個特徵,其中帥包括{帥,不帥},性格包括{不好,好,爆好},身高包括{高,矮,中},上進包括{不上進,上進},那麼四個特徵的聯合概率分佈總共是4維空間,總個數為233*2=36個。
聯合概率分佈
聯合概率分佈記作P(X,Y) 或者 P(XY)
EM演算法系列(一)-聯合概率分佈
機器學習-聯合概率分佈筆記
面試
樸素貝葉斯的引數估計
極大似然估計
貝葉斯估計
知識點補充
獨立事件與非獨立事件,條件概率
詳細內容看獨立事件與非獨立事件,條件概率
注意是:任意事件,無論是否是獨立/非獨立事件
注意是:不相關的事件
x,y是倆個不相關的事件,那麼滿足p(x,y) = p(x)*p(y).
相關文章
- ML-樸素貝葉斯
- [筆記]極大似然估計、最大後驗概率、貝葉斯估計筆記
- 樸素貝葉斯分類
- 先驗概率 後驗概率 似然估計
- 機器學習必知概念:貝葉斯估計、最大似然估計、最大後驗估計機器學習
- 樸素貝葉斯和半樸素貝葉斯(AODE)分類器Python實現Python
- 樸素貝葉斯/SVM文字分類文字分類
- 分類演算法-樸素貝葉斯演算法
- 樸素貝葉斯實現文件分類
- 詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解公式
- Sklearn中的樸素貝葉斯分類器`
- 樸素貝葉斯分類流程圖介紹流程圖
- HanLP-樸素貝葉斯分類預測缺陷HanLP
- 樸素貝葉斯--新浪新聞分類例項
- 機器學習之樸素貝葉斯分類機器學習
- [譯] Sklearn 中的樸素貝葉斯分類器
- 樸素貝葉斯模型模型
- (實戰)樸素貝葉斯實現垃圾分類_201121
- 01EM演算法-大綱-最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)演算法
- 樸素貝葉斯分類-實戰篇-如何進行文字分類文字分類
- 簡單易懂的樸素貝葉斯分類演算法演算法
- 概率分類之樸素貝葉斯分類(垃圾郵件分類python實現)Python
- 樸素貝葉斯與Laplace平滑
- 樸素貝葉斯演算法演算法
- 樸素貝葉斯—印第安人
- 有監督學習——支援向量機、樸素貝葉斯分類
- 從貝葉斯的角度來看,正則化等價於對模型引數引入 先驗分佈模型
- 第7章 基於樸素貝葉斯的垃圾郵件分類
- 機器學習經典演算法之樸素貝葉斯分類機器學習演算法
- 先驗概率與後驗概率、貝葉斯區別與聯絡
- 監督學習之樸素貝葉斯
- 04_樸素貝葉斯演算法演算法
- 高階人工智慧系列(一)——貝葉斯網路、機率推理和樸素貝葉斯網路分類器人工智慧
- 樸素貝葉斯分類和預測演算法的原理及實現演算法
- 使用樸素貝葉斯過濾垃圾郵件
- 《統計學習方法》——樸素貝葉斯程式碼實現
- Python實現 利用樸素貝葉斯模型(NBC)進行問句意圖分類Python模型
- 機器學習Sklearn系列:(四)樸素貝葉斯機器學習