機器學習_統計模型之（一）貝葉斯公式

xieyan0811發表於2017-11-24

原文網址 : https://blog.csdn.net/xieyan0811/article/details/78624872

1. 貝葉斯法則

先舉個例子：比如事件X是努力，事件Y是成功，能成功的基本都努力了（條件Ｙ成立時，Ｘ必然成立）；但是努力不一定都能成功（條件X成立時，Y不是一定成立）。也就是說，X與Y之間的關係不對等，但X和Y又確實有關係。貝葉斯法則就是用來描述這種關係的。
所有要是有人說“成功源於努力，所以努力必能成功”，那是心靈雞湯。正確的說法是努力能把成功的可能性提高一點。

2. 貝葉斯公式

事件Ｘ發生的概率，稱為邊緣概率，記作P(X) 。
事件Y在事件X已經發生條件下的發生概率，稱為條件概率，記為P(Y|X) 。
事件X,Y共同發生的概率稱為聯合概率，記為P(XY) 或者P(X,Y)。

有公式：
P(XY) = P(Y)P(X|Y)=P(X)P(Y|X)
P(Y|X)=P(XY)/P(X)=P(Y) P(X|Y)/P(X)

還用上面的例子，稍作調整：假設有50%的人努力了，即P(X)=50%；有20%的人成功了P(Y)=20%；且知道成功的人75%都努力了P(X|Y)=75%；求如果努力有多大成功率？

努力且成功的人：P(X,Y)=P(X|Y)P(Y)=75%*20%=15%
努力的人有多大成功率：P(Y|X)=P(X,Y)/P(X)=15%/50%=30%

完整的貝葉斯公式:

完整公式中，分母是所有努力者，即“努力&成功”和“努力&不成功”之和，上例中直接給出這兩部分之和：有50%的人努力了。

有時候我們需要自己計算分母，比如將題目改為：有20%的人成功了P(Y1)=20%，成功的人有75%是努力的P(X1|Y1)=75%，不成功的人有43.75%是努力的P(X1|Y0)=43.75%，如上圖所示。這裡用Y1表示成功Y0表示不成功，X1表示努力X0示不努力。
此時，代入完整公式得到：

3. 相關概念

(1) 先驗/後驗

先驗概率+樣本資訊=>後驗概率
先驗概率是在進行一系列具體的觀測和實驗之前就知道的量P(Y)，一般來源於經驗和歷史資料。而後驗概率一般認為是在給定樣本的情況下的條件分佈P(Y|X)。先驗與樣本的結合也是：規則和實踐的結合。
將學習視為一個減少不確定性的過程，即用X帶來的資訊不斷修改Y判斷標準的過程，每一次訓練之後，後驗變為下一次的先驗，不斷重複。

(2) 判別模型與生成模型

判別式模型是直接計算條件概率P(Y|X)建模，簡單的說就是用正例反例直接做除法算出概率，常見的有線性迴歸，SVM等。
生成式模型是通過聯合概率P(X,Y)，和貝葉斯公式求出P(Y|X)，其中包括推理的過程，常見的有樸素貝葉斯，HMM等。

(3) 拉普拉斯平滑（修正）

拉普拉斯平滑（Laplace Smoothing）又被稱為加 1 平滑，它主要解決的是在概率相乘的過程中，如果有一個值為0，會導致結果為0的問題。
具體的方法是：分子加1，分母加K，K代表類別數目。
比如：p(X1| C1)是指的在垃圾郵件C1這個類別中，單詞X1出現的概率。
p(X1|C1)= n1 / n，n1為X1出現的次數，n為總單詞數。當X1不出現時P(X1|C1)=0，修正後p(X1|C1)=(n1+1)/(n+N)，其中N是詞庫中所有單詞的數目。

(4) 似然函式

概率描述了已知引數時的隨機變數的輸出結果；似然則用來描述已知隨機變數輸出結果時，未知引數的可能取值。
假設條件是X，結果是Y，條件能推出結果X->Y，但結果推不出條件，現在手裡有一些對結果Y的觀測值，想求X，那麼我們舉出X的所有可能性，再使用X->Y的公式求Y，看哪個X計算出的Y和當前觀測最契合，就選哪個X。這就是求取最大似然的原理。
計算似然函式時，常使用似然函式的對數形式，即“對數似然函式”。它簡化了操作（取對數後乘法變為加法），同時也避免了連乘之後值太小的問題。

4. 總結

統計模型的優勢在於，用概率代替硬規則，如果兩種可能性：0.51:0.49和0.99:0.01，如果用於預測，都會選前面的那種可能性，但是概率能展示出更多的資訊。

技術文章定時推送
請關注公眾號：演算法學習分享

一文讀懂機器學習中的貝葉斯統計學
2019-05-06
機器學習
機器學習之樸素貝葉斯分類
2019-02-28
機器學習
【機器學習】--貝葉斯網路
2018-04-09
機器學習
貝葉斯公式
2024-09-07
公式
全機率公式與貝葉斯公式
2024-11-27
公式
機器學習——貝葉斯演算法
2018-06-02
機器學習演算法
全概率公式、貝葉斯公式
2022-02-02
公式
機器學習中的MLE、MAP和貝葉斯估計
2019-01-18
機器學習
人工智慧之機器學習基礎——貝葉斯（Bayesian Methods）
2024-11-20
人工智慧機器學習
機器學習Sklearn系列：（四）樸素貝葉斯
2021-07-18
機器學習
機器學習演算法筆記之4：貝葉斯分類器
2020-04-06
機器學習演算法筆記
深度學習中的貝葉斯統計簡介
2018-10-04
深度學習
機器學習之紅樓夢作者判斷(貝葉斯分類)
2018-05-27
機器學習
機器學習中貝葉斯建模和機率程式設計簡介
2024-05-16
機器學習程式設計
機器學習讀書筆記：貝葉斯分類器
2020-10-05
機器學習筆記
機器學習系列文章：貝葉斯決策理論
2018-09-22
機器學習
監督學習之樸素貝葉斯
2020-02-14
條件機率、全機率、貝葉斯公式理解
2020-05-22
公式
機器學習經典演算法之樸素貝葉斯分類
2019-06-22
機器學習演算法
機器學習（三）：樸素貝葉斯＋貝葉斯估計+BP人工神經網路習題手算|手工推導與習題計算
2023-03-28
機器學習神經網路
貝葉斯公式的通俗講解
2020-02-19
公式
《統計學習方法》——樸素貝葉斯程式碼實現
2021-02-28
模式識別與機器學習筆記專欄之貝葉斯分類決策（一）
2020-06-17
模式機器學習筆記
樸素貝葉斯模型
2024-03-13
模型
Python機器學習 — 樸素貝葉斯演算法（Naive Bayes）
2018-07-10
Python機器學習演算法AI
100天搞定機器學習|Day15 樸素貝葉斯
2019-08-05
機器學習
Python機器學習筆記：樸素貝葉斯演算法
2019-05-18
Python機器學習筆記演算法
機器學習演算法（二）: 樸素貝葉斯(Naive Bayes)
2020-12-23
機器學習演算法AI
貝葉斯深度學習簡介
2024-03-13
深度學習
機器學習必知概念：貝葉斯估計、最大似然估計、最大後驗估計
2018-07-02
機器學習
條件概率、全概率、貝葉斯公式理解
2020-05-22
公式
貝葉斯深度學習（bayesian deep learning）
2019-01-17
深度學習
當貝葉斯，奧卡姆和夏農一起來定義機器學習
2018-10-23
機器學習
天真貝葉斯學習機 | TiDB Hackathon 優秀專案分享
2018-12-05
TiDB
【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [6] 樸素貝葉斯實踐
2018-09-11
資料科學機器學習演算法
有監督學習——支援向量機、樸素貝葉斯分類
2023-03-15
高階人工智慧系列（一）——貝葉斯網路、機率推理和樸素貝葉斯網路分類器
2022-11-20
人工智慧
04貝葉斯演算法-貝葉斯網路
2018-12-19
演算法
用tensorflow學習貝葉斯個性化排序(BPR)
2018-06-10
排序