機器學習_統計模型之(一)貝葉斯公式

xieyan0811發表於2017-11-24

1. 貝葉斯法則

 先舉個例子:比如事件X是努力,事件Y是成功,能成功的基本都努力了(條件Y成立時,X必然成立);但是努力不一定都能成功(條件X成立時,Y不是一定成立)。也就是說,X與Y之間的關係不對等,但X和Y又確實有關係。貝葉斯法則就是用來描述這種關係的。
 所有要是有人說“成功源於努力,所以努力必能成功”,那是心靈雞湯。正確的說法是努力能把成功的可能性提高一點。

2. 貝葉斯公式

 事件X發生的概率,稱為邊緣概率,記作P(X) 。
 事件Y在事件X已經發生條件下的發生概率,稱為條件概率,記為P(Y|X) 。
 事件X,Y共同發生的概率稱為聯合概率,記為P(XY) 或者P(X,Y)。

有公式:
 P(XY) = P(Y)P(X|Y)=P(X)P(Y|X)
 P(Y|X)=P(XY)/P(X)=P(Y) P(X|Y)/P(X)

 還用上面的例子,稍作調整:假設有50%的人努力了,即P(X)=50%;有20%的人成功了P(Y)=20%;且知道成功的人75%都努力了P(X|Y)=75%;求如果努力有多大成功率?

 努力且成功的人:P(X,Y)=P(X|Y)P(Y)=75%*20%=15%
 努力的人有多大成功率:P(Y|X)=P(X,Y)/P(X)=15%/50%=30%

完整的貝葉斯公式:

 完整公式中,分母是所有努力者,即“努力&成功”和“努力&不成功”之和,上例中直接給出這兩部分之和:有50%的人努力了。

 有時候我們需要自己計算分母,比如將題目改為:有20%的人成功了P(Y1)=20%,成功的人有75%是努力的P(X1|Y1)=75%,不成功的人有43.75%是努力的P(X1|Y0)=43.75%,如上圖所示。這裡用Y1表示成功Y0表示不成功,X1表示努力X0示不努力。
 此時,代入完整公式得到:

3. 相關概念

(1) 先驗/後驗

 先驗概率+樣本資訊=>後驗概率
 先驗概率是在進行一系列具體的觀測和實驗之前就知道的量P(Y),一般來源於經驗和歷史資料。而後驗概率一般認為是在給定樣本的情況下的條件分佈P(Y|X)。先驗與樣本的結合也是:規則和實踐的結合。
 將學習視為一個減少不確定性的過程,即用X帶來的資訊不斷修改Y判斷標準的過程,每一次訓練之後,後驗變為下一次的先驗,不斷重複。

(2) 判別模型與生成模型

 判別式模型是直接計算條件概率P(Y|X)建模,簡單的說就是用正例反例直接做除法算出概率,常見的有線性迴歸,SVM等。
 生成式模型是通過聯合概率P(X,Y),和貝葉斯公式求出P(Y|X),其中包括推理的過程,常見的有樸素貝葉斯,HMM等。

(3) 拉普拉斯平滑(修正)

 拉普拉斯平滑(Laplace Smoothing)又被稱為加 1 平滑,它主要解決的是在概率相乘的過程中,如果有一個值為0,會導致結果為0的問題。
 具體的方法是:分子加1,分母加K,K代表類別數目。
 比如:p(X1| C1)是指的在垃圾郵件C1這個類別中,單詞X1出現的概率。
 p(X1|C1)= n1 / n,n1為X1出現的次數,n為總單詞數。當X1不出現時P(X1|C1)=0,修正後p(X1|C1)=(n1+1)/(n+N),其中N是詞庫中所有單詞的數目。

(4) 似然函式

 概率描述了已知引數時的隨機變數的輸出結果;似然則用來描述已知隨機變數輸出結果時,未知引數的可能取值。
 假設條件是X,結果是Y,條件能推出結果X->Y,但結果推不出條件,現在手裡有一些對結果Y的觀測值,想求X,那麼我們舉出X的所有可能性,再使用X->Y的公式求Y,看哪個X計算出的Y和當前觀測最契合,就選哪個X。這就是求取最大似然的原理。
 計算似然函式時,常使用似然函式的對數形式,即“對數似然函式”。它簡化了操作(取對數後乘法變為加法),同時也避免了連乘之後值太小的問題。

4. 總結

 統計模型的優勢在於,用概率代替硬規則,如果兩種可能性:0.51:0.49和0.99:0.01,如果用於預測,都會選前面的那種可能性,但是概率能展示出更多的資訊。


技術文章定時推送
請關注公眾號:演算法學習分享

相關文章