機器學習_統計模型之(一)貝葉斯公式
1. 貝葉斯法則
先舉個例子:比如事件X是努力,事件Y是成功,能成功的基本都努力了(條件Y成立時,X必然成立);但是努力不一定都能成功(條件X成立時,Y不是一定成立)。也就是說,X與Y之間的關係不對等,但X和Y又確實有關係。貝葉斯法則就是用來描述這種關係的。
所有要是有人說“成功源於努力,所以努力必能成功”,那是心靈雞湯。正確的說法是努力能把成功的可能性提高一點。
2. 貝葉斯公式
事件X發生的概率,稱為邊緣概率,記作P(X) 。
事件Y在事件X已經發生條件下的發生概率,稱為條件概率,記為P(Y|X) 。
事件X,Y共同發生的概率稱為聯合概率,記為P(XY) 或者P(X,Y)。
有公式:
P(XY) = P(Y)P(X|Y)=P(X)P(Y|X)
P(Y|X)=P(XY)/P(X)=P(Y) P(X|Y)/P(X)
還用上面的例子,稍作調整:假設有50%的人努力了,即P(X)=50%;有20%的人成功了P(Y)=20%;且知道成功的人75%都努力了P(X|Y)=75%;求如果努力有多大成功率?
努力且成功的人:P(X,Y)=P(X|Y)P(Y)=75%*20%=15%
努力的人有多大成功率:P(Y|X)=P(X,Y)/P(X)=15%/50%=30%
完整的貝葉斯公式:
完整公式中,分母是所有努力者,即“努力&成功”和“努力&不成功”之和,上例中直接給出這兩部分之和:有50%的人努力了。
有時候我們需要自己計算分母,比如將題目改為:有20%的人成功了P(Y1)=20%,成功的人有75%是努力的P(X1|Y1)=75%,不成功的人有43.75%是努力的P(X1|Y0)=43.75%,如上圖所示。這裡用Y1表示成功Y0表示不成功,X1表示努力X0示不努力。
此時,代入完整公式得到:
3. 相關概念
(1) 先驗/後驗
先驗概率+樣本資訊=>後驗概率
先驗概率是在進行一系列具體的觀測和實驗之前就知道的量P(Y),一般來源於經驗和歷史資料。而後驗概率一般認為是在給定樣本的情況下的條件分佈P(Y|X)。先驗與樣本的結合也是:規則和實踐的結合。
將學習視為一個減少不確定性的過程,即用X帶來的資訊不斷修改Y判斷標準的過程,每一次訓練之後,後驗變為下一次的先驗,不斷重複。
(2) 判別模型與生成模型
判別式模型是直接計算條件概率P(Y|X)建模,簡單的說就是用正例反例直接做除法算出概率,常見的有線性迴歸,SVM等。
生成式模型是通過聯合概率P(X,Y),和貝葉斯公式求出P(Y|X),其中包括推理的過程,常見的有樸素貝葉斯,HMM等。
(3) 拉普拉斯平滑(修正)
拉普拉斯平滑(Laplace Smoothing)又被稱為加 1 平滑,它主要解決的是在概率相乘的過程中,如果有一個值為0,會導致結果為0的問題。
具體的方法是:分子加1,分母加K,K代表類別數目。
比如:p(X1| C1)是指的在垃圾郵件C1這個類別中,單詞X1出現的概率。
p(X1|C1)= n1 / n,n1為X1出現的次數,n為總單詞數。當X1不出現時P(X1|C1)=0,修正後p(X1|C1)=(n1+1)/(n+N),其中N是詞庫中所有單詞的數目。
(4) 似然函式
概率描述了已知引數時的隨機變數的輸出結果;似然則用來描述已知隨機變數輸出結果時,未知引數的可能取值。
假設條件是X,結果是Y,條件能推出結果X->Y,但結果推不出條件,現在手裡有一些對結果Y的觀測值,想求X,那麼我們舉出X的所有可能性,再使用X->Y的公式求Y,看哪個X計算出的Y和當前觀測最契合,就選哪個X。這就是求取最大似然的原理。
計算似然函式時,常使用似然函式的對數形式,即“對數似然函式”。它簡化了操作(取對數後乘法變為加法),同時也避免了連乘之後值太小的問題。
4. 總結
統計模型的優勢在於,用概率代替硬規則,如果兩種可能性:0.51:0.49和0.99:0.01,如果用於預測,都會選前面的那種可能性,但是概率能展示出更多的資訊。
相關文章
- 一文讀懂機器學習中的貝葉斯統計學機器學習
- 機器學習之樸素貝葉斯分類機器學習
- 【機器學習】--貝葉斯網路機器學習
- 貝葉斯公式公式
- 全機率公式與貝葉斯公式公式
- 機器學習——貝葉斯演算法機器學習演算法
- 全概率公式、貝葉斯公式公式
- 機器學習中的MLE、MAP和貝葉斯估計機器學習
- 人工智慧之機器學習基礎——貝葉斯(Bayesian Methods)人工智慧機器學習
- 機器學習Sklearn系列:(四)樸素貝葉斯機器學習
- 機器學習演算法筆記之4:貝葉斯分類器機器學習演算法筆記
- 深度學習中的貝葉斯統計簡介深度學習
- 機器學習之紅樓夢作者判斷(貝葉斯分類)機器學習
- 機器學習中貝葉斯建模和機率程式設計簡介機器學習程式設計
- 機器學習讀書筆記:貝葉斯分類器機器學習筆記
- 機器學習系列文章:貝葉斯決策理論機器學習
- 監督學習之樸素貝葉斯
- 條件機率、全機率、貝葉斯公式理解公式
- 機器學習經典演算法之樸素貝葉斯分類機器學習演算法
- 機器學習(三):樸素貝葉斯+貝葉斯估計+BP人工神經網路習題手算|手工推導與習題計算機器學習神經網路
- 貝葉斯公式的通俗講解公式
- 《統計學習方法》——樸素貝葉斯程式碼實現
- 模式識別與機器學習筆記專欄之貝葉斯分類決策(一)模式機器學習筆記
- 樸素貝葉斯模型模型
- Python機器學習 — 樸素貝葉斯演算法(Naive Bayes)Python機器學習演算法AI
- 100天搞定機器學習|Day15 樸素貝葉斯機器學習
- Python機器學習筆記:樸素貝葉斯演算法Python機器學習筆記演算法
- 機器學習演算法(二): 樸素貝葉斯(Naive Bayes)機器學習演算法AI
- 貝葉斯深度學習簡介深度學習
- 機器學習必知概念:貝葉斯估計、最大似然估計、最大後驗估計機器學習
- 條件概率、全概率、貝葉斯公式理解公式
- 貝葉斯深度學習(bayesian deep learning)深度學習
- 當貝葉斯,奧卡姆和夏農一起來定義機器學習機器學習
- 天真貝葉斯學習機 | TiDB Hackathon 優秀專案分享TiDB
- 【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [6] 樸素貝葉斯實踐資料科學機器學習演算法
- 有監督學習——支援向量機、樸素貝葉斯分類
- 高階人工智慧系列(一)——貝葉斯網路、機率推理和樸素貝葉斯網路分類器人工智慧
- 04貝葉斯演算法-貝葉斯網路演算法
- 用tensorflow學習貝葉斯個性化排序(BPR)排序