模式識別學習筆記——貝葉斯決策
先把貝葉斯公式放在這
P ( ω i ∣ x ) = P ( x ∣ ω i ) P ( ω i ) P ( x ) P(\omega_i|x)=\frac{P(x|\omega_i)P(\omega_i)}{P(x)} P(ωi∣x)=P(x)P(x∣ωi)P(ωi)
關於貝葉斯定理的講解,強烈推薦看3Blue1Brown的視訊,B站就有。
核心思想就一句話:證據不應直接決定看法,而是更新看法
Symbol
-
類別 ω \omega ω
ω i , i = 1 , 2 , 3 , . . . , c \omega_i, \ i=1,2,3,...,c ωi, i=1,2,3,...,c
-
先驗概率 P ( ω i ) P(\omega_i) P(ωi)
先驗概率和為1 Σ i = 1 c P ( ω i ) = 1 \Sigma_{i=1}^cP(\omega_i)=1 Σi=1cP(ωi)=1
-
後驗概率 P ( ω i ∣ x ) P(\omega_i|x) P(ωi∣x)
-
似然 P ( x ∣ ω i ) P(x|\omega_i) P(x∣ωi)
-
樣本 x x x(向量)
實際上是選取某些特徵來表示樣本
Before Observation
只知先驗
P
(
ω
i
)
P(\omega_i)
P(ωi),沒有似然
P
(
x
∣
ω
i
)
P(x|\omega_i)
P(x∣ωi)。
那很簡單,給定一個新的樣本
x
x
x,最優的分類方法就是把它分為先驗最大的那一類。
After Observation
有了觀測樣本,那麼就能用一些方法估計每個類 ω i \omega_i ωi取到 x x x的概率(離散情況下。連續情況就估計類條件概率密度函式),似然 P ( x ∣ ω i ) P(x|\omega_i) P(x∣ωi)
類 條 件 概 率 密 度 函 數 p ( x ∣ ω i ) 類條件概率密度函式p(x|\omega_i) 類條件概率密度函數p(x∣ωi)
我們可以將似然理解為,從樣本中學到的新的知識。我們應該拿它去更新舊的知識——先驗(將二者相乘)。
有先驗,有似然,利用全概率公式,可以求證據因子
P ( x ) = Σ i = 1 c P ( x ∣ ω i ) P ( ω i ) P(x)=\Sigma_{i=1}^cP(x|\omega_i)P(\omega_i) P(x)=Σi=1cP(x∣ωi)P(ωi)
利用貝葉斯公式求出後驗 P ( ω i ∣ x ) P(\omega_i|x) P(ωi∣x),取後驗最大的 ω i \omega_i ωi為樣本 x x x的類別
Two Special Case
1.等先驗
P ( ω 1 ) = P ( ω 2 ) = ⋯ = P ( ω c ) = 1 c P(\omega_1)=P(\omega_2)=\cdots=P(\omega_c)=\frac{1}{c} P(ω1)=P(ω2)=⋯=P(ωc)=c1
這種情況下,先驗對於分類結果就沒有影響。分類結果由似然決定。
2.等似然
P ( x ∣ ω 1 ) = P ( x ∣ ω 2 ) = ⋯ = P ( x ∣ ω c ) P(x|\omega_1)=P(x|\omega_2)=\cdots=P(x|\omega_c) P(x∣ω1)=P(x∣ω2)=⋯=P(x∣ωc)
這種情況下,似然對於分類結果就沒有影響。分類結果由先驗決定。
Is Bayes Decision Rule Optimal?
(這裡學的挺糊塗的。。。)
以二分類情況為例
P ( ω i ∣ x ) > P ( ω j ∣ x ) , D e c i d e : ω i ; O t h e r w i s e : ω j P(\omega_i|x)>P(\omega_j|x),\ Decide:\omega_i;\ Otherwise:\omega_j P(ωi∣x)>P(ωj∣x), Decide:ωi; Otherwise:ωj
對於任意觀測樣本 x x x,對 x x x進行分類,分錯的可能性(probability of error)如下式所示:
P ( e r r o r ∣ x ) = { P ( ω 1 ∣ x ) , i f d e c i d e ω 2 P ( ω 2 ∣ x ) , i f d e c i d e ω 1 P(error|x)= \left\{ \begin{aligned} &P(\omega_1|x), if \ decide \ \omega_2\\ &P(\omega_2|x), if \ decide \ \omega_1 \end{aligned}\right. P(error∣x)={P(ω1∣x),if decide ω2P(ω2∣x),if decide ω1
我的理解如下:首先假設觀測到的樣本和實際情況是同分布的,對於某個觀測樣本 x = α x = \alpha x=α,假如 P ( ω 1 ∣ α ) = 0.1 P(\omega_1|\alpha) = 0.1 P(ω1∣α)=0.1, P ( ω 2 ∣ α ) = 0.9 P(\omega_2|\alpha)=0.9 P(ω2∣α)=0.9,那麼所有取值為 α \alpha α的樣本都會被分到 ω 2 \omega_2 ω2類。假設實際情況有100個樣本取到值 α \alpha α,那麼可能有10個屬於 ω 1 \omega_1 ω1類,90個屬於 ω 2 \omega_2 ω2類,錯分的可能也就是0.1
那麼在貝葉斯決策論下,我們就有:
P
(
e
r
r
o
r
∣
x
)
=
m
i
n
[
P
(
ω
1
∣
x
)
,
P
(
ω
2
∣
x
)
]
P(error|x)=min[P(\omega_1|x),P(\omega_2|x)]
P(error∣x)=min[P(ω1∣x),P(ω2∣x)]
上面這個是老師PPT裡的東西,沒想明白什麼意思。
我的理解如下:首先這是以二分類為例,根據 P ( e r r o r ∣ x ) P(error|x) P(error∣x)的定義,最小化 P ( e r r o r ∣ x ) P(error|x) P(error∣x)就是最小化 P ( ω 1 ∣ x ) 、 P ( ω 2 ∣ x ) P(\omega_1|x)、P(\omega_2|x) P(ω1∣x)、P(ω2∣x)兩者的最小值。較小值儘可能小 ⟶ \longrightarrow ⟶較大值儘可能大 ⟶ \longrightarrow ⟶兩類分的儘可能開(減少模糊區域)。
沒想明白這和貝葉斯分類器是最優分類器之間怎麼聯絡起來。
The General Case
-
三種擴充
-
多分類
-
允許其他action(拒絕分類)
-
引入loss function代替錯分率(error probability)
-
-
Loss Function λ ( α i ∣ ω j ) \lambda(\alpha_i|\omega_j) λ(αi∣ωj)
當真實的類為 ω j \omega_j ωj時,執行 α i \alpha_i αi行動所產生的loss
- Conditional risk (Expected loss)
當觀測到的樣本為 x x x,執行操作 α i \alpha_i αi的條件風險(期望損失)為
R ( α i ∣ x ) = Σ j = 1 c λ ( α i ∣ ω j ) P ( ω j ∣ x ) R(\alpha_i|x)=\Sigma_{j=1}^c\lambda(\alpha_i|\omega_j)P(\omega_j|x) R(αi∣x)=Σj=1cλ(αi∣ωj)P(ωj∣x)
Optimality of Bayesian Decision
-
Decision Rule Function → α ( x ) \rightarrow\alpha(x) →α(x)
-
Total Risk → R = ∫ R ( α ( x ) ∣ x ) P ( x ) d x \rightarrow R=\int R(\alpha(x)|x)P(x)dx →R=∫R(α(x)∣x)P(x)dx
-
Optimal Decision
-
指定的決策規則要實現總風險最小化
-
對於給定的特徵 x x x ,如果決策規則選擇的動作可以使條件風險 R ( α ( x ) ∣ x ) R(\alpha(x)|x) R(α(x)∣x) 最小化,那麼總風險 R R R 將最小化
-
-
Bayesion Decision Rule
對全部 i = 1 , 2 , . . . , a , i=1,2,...,a, i=1,2,...,a, 計算條件風險 R ( α i ∣ x ) R(\alpha_i|x) R(αi∣x) ,挑選action α j \alpha_j αj 實現最小化條件風險 R ( α j ∣ x ) R(\alpha_j|x) R(αj∣x)
Two-Class Classification
-
Action
-
α 1 \alpha_1 α1: decide ω 1 \omega_1 ω1
-
α 2 \alpha_2 α2: decide ω 2 \omega_2 ω2
-
-
Loss
- λ i j = λ ( α i ∣ ω j ) \lambda_{ij}=\lambda(\alpha_i|\omega_j) λij=λ(αi∣ωj)
-
Conditional Risk
-
R ( α 1 ∣ x ) = λ 11 P ( ω 1 ∣ x ) + λ 12 P ( ω 2 ∣ x ) R(\alpha_1|x)=\lambda_{11}P(\omega_1|x)+\lambda_{12}P(\omega_2|x) R(α1∣x)=λ11P(ω1∣x)+λ12P(ω2∣x)
-
R ( α 2 ∣ x ) = λ 21 P ( ω 1 ∣ x ) + λ 22 P ( ω 2 ∣ x ) R(\alpha_2|x)=\lambda_{21}P(\omega_1|x)+\lambda_{22}P(\omega_2|x) R(α2∣x)=λ21P(ω1∣x)+λ22P(ω2∣x)
-
-
minimum risk decision rule
- if R ( α 1 ∣ x ) ≤ R ( α 2 ∣ x ) R(\alpha_1|x) \le R(\alpha_2|x) R(α1∣x)≤R(α2∣x) decide ω 1 \omega_1 ω1 else decide ω 2 \omega_2 ω2
-
Equivalent minimum risk decision rules
(以將 x x x 分為 ω 1 \omega_1 ω1 類為例)
R ( α 1 ∣ x ) ≤ R ( α 2 ∣ x ) R(\alpha_1|x) \le R(\alpha_2|x) R(α1∣x)≤R(α2∣x)
( λ 21 − λ 11 ) P ( ω 1 ∣ x ) ≥ ( λ 12 − λ 22 ) P ( ω 2 ∣ x ) (\lambda_{21}-\lambda_{11})P(\omega_1|x) \ge (\lambda_{12}-\lambda_{22})P(\omega_2|x) (λ21−λ11)P(ω1∣x)≥(λ12−λ22)P(ω2∣x)
( λ 21 − λ 11 ) P ( x ∣ ω 1 ) P ( ω 1 ) ≥ ( λ 12 − λ 22 ) P ( x ∣ ω 2 ) P ( ω 2 ) (\lambda_{21}-\lambda_{11})P(x|\omega_1)P(\omega_1) \ge (\lambda_{12}-\lambda_{22})P(x|\omega_2)P(\omega_2) (λ21−λ11)P(x∣ω1)P(ω1)≥(λ12−λ22)P(x∣ω2)P(ω2)
-
通常來講分類錯誤的損失,大於分類正確的損失
λ 21 − λ 11 > 0 \lambda_{21}-\lambda_{11} > 0 λ21−λ11>0
λ 12 − λ 22 > 0 \lambda_{12}-\lambda_{22}>0 λ12−λ22>0 -
於是可以推出:(不等式左邊項叫做似然比(Likelihood Ratio))
P ( x ∣ ω 1 ) P ( x ∣ ω 2 ) ≥ ( λ 12 − λ 22 ) P ( ω 2 ) ( λ 21 − λ 11 ) P ( ω 1 ) \frac{P(x|\omega_1)}{P(x|\omega_2)} \ge \frac{(\lambda_{12}-\lambda_{22})P(\omega_2)}{(\lambda_{21}-\lambda_{11})P(\omega_1)} P(x∣ω2)P(x∣ω1)≥(λ21−λ11)P(ω1)(λ12−λ22)P(ω2) -
上面式子為基於似然比的Bayesian Decision Rule,滿足上述不等式 → \rightarrow → ω 1 \omega_1 ω1 類,不滿足上述不等式 → \rightarrow → ω 2 \omega_2 ω2 類。
“0-1” loss
λ ( α i ∣ ω j ) = { 0 i = j ( c o r r e c t d e c i s i o n ) 1 i ≠ j ( i n c o r r e c t d e c i s i o n ) \lambda(\alpha_i|\omega_j)= \left\{ \begin{aligned} &0 &i = j (correct decision)\\ &1 &i \ne j (incorrect decision) \end{aligned} \right. λ(αi∣ωj)={01i=j(correctdecision)i=j(incorrectdecision)
“0-1”loss可以視作沒有損失
Minimum-Error-Rate Classification
-
Minimum-error-rate classification就是使用"0-1"loss的minimum risk classification
-
退化為基於後驗的分類器
Minimax Rule
(未完待續)
相關文章
- 模式識別與機器學習筆記專欄之貝葉斯分類決策(一)模式機器學習筆記
- 機器學習系列文章:貝葉斯決策理論機器學習
- [模式識別複習筆記] 第8章 決策樹模式筆記
- 機器學習讀書筆記:貝葉斯分類器機器學習筆記
- Python機器學習筆記:樸素貝葉斯演算法Python機器學習筆記演算法
- 貝葉斯深度學習簡介深度學習
- 機器學習演算法筆記之4:貝葉斯分類器機器學習演算法筆記
- 貝葉斯深度學習(bayesian deep learning)深度學習
- 【機器學習】--貝葉斯網路機器學習
- 機器學習——貝葉斯演算法機器學習演算法
- 監督學習之樸素貝葉斯
- 機器學習筆記(四)決策樹機器學習筆記
- 設計模式學習筆記(六)原型模式以及深淺拷貝的區別設計模式筆記原型
- 04貝葉斯演算法-貝葉斯網路演算法
- 機器學習之樸素貝葉斯分類機器學習
- 深度學習中的貝葉斯統計簡介深度學習
- 用tensorflow學習貝葉斯個性化排序(BPR)排序
- 機器學習Sklearn系列:(四)樸素貝葉斯機器學習
- 貝葉斯定理
- 貝葉斯公式公式
- python學習筆記–深拷貝與淺拷貝的區別Python筆記
- 「馬爾可夫決策過程」學習筆記馬爾可夫筆記
- 貝葉斯變換
- iOS學習筆記06 手勢識別iOS筆記
- 機器學習中的MLE、MAP和貝葉斯估計機器學習
- 天真貝葉斯學習機 | TiDB Hackathon 優秀專案分享TiDB
- 《統計學習方法》——樸素貝葉斯程式碼實現
- 機器學習(三):樸素貝葉斯+貝葉斯估計+BP人工神經網路習題手算|手工推導與習題計算機器學習神經網路
- 樸素貝葉斯模型模型
- Python機器學習 — 樸素貝葉斯演算法(Naive Bayes)Python機器學習演算法AI
- 100天搞定機器學習|Day15 樸素貝葉斯機器學習
- 人工智慧之機器學習基礎——貝葉斯(Bayesian Methods)人工智慧機器學習
- 有監督學習——支援向量機、樸素貝葉斯分類
- 機器學習演算法(二): 樸素貝葉斯(Naive Bayes)機器學習演算法AI
- 機器視覺學習筆記:臉性別識別視覺筆記
- 一文讀懂機器學習中的貝葉斯統計學機器學習
- [筆記]極大似然估計、最大後驗概率、貝葉斯估計筆記
- 【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [6] 樸素貝葉斯實踐資料科學機器學習演算法