模式識別學習筆記——貝葉斯決策

_V.O.N_發表於2020-10-13

先把貝葉斯公式放在這

P ( ω i ∣ x ) = P ( x ∣ ω i ) P ( ω i ) P ( x ) P(\omega_i|x)=\frac{P(x|\omega_i)P(\omega_i)}{P(x)} P(ωix)=P(x)P(xωi)P(ωi)

後驗=(似然×先驗) / 證據因子

關於貝葉斯定理的講解,強烈推薦看3Blue1Brown的視訊,B站就有。

核心思想就一句話:證據不應直接決定看法,而是更新看法

Symbol

  1. 類別 ω \omega ω

    ω i ,   i = 1 , 2 , 3 , . . . , c \omega_i, \ i=1,2,3,...,c ωi, i=1,2,3,...,c

  2. 先驗概率 P ( ω i ) P(\omega_i) P(ωi)

    先驗概率和為1

    Σ i = 1 c P ( ω i ) = 1 \Sigma_{i=1}^cP(\omega_i)=1 Σi=1cP(ωi)=1

  3. 後驗概率 P ( ω i ∣ x ) P(\omega_i|x) P(ωix)

  4. 似然 P ( x ∣ ω i ) P(x|\omega_i) P(xωi)

  5. 樣本 x x x(向量)

    實際上是選取某些特徵來表示樣本

Before Observation

 只知先驗 P ( ω i ) P(\omega_i) P(ωi),沒有似然 P ( x ∣ ω i ) P(x|\omega_i) P(xωi)
 那很簡單,給定一個新的樣本 x x x,最優的分類方法就是把它分為先驗最大的那一類。

After Observation

 有了觀測樣本,那麼就能用一些方法估計每個類 ω i \omega_i ωi取到 x x x的概率(離散情況下。連續情況就估計類條件概率密度函式),似然 P ( x ∣ ω i ) P(x|\omega_i) P(xωi)

類 條 件 概 率 密 度 函 數 p ( x ∣ ω i ) 類條件概率密度函式p(x|\omega_i) p(xωi)

在這裡插入圖片描述

上面的結果並不能直接用於分類。
不能直接用於分類。
不能直接用於分類。
貝葉斯的核心思想: 證據不應直接決定看法,而是更新看法

 我們可以將似然理解為,從樣本中學到的新的知識。我們應該拿它去更新舊的知識——先驗(將二者相乘)。

 有先驗,有似然,利用全概率公式,可以求證據因子

P ( x ) = Σ i = 1 c P ( x ∣ ω i ) P ( ω i ) P(x)=\Sigma_{i=1}^cP(x|\omega_i)P(\omega_i) P(x)=Σi=1cP(xωi)P(ωi)

 利用貝葉斯公式求出後驗 P ( ω i ∣ x ) P(\omega_i|x) P(ωix),取後驗最大的 ω i \omega_i ωi為樣本 x x x的類別

在這裡插入圖片描述

Two Special Case

1.等先驗

P ( ω 1 ) = P ( ω 2 ) = ⋯ = P ( ω c ) = 1 c P(\omega_1)=P(\omega_2)=\cdots=P(\omega_c)=\frac{1}{c} P(ω1)=P(ω2)==P(ωc)=c1

 這種情況下,先驗對於分類結果就沒有影響。分類結果由似然決定。

2.等似然

P ( x ∣ ω 1 ) = P ( x ∣ ω 2 ) = ⋯ = P ( x ∣ ω c ) P(x|\omega_1)=P(x|\omega_2)=\cdots=P(x|\omega_c) P(xω1)=P(xω2)==P(xωc)

 這種情況下,似然對於分類結果就沒有影響。分類結果由先驗決定。

Is Bayes Decision Rule Optimal?

(這裡學的挺糊塗的。。。)

 以二分類情況為例

P ( ω i ∣ x ) > P ( ω j ∣ x ) ,   D e c i d e : ω i ;   O t h e r w i s e : ω j P(\omega_i|x)>P(\omega_j|x),\ Decide:\omega_i;\ Otherwise:\omega_j P(ωix)>P(ωjx), Decide:ωi; Otherwise:ωj

 對於任意觀測樣本 x x x,對 x x x進行分類,分錯的可能性(probability of error)如下式所示:

P ( e r r o r ∣ x ) = { P ( ω 1 ∣ x ) , i f   d e c i d e   ω 2 P ( ω 2 ∣ x ) , i f   d e c i d e   ω 1 P(error|x)= \left\{ \begin{aligned} &P(\omega_1|x), if \ decide \ \omega_2\\ &P(\omega_2|x), if \ decide \ \omega_1 \end{aligned}\right. P(errorx)={P(ω1x),if decide ω2P(ω2x),if decide ω1

我的理解如下:首先假設觀測到的樣本和實際情況是同分布的,對於某個觀測樣本 x = α x = \alpha x=α,假如 P ( ω 1 ∣ α ) = 0.1 P(\omega_1|\alpha) = 0.1 P(ω1α)=0.1 P ( ω 2 ∣ α ) = 0.9 P(\omega_2|\alpha)=0.9 P(ω2α)=0.9,那麼所有取值為 α \alpha α的樣本都會被分到 ω 2 \omega_2 ω2類。假設實際情況有100個樣本取到值 α \alpha α,那麼可能有10個屬於 ω 1 \omega_1 ω1類,90個屬於 ω 2 \omega_2 ω2類,錯分的可能也就是0.1

 那麼在貝葉斯決策論下,我們就有:
P ( e r r o r ∣ x ) = m i n [ P ( ω 1 ∣ x ) , P ( ω 2 ∣ x ) ] P(error|x)=min[P(\omega_1|x),P(\omega_2|x)] P(errorx)=min[P(ω1x),P(ω2x)]

在這裡插入圖片描述

 上面這個是老師PPT裡的東西,沒想明白什麼意思。

我的理解如下:首先這是以二分類為例,根據 P ( e r r o r ∣ x ) P(error|x) P(errorx)的定義,最小化 P ( e r r o r ∣ x ) P(error|x) P(errorx)就是最小化 P ( ω 1 ∣ x ) 、 P ( ω 2 ∣ x ) P(\omega_1|x)、P(\omega_2|x) P(ω1x)P(ω2x)兩者的最小值。較小值儘可能小 ⟶ \longrightarrow 較大值儘可能大 ⟶ \longrightarrow 兩類分的儘可能開(減少模糊區域)。
沒想明白這和貝葉斯分類器是最優分類器之間怎麼聯絡起來。

The General Case

  • 三種擴充

    • 多分類

    • 允許其他action(拒絕分類)

    • 引入loss function代替錯分率(error probability)

  • Loss Function λ ( α i ∣ ω j ) \lambda(\alpha_i|\omega_j) λ(αiωj)

  當真實的類為 ω j \omega_j ωj時,執行 α i \alpha_i αi行動所產生的loss

  • Conditional risk (Expected loss)

  當觀測到的樣本為 x x x,執行操作 α i \alpha_i αi條件風險(期望損失)為

R ( α i ∣ x ) = Σ j = 1 c λ ( α i ∣ ω j ) P ( ω j ∣ x ) R(\alpha_i|x)=\Sigma_{j=1}^c\lambda(\alpha_i|\omega_j)P(\omega_j|x) R(αix)=Σj=1cλ(αiωj)P(ωjx)

Optimality of Bayesian Decision

  • Decision Rule Function → α ( x ) \rightarrow\alpha(x) α(x)

  • Total Risk → R = ∫ R ( α ( x ) ∣ x ) P ( x ) d x \rightarrow R=\int R(\alpha(x)|x)P(x)dx R=R(α(x)x)P(x)dx

  • Optimal Decision

    • 指定的決策規則要實現總風險最小化

    • 對於給定的特徵 x x x ,如果決策規則選擇的動作可以使條件風險 R ( α ( x ) ∣ x ) R(\alpha(x)|x) R(α(x)x) 最小化,那麼總風險 R R R 將最小化

  • Bayesion Decision Rule

    對全部 i = 1 , 2 , . . . , a , i=1,2,...,a, i=1,2,...,a, 計算條件風險 R ( α i ∣ x ) R(\alpha_i|x) R(αix) ,挑選action α j \alpha_j αj 實現最小化條件風險 R ( α j ∣ x ) R(\alpha_j|x) R(αjx)

貝葉斯決策得到的最小總風險(minimum total risk)稱為 貝葉斯風險(Bayesion Risk),用R*表示

Two-Class Classification

  • Action

    • α 1 \alpha_1 α1: decide ω 1 \omega_1 ω1

    • α 2 \alpha_2 α2: decide ω 2 \omega_2 ω2

  • Loss

    • λ i j = λ ( α i ∣ ω j ) \lambda_{ij}=\lambda(\alpha_i|\omega_j) λij=λ(αiωj)
  • Conditional Risk

    • R ( α 1 ∣ x ) = λ 11 P ( ω 1 ∣ x ) + λ 12 P ( ω 2 ∣ x ) R(\alpha_1|x)=\lambda_{11}P(\omega_1|x)+\lambda_{12}P(\omega_2|x) R(α1x)=λ11P(ω1x)+λ12P(ω2x)

    • R ( α 2 ∣ x ) = λ 21 P ( ω 1 ∣ x ) + λ 22 P ( ω 2 ∣ x ) R(\alpha_2|x)=\lambda_{21}P(\omega_1|x)+\lambda_{22}P(\omega_2|x) R(α2x)=λ21P(ω1x)+λ22P(ω2x)

  • minimum risk decision rule

    • if R ( α 1 ∣ x ) ≤ R ( α 2 ∣ x ) R(\alpha_1|x) \le R(\alpha_2|x) R(α1x)R(α2x) decide ω 1 \omega_1 ω1 else decide ω 2 \omega_2 ω2
  • Equivalent minimum risk decision rules

    (以將 x x x 分為 ω 1 \omega_1 ω1 類為例)

    R ( α 1 ∣ x ) ≤ R ( α 2 ∣ x ) R(\alpha_1|x) \le R(\alpha_2|x) R(α1x)R(α2x)

    ( λ 21 − λ 11 ) P ( ω 1 ∣ x ) ≥ ( λ 12 − λ 22 ) P ( ω 2 ∣ x ) (\lambda_{21}-\lambda_{11})P(\omega_1|x) \ge (\lambda_{12}-\lambda_{22})P(\omega_2|x) (λ21λ11)P(ω1x)(λ12λ22)P(ω2x)

    ( λ 21 − λ 11 ) P ( x ∣ ω 1 ) P ( ω 1 ) ≥ ( λ 12 − λ 22 ) P ( x ∣ ω 2 ) P ( ω 2 ) (\lambda_{21}-\lambda_{11})P(x|\omega_1)P(\omega_1) \ge (\lambda_{12}-\lambda_{22})P(x|\omega_2)P(\omega_2) (λ21λ11)P(xω1)P(ω1)(λ12λ22)P(xω2)P(ω2)

  • 通常來講分類錯誤的損失,大於分類正確的損失

    λ 21 − λ 11 > 0 \lambda_{21}-\lambda_{11} > 0 λ21λ11>0
    λ 12 − λ 22 > 0 \lambda_{12}-\lambda_{22}>0 λ12λ22>0

  • 於是可以推出:(不等式左邊項叫做似然比(Likelihood Ratio))
    P ( x ∣ ω 1 ) P ( x ∣ ω 2 ) ≥ ( λ 12 − λ 22 ) P ( ω 2 ) ( λ 21 − λ 11 ) P ( ω 1 ) \frac{P(x|\omega_1)}{P(x|\omega_2)} \ge \frac{(\lambda_{12}-\lambda_{22})P(\omega_2)}{(\lambda_{21}-\lambda_{11})P(\omega_1)} P(xω2)P(xω1)(λ21λ11)P(ω1)(λ12λ22)P(ω2)

  • 上面式子為基於似然比的Bayesian Decision Rule,滿足上述不等式 → \rightarrow ω 1 \omega_1 ω1 類,不滿足上述不等式 → \rightarrow ω 2 \omega_2 ω2 類。

“0-1” loss

λ ( α i ∣ ω j ) = { 0 i = j ( c o r r e c t d e c i s i o n ) 1 i ≠ j ( i n c o r r e c t d e c i s i o n ) \lambda(\alpha_i|\omega_j)= \left\{ \begin{aligned} &0 &i = j (correct decision)\\ &1 &i \ne j (incorrect decision) \end{aligned} \right. λ(αiωj)={01i=j(correctdecision)i=j(incorrectdecision)

  “0-1”loss可以視作沒有損失

Minimum-Error-Rate Classification

  • Minimum-error-rate classification就是使用"0-1"loss的minimum risk classification

  • 退化為基於後驗的分類器

Minimax Rule

(未完待續)

相關文章