人工智慧之機器學習基礎——貝葉斯(Bayesian Methods)

z_s_s發表於2024-11-20

貝葉斯分類器

貝葉斯分類器是一類基於貝葉斯定理的統計學習方法,廣泛應用於分類問題。其核心思想是透過計算後驗機率 P(y∣x),將輸入樣本 x 分類到具有最大後驗機率的類別。

1. 貝葉斯定理

貝葉斯定理是機率論中的基本法則,用於描述條件機率的關係:

其中:

  • P(y∣x):在已知 x的情況下,y 屬於某類的機率(後驗機率);
  • P(x∣y):在已知 y 屬於某類的情況下,x 出現的機率(似然函式);
  • P(y)y 屬於某類的機率(先驗機率);
  • P(x)x 出現的機率(證據)。

2. 貝葉斯分類器的思想

目標

對於一個輸入樣本 x,分類器透過計算每個類別的後驗機率 P(y∣x),選擇後驗機率最大的類別:

透過貝葉斯定理展開:

由於 P(x) 對所有類別相同,只需比較 P(x∣y)的大小。

貝葉斯分類器的假設

  • 樸素貝葉斯分類器假設特徵條件獨立:

3. 貝葉斯分類器的步驟

  1. 計算先驗機率 P(y)

    • 統計每個類別在資料集中的頻率。
  2. 計算條件機率 P(xi∣y)

    • 對於每個類別 y,計算每個特徵 xi 在類別 y下的條件機率。
  3. 計算後驗機率 P(y∣x)

    • P(x∣y) 結合,計算後驗機率。
  4. 分類決策

    • 選擇最大後驗機率的類別。

4. 示例

4.1 問題描述

假設我們有以下訓練資料,目標是根據天氣和風速預測是否適合運動。

天氣風速是否適合運動
晴天
晴天
多雲
雨天
雨天
多雲

目標是預測樣本 x=(晴天,弱)是否適合運動。

4.2 步驟

(1) 計算先驗機率 P(y)
  • 類別“是”的樣本數:4;
  • 類別“否”的樣本數:2;
  • 總樣本數:6。

    P()=4/6=0.667,P()=2/6=0.333

(2) 計算條件機率 P(x∣y)

P(晴天):

  • 在類別“是”中,天氣為“晴天”的樣本有 1 個;
  • 在類別“是”中總共有 4 個樣本;

    P(晴天∣是)=1/4=0.25

  • P(晴天∣否)

    • 在類別“否”中,天氣為“晴天”的樣本有 1 個;
    • 在類別“否”中總共有 2 個樣本;
      P(晴天∣否)=1/2=0.5
  • P(弱∣是)

    • 在類別“是”中,風速為“弱”的樣本有 3 個;
    • 在類別“是”中總共有 4 個樣本;
      P(弱∣是)=3/4=0.75
  • P(弱∣否)

    • 在類別“否”中,風速為“弱”的樣本有 0 個;
      P(弱∣否)=0/2=0
(3) 計算後驗機率 P(y∣x)

對於類別“是”:

P(是∣晴天,弱)∝P(晴天∣是)⋅P(弱∣是)⋅P(是)
P(晴天,)0.250.750.667=0.125

對於類別“否”:

P(否∣晴天,弱)∝P(晴天∣否)⋅P(弱∣否)⋅P(否)
P(晴天,)0.500.333=0
(4) 分類決策
P(是∣晴天,弱)=0.125>P(否∣晴天,弱)=0

因此,樣本 x=(晴天,弱)的預測結果是“是”。

The symbol "∝" represents proportionality in mathematics. When you see a∝b, it means that a is proportional to bbb, or a=k⋅ba = k \cdot ba=kb, where kkk is a constant of proportionality.

For example:

  • If F∝x, then F=kx for some constant kkk.
  • Proportionality often indicates that as one variable changes, the other changes in a consistent way (e.g., doubling b will double a if a∝ba ).

5. 優缺點

優點

  1. 簡單高效:計算簡單,適合大規模資料。
  2. 易於解釋:基於機率,結果直觀。
  3. 適合離散資料:對於類別型特徵表現良好。

缺點

  1. 條件獨立性假設:假設特徵條件獨立,在實際問題中可能不成立。
  2. 零機率問題:如果某個條件機率為零,會導致整體機率為零(可透過平滑解決)。
  3. 對連續特徵不夠友好:需要額外處理(如用高斯分佈擬合)。

6. 常見應用

  • 文字分類(如垃圾郵件過濾)。
  • 醫學診斷。
  • 客戶分類和信用風險評估。

貝葉斯分類器以其簡潔高效的特點,成為機器學習中的重要基礎方法之一,特別是在特徵獨立性假設近似成立的場景中表現突出。

相關文章