貝葉斯分類器
貝葉斯分類器是一類基於貝葉斯定理的統計學習方法,廣泛應用於分類問題。其核心思想是透過計算後驗機率 P(y∣x),將輸入樣本 x 分類到具有最大後驗機率的類別。
1. 貝葉斯定理
貝葉斯定理是機率論中的基本法則,用於描述條件機率的關係:
其中:
- P(y∣x):在已知 x的情況下,y 屬於某類的機率(後驗機率);
- P(x∣y):在已知 y 屬於某類的情況下,x 出現的機率(似然函式);
- P(y):y 屬於某類的機率(先驗機率);
- P(x):x 出現的機率(證據)。
2. 貝葉斯分類器的思想
目標
對於一個輸入樣本 x,分類器透過計算每個類別的後驗機率 P(y∣x),選擇後驗機率最大的類別:
透過貝葉斯定理展開:
由於 P(x) 對所有類別相同,只需比較 P(x∣y)的大小。
貝葉斯分類器的假設
- 樸素貝葉斯分類器假設特徵條件獨立:
3. 貝葉斯分類器的步驟
-
計算先驗機率 P(y):
- 統計每個類別在資料集中的頻率。
-
計算條件機率 P(xi∣y):
- 對於每個類別 y,計算每個特徵 xi 在類別 y下的條件機率。
-
計算後驗機率 P(y∣x):
- 將 P(x∣y) 結合,計算後驗機率。
-
分類決策:
- 選擇最大後驗機率的類別。
4. 示例
4.1 問題描述
假設我們有以下訓練資料,目標是根據天氣和風速預測是否適合運動。
天氣 | 風速 | 是否適合運動 |
---|---|---|
晴天 | 弱 | 是 |
晴天 | 強 | 否 |
多雲 | 弱 | 是 |
雨天 | 弱 | 是 |
雨天 | 強 | 否 |
多雲 | 強 | 是 |
目標是預測樣本 x=(晴天,弱)是否適合運動。
4.2 步驟
(1) 計算先驗機率 P(y)
- 類別“是”的樣本數:4;
- 類別“否”的樣本數:2;
- 總樣本數:6。
P(是)=4/6=0.667,P(否)=2/6=0.333
(2) 計算條件機率 P(x∣y)
P(晴天∣是):
- 在類別“是”中,天氣為“晴天”的樣本有 1 個;
- 在類別“是”中總共有 4 個樣本;
P(晴天∣是)=1/4=0.25
-
P(晴天∣否):
- 在類別“否”中,天氣為“晴天”的樣本有 1 個;
- 在類別“否”中總共有 2 個樣本;
-
P(弱∣是):
- 在類別“是”中,風速為“弱”的樣本有 3 個;
- 在類別“是”中總共有 4 個樣本;
-
P(弱∣否):
- 在類別“否”中,風速為“弱”的樣本有 0 個;
(3) 計算後驗機率 P(y∣x)
對於類別“是”:
P(是∣晴天,弱)∝P(晴天∣是)⋅P(弱∣是)⋅P(是)
P(是∣晴天,弱)∝0.25⋅0.75⋅0.667=0.125
對於類別“否”:
P(否∣晴天,弱)∝P(晴天∣否)⋅P(弱∣否)⋅P(否)
P(否∣晴天,弱)∝0.5⋅0⋅0.333=0
(4) 分類決策
P(是∣晴天,弱)=0.125>P(否∣晴天,弱)=0
因此,樣本 x=(晴天,弱)的預測結果是“是”。
The symbol "∝" represents proportionality in mathematics. When you see a∝b, it means that a is proportional to bbb, or a=k⋅ba = k \cdot ba=k⋅b, where kkk is a constant of proportionality.
For example:
- If F∝x, then F=kx for some constant kkk.
- Proportionality often indicates that as one variable changes, the other changes in a consistent way (e.g., doubling b will double a if a∝ba ).
5. 優缺點
優點
- 簡單高效:計算簡單,適合大規模資料。
- 易於解釋:基於機率,結果直觀。
- 適合離散資料:對於類別型特徵表現良好。
缺點
- 條件獨立性假設:假設特徵條件獨立,在實際問題中可能不成立。
- 零機率問題:如果某個條件機率為零,會導致整體機率為零(可透過平滑解決)。
- 對連續特徵不夠友好:需要額外處理(如用高斯分佈擬合)。
6. 常見應用
- 文字分類(如垃圾郵件過濾)。
- 醫學診斷。
- 客戶分類和信用風險評估。
貝葉斯分類器以其簡潔高效的特點,成為機器學習中的重要基礎方法之一,特別是在特徵獨立性假設近似成立的場景中表現突出。