【機器學習】第二節-模型評估與選擇-效能度量、方差與偏差、比較檢驗

txmmy發表於2024-05-17

三個關鍵問題:
如何獲得測試結果? → 評估方法
如何評估效能優劣? → 效能度量
如何判斷實質差別? → 比較檢驗

目錄
    • 思路總結
  • 一、效能度量
    • 1.迴歸任務:均方誤差
    • 2.分類任務
      • (1)錯誤率與精度
      • (2)查準率P與查全率R
      • (3)平衡點BEP:P-R曲線圖/PR圖(查準率-查全率曲線)
      • (4)F1係數
        • (4-1)綜合查準率與查全率(調和平均/常用公式)
        • (4-2)更一般的形式(加權調和平均)
        • (4-3)算術平均
        • (4-4)幾何平均
        • (4-5)宏查準率、宏查全率、宏F1
        • (4-6)微查準率、微查全率、微F1
        • (4-7)宏F1與微F1的區別
      • (5)ROC與AUC(真正例率、假正例率)
      • (6)代價曲線/代價敏感錯誤率
    • 二、偏差與方差
    • 三、比較檢驗

思路總結

1.評價指標聯絡:
混淆矩陣-> 查準率、查全率->PR圖->F1係數

一、效能度量

對學習器的泛化效能進行評估,不僅需要有效可行的實驗估計方法,還需
要有衡量模型泛化能力的評價標準,這就是效能度量
效能度量是衡量模型泛化能力的評價標準,反映了任務需求
使用不同的效能度量往往會致不同的評判結果

1.迴歸任務:均方誤差

用於評價迴歸任務

\[E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2 \]

其中,Ⅱ表示示性函式

2.分類任務

(1)錯誤率與精度

錯誤率:

\[E(f;D)=\frac{1}{m}\sum_{i=1}^{m}\prod(f(x_i)\neq y_i) \]

精度:

\[acc(f;D)=\frac{1}{m}\sum{i=1}^{m}\prod(f(x_i)=y_i) \]

(2)查準率P與查全率R

查準率/準確率(precision):
P = TP/(TP+FP)
查全率/召回率/靈敏度/真正率(recall):
R = TP/(TP+FN)
image

根據樣本總數=TP+FP+TN+FN,查全率和查準率是一對矛盾變數,一般查準率高,查全率低;查準率低,查全率高;在一些簡單任務中,可能兩者都高

(3)平衡點BEP:P-R曲線圖/PR圖(查準率-查全率曲線)

image

注:P-R圖一般為非光滑非單調曲線
曲線下面積與平衡點(BEP)
(1)若一個學習模型的P-R曲線完全包住另一個學習模型的P-R曲線,則前者的效能優於後者。即查全率相同的情況下,查準率越高模型的泛化效能越好,如模型A優於模型B。
(2)若兩個學習模型的P-R曲線互相交叉,則可透過“平衡點”(Break-Event Point,簡稱BEP)來評價模型的優劣,BEP是"查準率=查全率"的數值。由上圖可知,模型A的平衡點大於模型B的平衡點,即模型A優於B。
(3) 由於BEP過於簡化,更常用的是F1度量:
F1越大,效能越好。

(4)F1係數

(4-1)綜合查準率與查全率(調和平均/常用公式)

\[\frac{1}{F1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R}) \]

\[F1=\frac{2*P*R}{P+R}=\frac{2*TP}{樣例總數+TP-TN} \]

(4-2)更一般的形式(加權調和平均)

\[\begin{equation} \begin{split} F_\beta=\frac{(1+\beta^2)\times P\times R}{(\beta^2\times P)+R} \\ 當\beta>1,查全率有更大影響; 當\beta<1,查準率有更大影響; \end{split} \end{equation} \]

(4-3)算術平均

\[F=\frac{P+R}{2} \]

(4-4)幾何平均

\[F=\sqrt{P\times R} \]

(4-5)宏查準率、宏查全率、宏F1

對多次訓練/測試生成的多個混淆矩陣進行平均

\[\begin{equation} \begin{split} macro-P=\frac{1}{n}\sum_{i=1}^{n}P_i \\ macro-R=\frac{1}{n}\sum_{i=1}^{n}R_i \\ macro-F1=\frac{2\times macro-P \times macro-R}{macro-P+macro-R} \end{split} \end{equation} \]

(4-6)微查準率、微查全率、微F1

\[\begin{equation} \begin{split} micro-P=\frac{\overline{TP}}{\overline{TP}+\overline{FP}} \\ micro-R=\frac{\overline{TP}}{\overline{TP}+\overline{FN}} \\ micro-F1=\frac{2\times micro-P \times micro-R}{micro-P+micro-R} \end{split} \end{equation} \]

(4-7)宏F1與微F1的區別

(5)ROC與AUC(真正例率、假正例率)

PR曲線:
x:查準率 y:查全率
ROC曲線:
x:真正例率 y:假正例率

\[\begin{equation} \begin{split} TPR=\frac{TP}{TP+FN} \\ FPR=\frac{TP}{TN+FP} \end{split} \end{equation} \]

(6)代價曲線/代價敏感錯誤率

一些判斷錯誤的任務會造成一些損失和出現代價,比如醫療診斷的失誤,可能會導致失去生命;門禁錯誤地允許陌生人進入,可能會造成嚴重地安全事故。對該類錯誤可稱為“非均等代價”。
可根據任務的領域知識設定代價矩陣
與混淆矩陣的區別是,混淆矩陣隱式設定了均等代價,直接計算錯誤次數,並沒用考慮不同錯誤會造成不同後果;
在非均等代價下,ROC曲線無法直接反應學習器的期望總體代價,而是用代價曲線代替。

二、偏差與方差

測試誤差能代表泛化誤差嗎?
詳見周志華:《機器學習》2.4比較檢驗

泛化錯誤率的構成:偏差+方差+噪聲
偏差:模型輸出與真實值的偏離程度,刻畫了演算法的擬合能力,偏差衡量測試結果的精密度
方差:同樣大小的訓練集的變動導致的學習效能的變化,即資料擾動造成的影響。方差表示資料的穩定性
噪聲:當前學習器所能達到的泛化誤差的下限

偏差大:擬合不足/欠擬合;方差大:過擬合
詳見周志華:《機器學習》2.5偏差與方差

測試集小時,評估結果的方差較大;(測試集小->過擬合->方差大)
訓練集小時,評估結果的偏差較大;(訓練集小->欠擬合->偏差大)

三、比較檢驗

相關文章