三個關鍵問題:
如何獲得測試結果? → 評估方法
如何評估效能優劣? → 效能度量
如何判斷實質差別? → 比較檢驗
- 思路總結
- 一、效能度量
- 1.迴歸任務:均方誤差
- 2.分類任務
- (1)錯誤率與精度
- (2)查準率P與查全率R
- (3)平衡點BEP:P-R曲線圖/PR圖(查準率-查全率曲線)
- (4)F1係數
- (4-1)綜合查準率與查全率(調和平均/常用公式)
- (4-2)更一般的形式(加權調和平均)
- (4-3)算術平均
- (4-4)幾何平均
- (4-5)宏查準率、宏查全率、宏F1
- (4-6)微查準率、微查全率、微F1
- (4-7)宏F1與微F1的區別
- (5)ROC與AUC(真正例率、假正例率)
- (6)代價曲線/代價敏感錯誤率
- 二、偏差與方差
- 三、比較檢驗
思路總結
1.評價指標聯絡:
混淆矩陣-> 查準率、查全率->PR圖->F1係數
一、效能度量
對學習器的泛化效能進行評估,不僅需要有效可行的實驗估計方法,還需
要有衡量模型泛化能力的評價標準,這就是效能度量
效能度量是衡量模型泛化能力的評價標準,反映了任務需求
使用不同的效能度量往往會致不同的評判結果
1.迴歸任務:均方誤差
用於評價迴歸任務
其中,Ⅱ表示示性函式
2.分類任務
(1)錯誤率與精度
錯誤率:
精度:
(2)查準率P與查全率R
查準率/準確率(precision):
P = TP/(TP+FP)
查全率/召回率/靈敏度/真正率(recall):
R = TP/(TP+FN)
根據樣本總數=TP+FP+TN+FN,查全率和查準率是一對矛盾變數,一般查準率高,查全率低;查準率低,查全率高;在一些簡單任務中,可能兩者都高
(3)平衡點BEP:P-R曲線圖/PR圖(查準率-查全率曲線)
注:P-R圖一般為非光滑非單調曲線
曲線下面積與平衡點(BEP)
(1)若一個學習模型的P-R曲線完全包住另一個學習模型的P-R曲線,則前者的效能優於後者。即查全率相同的情況下,查準率越高模型的泛化效能越好,如模型A優於模型B。
(2)若兩個學習模型的P-R曲線互相交叉,則可透過“平衡點”(Break-Event Point,簡稱BEP)來評價模型的優劣,BEP是"查準率=查全率"的數值。由上圖可知,模型A的平衡點大於模型B的平衡點,即模型A優於B。
(3) 由於BEP過於簡化,更常用的是F1度量:
F1越大,效能越好。
(4)F1係數
(4-1)綜合查準率與查全率(調和平均/常用公式)
(4-2)更一般的形式(加權調和平均)
(4-3)算術平均
(4-4)幾何平均
(4-5)宏查準率、宏查全率、宏F1
對多次訓練/測試生成的多個混淆矩陣進行平均
(4-6)微查準率、微查全率、微F1
(4-7)宏F1與微F1的區別
(5)ROC與AUC(真正例率、假正例率)
PR曲線:
x:查準率 y:查全率
ROC曲線:
x:真正例率 y:假正例率
(6)代價曲線/代價敏感錯誤率
一些判斷錯誤的任務會造成一些損失和出現代價,比如醫療診斷的失誤,可能會導致失去生命;門禁錯誤地允許陌生人進入,可能會造成嚴重地安全事故。對該類錯誤可稱為“非均等代價”。
可根據任務的領域知識設定代價矩陣
與混淆矩陣的區別是,混淆矩陣隱式設定了均等代價,直接計算錯誤次數,並沒用考慮不同錯誤會造成不同後果;
在非均等代價下,ROC曲線無法直接反應學習器的期望總體代價,而是用代價曲線代替。
二、偏差與方差
測試誤差能代表泛化誤差嗎?
詳見周志華:《機器學習》2.4比較檢驗
泛化錯誤率的構成:偏差+方差+噪聲
偏差:模型輸出與真實值的偏離程度,刻畫了演算法的擬合能力,偏差衡量測試結果的精密度。
方差:同樣大小的訓練集的變動導致的學習效能的變化,即資料擾動造成的影響。方差表示資料的穩定性。
噪聲:當前學習器所能達到的泛化誤差的下限
偏差大:擬合不足/欠擬合;方差大:過擬合
詳見周志華:《機器學習》2.5偏差與方差
測試集小時,評估結果的方差較大;(測試集小->過擬合->方差大)
訓練集小時,評估結果的偏差較大;(訓練集小->欠擬合->偏差大)