AI 模型常見的評價指標彙總

feifeihuanming發表於2020-11-24

在進行演算法模型測試時,通常需要依據各種評價指標,這裡彙總一些常見的評價指標。
演算法模型的任務通常是進行識別或者分類。對於這類任務來說,最終的結果可以分為如下四類:
TP(True Positive):預測為正,實際為正
FP(False Positive):預測為正,實際為負
TN(True Negative):預測為負,實際為負
FN(False Negative):預測為負,實際為正
其中TP和TN都表示預測結果和實際結果一致,FP和FN表示預測結果和實際結果不一致。再次基礎上,可以使用如下評估指標:

召回率:也叫查全率或者Recall,計算公式為:R = TP / (TP+FN)
召回率的本質可以理解為模型找到資料集中所有感興趣的資料點的能力。衡量的是模型的查全率。

查準率:也叫精準率,計算公式為:P = TP / (TP+FP)
查準率表達的是模型找到資料點中實際相關的比例。它是指檢索出的正確的正例點與檢出的所有正例點總量的比例,用於衡量模型檢出正例點準確度的尺度。

精度-召回率之間存在制衡:隨著精度的增加,召回率會降低,召回率增加,精度就會降低。這個可以這樣理解:
召回率提高,說明在所有的正樣例中發現正樣例的能力比較強,那就是說模型傾向於將負樣本也判斷為正樣例,那麼精度就會降低。
精度提高,模型可以只將一個正樣本預測正確即可,其餘的樣本可以都預測為負樣本,那麼此時精度為100%,但是在眾多的正樣本中,只找到了一個正樣本,召回率就很低。
比如說在極端情況下,模型將所有的樣例都判斷為正樣例,根據召回率的公式R = TP / (TP+FN),其中FN=0,因為沒有被預測為負的樣本,則該模型的召回率為100%,即把所有實際為正的樣本都找到了。但是模型的查準率會很低,因為樣例中所有的負樣本也都被預測成了正樣本,根據查準率的公式P = TP / (TP+FP),分母中的FP會很大。

陰性預測值(NPV):這個可以理解為負樣本的查準率,計算公式:NPV = 正確預測到的負例數/預測為負例的總數 = TN/(TN+FN)。

F1 Score:
上面介紹的都是一些單一指標,因為有些指標之間是有制衡的,為了得到一個精度和召回率比較好的組合,可以使用F1 score進行判斷。
F1 score是對精度和召回率的調和平均:
F1 score = 2*(precision * recall) / (precision + recall)
使用調和平均而不是簡單的算數平均的原因是:調和平均可以懲罰極端情況。一個具有 1.0 的精度,而召回率為 0 的分類器,這兩個指標的算術平均是 0.5,但是 F1 score 會是 0。F1 score 給了精度和召回率相同的權重,它是通用 Fβ指標的一個特殊情況,在 Fβ中,β 可以用來給召回率和精度更多或者更少的權重。(還有其他方式可以結合精度和召回率,例如二者的幾何平均,但是 F1 score 是最常用的。) 如果我們想建立一個具有最佳的精度—召回率平衡的模型,那麼就要嘗試將 F1 score 最大化。
當召回率和查準率的重要性不同時,F1度量的一般形式是:

其中β表示召回率 和查準率的權重。
β=1,召回率權重=查準率權重,就是F1
β>1,召回率權重>查準率權重
β<1,召回率權重<查準率權重

相關文章