AI 模型常見的評價指標彙總

feifeihuanming發表於2020-11-24

原文網址 : https://testerhome.com/topics/26882

在進行演算法模型測試時，通常需要依據各種評價指標，這裡彙總一些常見的評價指標。
演算法模型的任務通常是進行識別或者分類。對於這類任務來說，最終的結果可以分為如下四類：
TP（True Positive）：預測為正，實際為正
FP（False Positive）:預測為正，實際為負
TN（True Negative）:預測為負，實際為負
FN（False Negative）：預測為負，實際為正
其中TP和TN都表示預測結果和實際結果一致，FP和FN表示預測結果和實際結果不一致。再次基礎上，可以使用如下評估指標：

召回率：也叫查全率或者Recall，計算公式為：R = TP / (TP+FN)
召回率的本質可以理解為模型找到資料集中所有感興趣的資料點的能力。衡量的是模型的查全率。

查準率：也叫精準率，計算公式為：P = TP / (TP+FP)
查準率表達的是模型找到資料點中實際相關的比例。它是指檢索出的正確的正例點與檢出的所有正例點總量的比例，用於衡量模型檢出正例點準確度的尺度。

精度-召回率之間存在制衡：隨著精度的增加，召回率會降低，召回率增加，精度就會降低。這個可以這樣理解：
召回率提高，說明在所有的正樣例中發現正樣例的能力比較強，那就是說模型傾向於將負樣本也判斷為正樣例，那麼精度就會降低。
精度提高，模型可以只將一個正樣本預測正確即可，其餘的樣本可以都預測為負樣本，那麼此時精度為100%，但是在眾多的正樣本中，只找到了一個正樣本，召回率就很低。
比如說在極端情況下，模型將所有的樣例都判斷為正樣例，根據召回率的公式R = TP / (TP+FN)，其中FN=0，因為沒有被預測為負的樣本，則該模型的召回率為100%，即把所有實際為正的樣本都找到了。但是模型的查準率會很低，因為樣例中所有的負樣本也都被預測成了正樣本，根據查準率的公式P = TP / (TP+FP)，分母中的FP會很大。

陰性預測值（NPV）：這個可以理解為負樣本的查準率，計算公式：NPV = 正確預測到的負例數/預測為負例的總數 = TN/(TN+FN)。

F1 Score：
上面介紹的都是一些單一指標，因為有些指標之間是有制衡的，為了得到一個精度和召回率比較好的組合，可以使用F1 score進行判斷。
F1 score是對精度和召回率的調和平均：
F1 score = 2*(precision * recall) / (precision + recall)
使用調和平均而不是簡單的算數平均的原因是：調和平均可以懲罰極端情況。一個具有 1.0 的精度，而召回率為 0 的分類器，這兩個指標的算術平均是 0.5，但是 F1 score 會是 0。F1 score 給了精度和召回率相同的權重，它是通用 Fβ指標的一個特殊情況，在 Fβ中，β 可以用來給召回率和精度更多或者更少的權重。(還有其他方式可以結合精度和召回率，例如二者的幾何平均，但是 F1 score 是最常用的。) 如果我們想建立一個具有最佳的精度—召回率平衡的模型，那麼就要嘗試將 F1 score 最大化。
當召回率和查準率的重要性不同時，F1度量的一般形式是：

其中β表示召回率和查準率的權重。
β=1，召回率權重=查準率權重，就是F1
β>1，召回率權重>查準率權重
β<1，召回率權重<查準率權重

二分類問題常見的評價指標
2019-03-07
指標
Xlua常見API彙總
2020-10-09
API
不平衡資料的分類評價指標總結
2018-09-26
指標
準確率評價指標
2020-10-05
指標
評價指標F-Measure
2024-08-15
指標
評價指標（純手寫）
2024-07-29
指標
迴歸模型-評估指標
2018-06-02
模型指標
c語言指標彙總
2019-08-03
C語言指標
Bootstrap常見問題彙總
2018-05-21
boot
Java 常見問題彙總
2020-08-27
Java
Redis常見問題彙總
2019-02-11
Redis
Python常見web框架彙總
2019-02-19
PythonWeb框架
CTF常見密碼彙總
2024-08-15
密碼
常見的網路協議彙總
2023-04-29
協議
Java常見知識點彙總（⑯）——類載入模型（class loader）
2020-03-12
Java模型
計算機效能評價指標
2018-08-28
計算機指標
如何找到好的主題模型量化評價指標？這是一份熱門方法總結
2020-02-05
模型指標
Java常見知識點彙總（⑨）——異常
2020-03-04
Java
運維監控指標彙總
2023-04-18
運維指標
Java常見知識點彙總（⑩）——常見設計模式
2020-03-05
Java設計模式
前端常見跨域方案彙總
2019-03-26
前端跨域
前端常見設計模式彙總
2018-12-10
前端設計模式
Redis Manager 常見問題彙總
2018-12-15
Redis
常見網路協議彙總
2021-08-10
協議
代理IP常見問題彙總
2021-09-11
常見指標型別入門
2019-05-10
指標型別
python實現多分類評價指標
2020-09-20
Python指標
【綜合評價方法】常見綜合評價方法及其實現
2024-08-26
目標檢測模型的評價標準-AP與mAP
2022-12-02
模型
Vue專案常見問題彙總
2018-10-18
Vue
移動端常見bug彙總002
2018-06-05
Java常見知識點彙總（⑳）——鎖
2020-03-18
Java
Java常見知識點彙總（②）——Static
2020-02-27
Java
mybatis常見庫及問題彙總
2018-12-22
MyBatis
C++ 指標常見用法小結
2018-04-12
C++指標
C語言指標常見問題
2023-01-05
C語言指標
軟體效能測試常見指標
2022-10-31
指標
常見網際網路分析指標
2021-06-21
指標

AI 模型常見的評價指標彙總

相關文章