AI 模型常見的評價指標彙總
在進行演算法模型測試時,通常需要依據各種評價指標,這裡彙總一些常見的評價指標。
演算法模型的任務通常是進行識別或者分類。對於這類任務來說,最終的結果可以分為如下四類:
TP(True Positive):預測為正,實際為正
FP(False Positive):預測為正,實際為負
TN(True Negative):預測為負,實際為負
FN(False Negative):預測為負,實際為正
其中TP和TN都表示預測結果和實際結果一致,FP和FN表示預測結果和實際結果不一致。再次基礎上,可以使用如下評估指標:
召回率:也叫查全率或者Recall,計算公式為:R = TP / (TP+FN)
召回率的本質可以理解為模型找到資料集中所有感興趣的資料點的能力。衡量的是模型的查全率。
查準率:也叫精準率,計算公式為:P = TP / (TP+FP)
查準率表達的是模型找到資料點中實際相關的比例。它是指檢索出的正確的正例點與檢出的所有正例點總量的比例,用於衡量模型檢出正例點準確度的尺度。
精度-召回率之間存在制衡:隨著精度的增加,召回率會降低,召回率增加,精度就會降低。這個可以這樣理解:
召回率提高,說明在所有的正樣例中發現正樣例的能力比較強,那就是說模型傾向於將負樣本也判斷為正樣例,那麼精度就會降低。
精度提高,模型可以只將一個正樣本預測正確即可,其餘的樣本可以都預測為負樣本,那麼此時精度為100%,但是在眾多的正樣本中,只找到了一個正樣本,召回率就很低。
比如說在極端情況下,模型將所有的樣例都判斷為正樣例,根據召回率的公式R = TP / (TP+FN),其中FN=0,因為沒有被預測為負的樣本,則該模型的召回率為100%,即把所有實際為正的樣本都找到了。但是模型的查準率會很低,因為樣例中所有的負樣本也都被預測成了正樣本,根據查準率的公式P = TP / (TP+FP),分母中的FP會很大。
陰性預測值(NPV):這個可以理解為負樣本的查準率,計算公式:NPV = 正確預測到的負例數/預測為負例的總數 = TN/(TN+FN)。
F1 Score:
上面介紹的都是一些單一指標,因為有些指標之間是有制衡的,為了得到一個精度和召回率比較好的組合,可以使用F1 score進行判斷。
F1 score是對精度和召回率的調和平均:
F1 score = 2*(precision * recall) / (precision + recall)
使用調和平均而不是簡單的算數平均的原因是:調和平均可以懲罰極端情況。一個具有 1.0 的精度,而召回率為 0 的分類器,這兩個指標的算術平均是 0.5,但是 F1 score 會是 0。F1 score 給了精度和召回率相同的權重,它是通用 Fβ指標的一個特殊情況,在 Fβ中,β 可以用來給召回率和精度更多或者更少的權重。(還有其他方式可以結合精度和召回率,例如二者的幾何平均,但是 F1 score 是最常用的。) 如果我們想建立一個具有最佳的精度—召回率平衡的模型,那麼就要嘗試將 F1 score 最大化。
當召回率和查準率的重要性不同時,F1度量的一般形式是:
其中β表示召回率 和查準率的權重。
β=1,召回率權重=查準率權重,就是F1
β>1,召回率權重>查準率權重
β<1,召回率權重<查準率權重
相關文章
- 二分類問題常見的評價指標指標
- 準確率評價指標指標
- 評價指標(純手寫)指標
- Xlua常見API彙總API
- 不平衡資料的分類評價指標總結指標
- 迴歸模型-評估指標模型指標
- c語言指標彙總C語言指標
- 計算機效能評價指標計算機指標
- 評價指標F-Measure指標
- 機器學習中的效能度量指標彙總機器學習指標
- 【綜合評價方法】常見綜合評價方法及其實現
- Redis常見問題彙總Redis
- Java 常見問題彙總Java
- Bootstrap常見問題彙總boot
- 常見埠表彙總(轉)
- CTF常見密碼彙總密碼
- 如何找到好的主題模型量化評價指標?這是一份熱門方法總結模型指標
- 常見的網路協議彙總協議
- 運維監控指標彙總運維指標
- 常見指標型別入門指標型別
- Java常見知識點彙總(⑨)——異常Java
- 大資料分析中的基本評價指標大資料指標
- Java常見知識點彙總(⑩)——常見設計模式Java設計模式
- Python常見web框架彙總PythonWeb框架
- 前端常見跨域方案彙總前端跨域
- 代理IP常見問題彙總
- 常見網路協議彙總協議
- Redis Manager 常見問題彙總Redis
- 前端常見設計模式彙總前端設計模式
- SpringMvc常見問題彙總SpringMVC
- JuniperNetScreen常見問題彙總
- Hibernate常見知識彙總
- Java常見知識點彙總(⑯)——類載入模型(class loader)Java模型
- 常見的MIME型別彙總(逐步收集)型別
- 目標檢測模型的評價標準-AP與mAP模型
- 常見網際網路分析指標指標
- 軟體效能測試常見指標指標
- C語言指標常見問題C語言指標