不平衡資料的分類評價指標總結

Candy_GL發表於2018-09-26

原文網址 : https://blog.csdn.net/candy_gl/article/details/82858179

指標

轉自：https://blog.csdn.net/sqiu_11/article/details/78396443

識別任務中混淆矩陣（Confusion Matrix）用於評價演算法好壞的指標。下圖是一個二分類問題的混淆矩陣：

TP：正確肯定——實際是正例，識別為正例

FN：錯誤否定（漏報）——實際是正例，卻識別成了負例

FP：錯誤肯定（誤報）——實際是負例，卻識別成了正例

TN：正確否定——實際是負例，識別為負例

相關術語：

AccuracyRate(準確率): (TP+TN)/(TP+TN+FN+FP)

ErrorRate(誤分率): (FN+FP)/(TP+TN+FN+FP)

Recall(召回率，查全率,擊中概率): TP/(TP+FN), 在所有GroundTruth為正樣本中有多少被識別為正樣本了;

Precision(查準率):TP/(TP+FP),在所有識別成正樣本中有多少是真正的正樣本；

TPR(TruePositive Rate): TP/(TP+FN),實際就是Recall

FAR(FalseAcceptance Rate)或FPR(False Positive Rate)：FP/(FP+TN)，錯誤接收率，誤報率，在所有GroundTruth為負樣本中有多少被識別為正樣本了;

FRR(FalseRejection Rate): FN/(TP+FN)，錯誤拒絕率，拒真率，在所有GroundTruth為正樣本中有多少被識別為負樣本了，它等於1-Recall

ROC曲線（receiver operatingcharacteristic curve）：在不平衡資料分類中最常用的指標之一

橫軸是FAR,縱軸是Recall;
每個閾值的識別結果對應一個點(FPR，TPR),當閾值最大時，所有樣本都被識別成負樣本，對應於左下角的點(0,0)，當閾值最小時，所有樣本都被識別成正樣本，對應於右上角的點(1,1)，隨著閾值從最大變化到最小，識別為正樣本的可能性變大，TP和FP都逐漸增大；隨著閾值從最小變化到最大，將負樣本識別為正樣本的可能性變小(FP減小)，將正樣本識別為負樣本的可能性在增大(FN)；
一個好的分類模型應儘可能位於影象的左上角，而一個隨機猜測模型應位於連線點（TPR=0,FPR=0）和（TPR=1,FPR=1）的主對角線上；
可以使用ROC曲線下方的面積AUC（AreaUnder roc Curve）值來度量演算法好壞：如果模型是完美的，那麼它的AUG = 1，如果模型是個簡單的隨機猜測模型，那麼它的AUG = 0.5，如果一個模型好於另一個，則它的曲線下方面積相對較大；
(不平衡資料選擇多大的閾值最好？)：ERR（Equal Error Rate,相等錯誤率）：FAR和FRR是同一個演算法系統的兩個引數，把它放在同一個座標中。FAR是隨閾值增大而減小的，FRR是隨閾值增大而增大的。因此它們一定有交點。這個點是在某個閾值下的FAR與FRR等值的點。習慣上用這一點的值來衡量演算法的綜合效能。對於一個更優的指紋演算法，希望在相同閾值情況下，FAR和FRR都越小越好。

AUC: 陰影部分面積，在(0-1)之間，值越大說明分類越好

示例程式碼待續....

--------------------- 本文來自 sqiu_11 的CSDN 部落格，全文地址請點選：https://blog.csdn.net/sqiu_11/article/details/78396443?utm_source=copy

評估指標與評分（上）：二分類指標
2022-05-28
指標
二分類問題常見的評價指標
2019-03-07
指標
python實現多分類評價指標
2020-09-20
Python指標
分類演算法的評估指標
2020-04-06
演算法指標
AI 模型常見的評價指標彙總
2020-11-24
AI模型指標
【推薦系統】評估指標總結
2018-05-01
指標
準確率評價指標
2020-10-05
指標
評價指標F-Measure
2024-08-15
指標
評價指標（純手寫）
2024-07-29
指標
極端類別不平衡資料下的分類問題研究綜述
2019-06-18
流量渠道資料分析方法與價值評估指標體系
2024-01-15
指標
計算機效能評價指標
2018-08-28
計算機指標
影象檢索：資訊檢索評價指標mAP
2018-12-26
指標
一文弄懂pytorch搭建網路流程+多分類評價指標
2021-05-16
PyTorch指標
如何找到好的主題模型量化評價指標？這是一份熱門方法總結
2020-02-05
模型指標
機器學習入門(六)——評價分類結果
2020-10-04
機器學習
文字分類在內容安全應用中的資料不平衡問題
2020-10-19
文字分類
如何評價我們分類模型的效能？
2019-03-04
模型
分類模型的演算法效能評價
2024-07-09
模型演算法
推薦系統 TOP K 評價指標
2022-04-24
指標
衡量資料管理價值的指標如何定義
2024-03-04
指標
無參考影像的清晰度評價方法 (影像清晰度的評價指標)
2018-12-01
指標
資料庫分庫分表的總結
2019-02-16
資料庫
指南：不平衡分類的成本敏感決策樹（附程式碼&連結）
2020-03-04
iOS野指標定位總結
2018-08-23
iOS指標
C/C++指標總結
2019-08-30
C++指標
【評價指標】詳解F1-score與多分類MacroF1&MicroF1
2020-07-28
指標Mac
二分類問題中混淆矩陣、PR以及AP評估指標
2021-02-18
矩陣指標
評分卡模型的評分標準
2019-01-04
模型
Binary classification - 聊聊評價指標的那些事兒【實戰篇】
2019-07-02
指標
Binary classification - 聊聊評價指標的那些事兒【回憶篇】
2019-07-01
指標
廣告流量分析之評價指標的選擇(一)
2021-05-10
指標
智慧網聯建設核心評價指標探討
2022-04-29
指標
評價分散式事務資料庫的5個標準
2018-08-15
分散式資料庫
電商資料分析指標體系劃分
2018-08-01
指標
評估智慧對話機器人的7大資料指標
2020-09-24
機器人大資料指標
2018資料更新：人類發展指數和指標報告
2018-09-17
指標
C++中const與指標、引用的總結
2018-11-17
C++指標

不平衡資料的分類評價指標總結

相關文章