一文詳解機器學習的判別指標(精準率，召回率)

ZhiboZhao發表於2021-06-30

原文網址 : https://www.cnblogs.com/zhaozhibo/p/14954685.html

其實大部分的評價指標比如誤識率，拒識率等都是根據TP，FP，FN，TN計算出來的，為了方便起見，把他們的關係表示為下表：

為了更好地理解，我把正負樣本記做好人和壞人，那麼:

TP表示預測為正類的樣本中實際也為正樣本的個數（本來是好人，預測也是好人）
FP表示預測為正類的樣本中實際為負樣本的個數（把壞人當成了好人）
FN表示預測為負類的樣本中實際為正樣本的個數（把好人當成了壞人）
TN表示預測為負類的樣本中實際也為負樣本的個數（本來是壞人，預測也是壞人）

那麼我們可以得到兩個全域性的評價指標：

\[ACC = (TP+TN)/(TP+TN+FP+FN) \\ ERR = (FP+FN)/(TP+TN+FP+FN) \]

由於在不同的任務中，對指標的側重點不一樣，所以僅使用全域性的評價指標並不能完全代表考慮優先順序。比如在抓小偷時，沒有百分百把握不能輕易動手，因此就要FP儘可能的小。然而在疾病篩查過程中，即使有很小的概率，也不能忽略，因此FN也要儘可能小。所以在不同場景下判斷指標出現了偏向，所以又多出兩個衍生的評價指標用來適應不同場景的需求：

\[TAR = TP/(TP+FN) \\ FAR = FP/(FP+TN) \]

其中，$TAR$ 表示預測的正類樣本佔總的正類樣本的比例，也叫 $TPR$ ，查全率，召回率；$FAR$ 表示把壞人當成好人的樣本佔總壞人的比例，也叫誤識率，$FRR$，$FMR$ 等。

值得注意的是，$TAR$ 與 $FAR$ 兩者之間沒有明確的定量關係，通過 $ROC$，$DET$ 等曲線來描述。與其他曲線不同的是，$ROC$ 和$DET$ 曲線的橫縱座標之間並不是因變數與自變數的關係，他們都是閾值 threshold 的因變數。要想理解這個事情，首先要明白threshold是什麼。

以聲紋識別為例，將 $M$ 個待檢測的聲紋資訊與 $N$ 個聲紋庫的聲紋資訊分別編碼後進行匹配，計算餘弦相似度，我們肯定希望相同的聲源之間的相似度更高，而不同的聲源之間的相似度很低。那麼這個相似度就可以理解為threshold。比如：設定的閾值為0，那麼所有相似度大於0的都可以看成是相同的聲源，所以 $TP$ 和 $FP$ 都接近1；同理，設定的閾值為1，那麼所有相似度大於1的都可以看成是相同的聲源，所以 $TP$ 和 $ FP$ 都接近0. 當閾值變大時：

$TP$ 減少：因為要求變高了，容易把好人當成壞人（遊走在道德邊緣的這些）
$FN$ 增加：因為要求變高了，所以好人被當成壞人的概率變大了
$TN$ 增加：因為要求變高了，能篩除更多冒充好人的人
$FP$ 減少：因為要求變高了，預測錯的概率就變低了，把壞人當做好人的概率變少了

所以 $TAR$ 與 $FAR$ 同向變動。根據這個原理以threshold為自變數，將 $FAR$ 與 $TAR$ 作為橫縱座標，繪製出了 $ROC$ 曲線。在 $ROC$曲線中，橫軸代表 $FAR$，縱軸代表 $TAR$，$ROC$ 曲線下方的面積代表一個判別器的優劣，面積越大，判別器越好反之越差。當 $ROC$ 曲線是下圖中的虛線時，相當於判別器沒有效果，因為在虛線上的任何點，無論在任何threshold下，$FAR$ 與 $TAR$ 都是相同的，也就是說猜對與猜錯各一半，模型沒有預測價值。在 $ROC$ 曲線上，等錯誤率（ERR）是 $FAR$ 和 $TAR$ 的一個平衡點，等錯誤率的值越低，表示演算法的效能越好。

除了 $FAR$ 與 $TAR$ 外，還有一些其他衍生出來的判別指標，比如：

$FRR=1-TAR$：這個沒什麼好說的，TAR的逆版本，主要用來繪製DET曲線
$PRE=TP/(TP+FP)$：這個也叫精確率，表示預測正確的正樣本在預測為正類的樣本中佔的比例。

因為 $FAR$ 與 $TAR$ 的變化同向，所以通過 $FAR$ 與 $FRR$ 來繪製 $DET$ 曲線，能夠看出此消彼長的關係：

$ERR$ 就是 $y=x$ 與 $DET$ 曲線的交點處。與 $ROC$ 曲線中的描述一致。因為在 $ROC$ 中，$ERR$ 就是 $FAR+TAR=1$ 的交點處。而在 $DET$ 中，$ERR$ 同樣是 $FAR=FRR$ 處，因此 $FAR=1-TAR$ 。習慣上，$FAR$ 與 $FRR$ 的關係也可以表示為下圖所示。

機器學習之分類：精確率和召回率
2020-06-27
機器學習
準確率（Accuracy）精確率（Prescision）召回率（Recall）
2018-06-15
精確率、召回率、準確率與ROC曲線
2018-05-15
【火爐煉AI】機器學習011-分類模型的評估：準確率，精確率，召回率，F1值
2018-08-06
AI機器學習模型
混淆矩陣、準確率、精確率/查準率、召回率/查全率、F1值、ROC曲線的AUC值
2018-07-09
矩陣
【機器學習】什麼樣的機器學習產品是最符合使用者需求的；機器學習模型的衡量不止準確率：還有精度和召回率
2018-03-26
機器學習模型
機器學習之分類：準確率
2020-06-27
機器學習
準確率評價指標
2020-10-05
指標
[白話解析] 通過例項來梳理概念：準確率 (Accuracy)、精準率(Precision)、召回率(Recall)和F值(F-Measure)
2020-06-20
機器學習在提升持續整合構建準確性和召回率的應用和思考 - 楊碩
2020-06-11
機器學習
瞭解機率知識，機率作為機器學習的底層邏輯
2020-06-24
機器學習
機器學習指導催化劑設計，提高反應的產率
2022-05-27
機器學習
機器學習-學習率：從理論到實戰，探索學習率的調整策略
2023-12-05
機器學習
準確率達100%，「人機互動」機器學習，驅動有機反應精確原子對映研究
2024-04-03
機器學習
AI質檢優化實踐：召回率和準確率，哪個更重要？
2020-03-17
AI優化
準確率達 95%，機器學習預測複雜新材料合成
2021-12-30
機器學習
AI質檢最佳化實踐：召回率和準確率，哪個更重要？
2020-03-17
AI
機器學習之迴歸指標
2020-02-14
機器學習指標
深度學習判別新冠肺炎準確率達九成，《Radiology》已收錄相關研究成果
2020-03-27
深度學習
精度(precision)，召回率(recall)，map
2020-10-20
機器學習判別式與生成式
2019-02-14
機器學習
機器學習筆記——特徵標準化
2018-10-24
機器學習筆記特徵
機率論學習筆記
2024-09-07
筆記
機器學習中的效能度量指標彙總
2018-09-09
機器學習指標
機器學習之邏輯迴歸：計算機率
2020-06-21
機器學習邏輯迴歸計算機
淺談深度學習中的機率
2022-11-18
深度學習
演算法金 | 一文徹底理解機器學習 ROC-AUC 指標
2024-06-11
演算法機器學習指標
詳解c++指標的指標和指標的引用
2018-05-25
C++指標
Golang 學習——陣列指標和指標陣列的區別
2020-05-05
Golang陣列指標
All I know about A/B Test (1) : 均值型指標與比值（率）型指標的計算區別
2021-03-17
指標
模型剪枝：剪枝粒度、剪枝標準、剪枝時機、剪枝頻率
2024-11-15
模型
倉庫精益的指標：庫存週轉率的計算方式及評估
2022-09-09
指標
機器學習診斷準確率高達90%，讓這種疾病無處可逃
2019-04-01
機器學習
指標詳解
2020-10-04
指標
機器學習降維之線性判別分析
2019-07-19
機器學習
機器學習之Xgboost詳解
2020-07-27
機器學習
【深度學習】機率論知識複習
2024-06-20
深度學習
機器學習筆記之效能評估指標
2018-04-25
機器學習筆記指標

一文詳解機器學習的判別指標(精準率，召回率)

相關文章