機器學習中的PR曲線和ROC曲線

Timmy_Y發表於2016-12-06

機器學習

主要是我對周志華《機器學習》第二章模型估計與選擇中一些內容的總結

1.查準率、查全率和F1

對於二分類問題，可將樣例根據其真實類別與學習器預測類別的組合劃分為真正例（TP），假反例（FN），假正例（FP），真反例（TN），具體分類結果如下
這裡寫圖片描述
查準率P和查全率R分別定義為：

這裡寫圖片描述

查準率關心的是”預測出正例的正確率”即從正反例子中挑選出正例的問題。
查全率關心的是”預測出正例的保證性”即從正例中挑選出正例的問題。

這兩者是一對矛盾的度量，查準率可以認為是”寧缺毋濫”，適合對準確率要求高的應用，例如商品推薦，網頁檢索等。查全率可以認為是”寧錯殺一百，不放過1個”，適合類似於檢查走私、逃犯資訊等。

下圖為查準率-查全率曲線（P-R圖）

查準率-查全率曲線

若一個學習器的P-R曲線被另一個學習器完全”包住”，則後者的效能優於前者。當存在交叉時，可以計算曲線圍住面積，但比較麻煩，平衡點（查準率=查全率，BEP）是一種度量方式。

但BEP還是過於簡化了些，更常用的是F1和Fp度量，它們分別是查準率和查全率的調和平均和加權調和平均。定義如下
這裡寫圖片描述

顯然，當學習器A的F1值比學習器高，那麼A的BEP值也比B高（將P=R代入F1公式即可）

2.ROC和AUC

很多學習器是為測試樣本產生一個實值或概率預測，然後將這個預測值與一個分類閾值進行比較，若大於閾值分為正類，否則為反類，因此分類過程可以看作選取一個截斷點。

不同任務中，可以選擇不同截斷點，若更注重”查準率”，應選擇排序中靠前位置進行截斷，反之若注重”查全率”，則選擇靠後位置截斷。因此排序本身質量的好壞，可以直接導致學習器不同泛化效能好壞，ROC曲線則是從這個角度出發來研究學習器的工具。

曲線的座標分別為真正例率（TPR）和假正例率（FPR），定義如下

這裡寫圖片描述
下圖為ROC曲線示意圖，因現實任務中通常利用有限個測試樣例來繪製ROC圖，因此應為無法產生光滑曲線，如右圖所示。

這裡寫圖片描述
繪圖過程很簡單：給定m個正例子，n個反例子，根據學習器預測結果進行排序，先把分類閾值設為最大，使得所有例子均預測為反例，此時TPR和FPR均為0，在（0，0）處標記一個點，再將分類閾值依次設為每個樣例的預測值，即依次將每個例子劃分為正例。設前一個座標為(x,y)，若當前為真正例，對應標記點為(x,y+1/m)，若當前為假正例，則標記點為（x+1/n,y），然後依次連線各點。

下面舉個繪圖例子：
有10個樣例子，5個正例子，5個反例子。有兩個學習器A,B，分別對10個例子進行預測，按照預測的值（這裡就不具體列了）從高到低排序結果如下：
A：[反正正正反反正正反反]
B : [反正反反反正正正正反]
按照繪圖過程，可以得到學習器對應的ROC曲線點
A：y:[0,0,0.2,0.4,0.6,0.6,0.6,0.8,1,1,1]
x:[0,0.2,0.2,0.2,0.2,0.4,0.6,0.6,0.6,0.8,1]
B：y:[0,0,0.2,0.2,0.2,0.2,0.4,0.6,0.8,1,1]
x:[0,0.2,0.2,0.4,0.6,0.8,0.8,0.8,0.8,0.8,1]
繪製曲線結果如下：

這裡寫圖片描述

藍色為學習器A的ROC曲線，其包含了B的曲線，說明它效能更優秀，這點從A,B對10個例子的排序結果顯然是能看出來的，A中正例排序高的數目多於B。此外，如果兩個曲線有交叉，則需要計算曲線圍住的面積(AUC)來評價效能優劣。

3.偏差和方差

泛化誤差可以分解為偏差、方差與噪聲之和

偏差度量了學習演算法的期望預測和真實結果偏離程度。

方差度量了同樣大小的訓練集的變動所導致的學習效能的變化，即刻畫了資料擾動所造成的影響。

噪聲可以認為資料自身的波動性，表達了目前任何學習演算法所能達到泛化誤差的下限。

偏差大說明欠擬合，方差大說明過擬合。

這裡寫圖片描述

衡量機器學習模型效能，你可以試試利用ROC和CAP曲線！
2019-03-12
機器學習模型
機器學習-ROC曲線：技術解析與實戰應用
2023-12-04
機器學習
ROC曲線，曲線下的面積（Aera Under Curve，AUC），P-R曲線
2020-12-17
機器學習之學習曲線
2019-09-18
機器學習
【機器學習】--模型評估指標之混淆矩陣，ROC曲線和AUC面積
2018-03-27
機器學習模型指標矩陣
ROC曲線繪製與AUC計算
2018-03-28
機器學習中學習曲線的 bias vs variance 以及資料量m
2018-10-28
機器學習
如何跨越 Kubernetes 學習曲線
2019-06-28
隨機森林n_estimators 學習曲線
2023-04-05
隨機森林
spring的問題-能耗、學習曲線
2024-06-17
Spring
sk-learn 學習曲線圖
2018-04-24
精確率、召回率、準確率與ROC曲線
2018-05-15
機器學習之分類：ROC 和曲線下面積
2020-06-28
機器學習
高等數學：曲線曲率推導
2024-07-07
【CSS】曲線陰影
2018-06-16
CSS
圓錐曲線15
2024-03-21
圓錐曲線14
2024-03-15
three.js 曲線
2020-07-14
JS
Python擬合曲線
2024-07-29
Python
貝塞爾曲線
2020-12-14
4次Bezier曲線--計算機圖形學 opengl
2018-04-15
計算機
Origin教程：DSC曲線的描述和繪製
2020-12-13
R資料分析：臨床預測模型中校準曲線和DCA曲線的意義與做法
2022-06-14
模型
rhino 的擠出曲線命令
2019-01-28
一條曲線的誕生
2021-10-30
Error Curves——錯誤曲線
2018-10-23
Error
canva畫曲線圖效果
2018-05-20
AUTOCAD——光順曲線命令
2022-01-07
Flutter 實現平滑曲線折線圖
2018-12-15
Flutter
泰克Tektronix370曲線追蹤器
2024-03-07
橢圓曲線加密中的加法乘法淺析
2018-05-17
加密
caffe的python介面繪製loss和accuracy曲線示例
2022-07-19
Python
delphi 畫圖表，曲線圖
2018-11-27
Android動畫曲線庫AndroidEasingFunctions
2018-05-17
Android動畫IdeaFunction
canvas繪製sin正弦曲線
2018-07-02
Canvas
如何使用Python曲線擬合
2024-04-12
Python
空間曲線和曲面方程
2024-03-17
串列埠屏開發曲線
2024-05-10
串列埠
opencv計算曲線長度
2024-04-30
OpenCV

機器學習中的PR曲線和ROC曲線

1.查準率、查全率和F1

2.ROC和AUC

3.偏差和方差

相關文章