機器學習之分類:精確率和召回率

Lois發表於2020-06-27

精確率

精確率指標嘗試回答以下問題:
在被識別為正類別的樣本中,確實為正類別的比例是多少?
精確率的定義如下:

Precision = \dfrac{TP}{TP + FP}

注意:如果模型的預測結果中沒有假正例,則模型的精確率為 1.0 。
讓我們來計算一下上一部分中用於分析腫瘤的機器學習模型的精確率:

精確率 = \dfrac{TP}{TP + FP} = \dfrac{1}{1 + 1} = 0.5

該模型的精確率為 0.5,也就是說,該模型在預測惡性腫瘤方面的正確率是 50%。

召回率

召回率嘗試回答以下問題:
在所有正類別樣本中,被正確識別為正類別的比例是多少?
從數學角度講,召回率的定義如下:

召回率 = \dfrac{TP}{TP + FN}

注意:如果模型的預測結果中沒有假負例,則模型的召回率為 1.0
讓我們來計算一下腫瘤分類器的召回率:

召回率 = \dfrac{TP}{TP + FN} = \dfrac{1}{1 + 8} = 0.11

該模型的召回率是 0.11,也就是說,該模型能夠正確識別出所有惡性腫瘤的百分比是 11%

精確率和召回率:一場拔河比賽

要全面評估模型的有效性,必須同時檢查精確率和召回率。遺憾的是,精確率和召回率往往是此消彼長的情況。也就是說,提高精確率通常會降低召回率值,反之亦然。
請觀察下圖來了解這一概念,該圖顯示了電子郵件分類模型做出的 30 項預測。分類閾值右側的被歸類為“垃圾郵件”,左側的則被歸類為“非垃圾郵件”。

圖 1.將電子郵件歸類為垃圾郵件或非垃圾郵件

我們根據圖 1 所示的結果來計算精確率和召回率值:

精確率指的是被標記為垃圾郵件的電子郵件中正確分類的電子郵件所佔的百分比,即圖 1 中閾值線右側的綠點所佔的百分比:

Precision = \dfrac{TP}{TP + FP} = \dfrac{8}{8 + 2} = 0.8

召回率指的是實際垃圾郵件中正確分類的電子郵件所佔的百分比,即圖 1 中閾值線右側的綠點所佔的百分比:

Recall = \dfrac{TP}{TP + FN} = \dfrac{8}{8 +3} = 0.73

圖 2 顯示提高分類閾值產生的效果

圖 2.提高分類閾值

假正例數量會減少,但假負例數量會相應地增加。結果,精確率有所提高,而召回率則有所降低:

Precision = \dfrac{TP}{TP + FP} = \dfrac{7}{7 + 1} = 0.88 Recall = \dfrac{TP}{TP + FN}=\dfrac{7}{7 + 4} = 0.64

相反,圖 3 顯示了降低分類閾值(從圖 1 中的初始位置開始)產生的效果。

圖 3.降低分類閾值。

假正例數量會增加,而假負例數量會減少。結果這一次,精確率有所下降,而召回率有所提高:

Precision = \dfrac{TP}{TP + FP} = \dfrac{9}{9 + 3} = 0.75 Recall = \dfrac{TP}{TP + FN} = \dfrac{9}{9 + 2} = 0.82

我們已經根據精確率和召回率指標制定了各種指標。

本作品採用《CC 協議》,轉載必須註明作者和本文連結

Hacking

相關文章