機器學習之分類:ROC 和曲線下面積

Lois發表於2020-06-28

ROC 曲線

ROC 曲線 (接收者操作特徵曲線)是一種顯示分類模型在所有分類閾值下的效果的圖表。該曲線繪製了以下兩個引數:

  • 真正利率
  • 假正利率

真正利率(TPR)是召回率的同義詞,因此定義如下:

TPR = \dfrac{TP}{TP + FN}

假正例率(FPR)的定義如下:

FPR = \dfrac{FR}{FP + TN}

ROC 曲線用於繪製採用不同分類閾值時的 TPR 與 FPR 。降低分類閾值會導致將更多樣本歸為正類別,從而增加假正例和真正例的個數。下圖顯示了一個典型的 ROC 曲線。

圖 4.不同分類閾值下的 TP 率與 FP 率

為了計算 ROC 曲線上的點,我們可以使用不同的分類閾值多次評估邏輯迴歸模型,但這樣做效率非常低。幸運的是,有一種基於排序的高效演算法可以為我們提供此類資訊,這種演算法稱為曲線下面積。

曲線下面積:ROC 曲線下面積

曲線下面積表示“ROC 曲線下面積”。也就是說,曲線下面積測量的是從(0,0)到(1,1)之間整個二維面積(參考積分學)。

圖 5.曲線下面積(ROC 曲線下面積)
曲線下面積對所有可能的分類閾值的效果進行綜合衡量。曲線下面積的一種解決方式是看作模型將某個隨機正類別樣本排列在某個隨機負淚別樣本之上的概率。以下面的樣本為例,邏輯迴歸預測從左到右以升序排列:

圖 6.預測按邏輯迴歸分數以升序排列。
曲線下面積表示隨機正類別(綠色)樣本位於負類別(紅色)樣本右側的概率。
曲線下面積的取值範圍為 0—1 。預測結果 100%錯誤的模型的曲線下面積為 0.0;而預測結果 100%正確的模型的曲線下面積為 1.0。
曲線下面積因以下兩個原因而比較實用:

  • 曲線下面積的尺度不變。它測量預測的排名情況,而不是測量其絕對值。
  • 曲線下面積的分類閾值不變。它測量預測的排名情況,而不考慮所選的分類閾值。
    不過,這兩個原因都有各自的侷限性,這可能會導致曲線下面積在某些用例中不太實用:
  • 並非總是希望尺度不變。例如,有時我們非常需要被良好校準的概率輸出,而曲線下面積無法告訴我們這一結果。
  • 並非總是希望分類閾值不變。在假負例與假正例的代價存在較大差異的情況下,儘量減少一種型別的分類錯誤可能至關重要。例如,在進行垃圾郵件檢測時,您可能希望優先考慮儘量減少假正例(即使這會導致假負例大幅增加)。對於此類優化,曲線下面積並非一個實用的指標。
本作品採用《CC 協議》,轉載必須註明作者和本文連結

Hacking

相關文章