機器學習之分類:準確率

Lois發表於2020-06-27

準確率是一個用於評估分類模型的指標。通俗來說,準確率是指我們的模型預測準確的結果所佔的比例。正式點說,準確率的定義如下:

Accuracy = \dfrac{Number of correct predictions}{Total number of predictions}

對於二元分類,也可以根據正類別和負類別按如下方式計算準確率:

Accuracy = \dfrac{TP + TN}{TP + TN + FP + FN}

其中,TP = 真正例,FP = 假正例,FN = 假負例。
讓我們來試著計算一下以下模型的準確率,該模型將 100 個腫瘤分為惡性(正類別)或良性(負類別):

Accuracy = \dfrac{TP + TN}{TP + TN + FP + FN} \\= \dfrac{1 + 90}{1 + 90 + 1 + 8} = 0.91

準確率為 0.91,即 91% (總共 100 個樣本中有 91 個預測正確)。這表示我們的腫瘤分類器在識別惡性腫瘤方面變現的非常出色,對吧?
實際上,只要我們仔細分析一下正類別和負類別,就可以更好地瞭解我們模型的效果。
在 100 個腫瘤樣本中,91 個為良性(90個 TN 和 1 個 FP),9 個為惡性(1個 TP 和 8 個FN)。
在 91 個良性腫瘤中,該模型將 90 個正確識別為良性。這很好。不過,在 9 個惡性腫瘤中,該模型僅將一個正確識別為惡性。這是多麼可怕的結果!9 個惡性腫瘤中有 8 個未被診斷出來!
雖然 91% 的準確率可能乍一看還不錯,但如果另一個腫瘤分類器模型總是預測良性,那麼這個模型使用我們的樣本進行預測也會實現相同的準確率(100 箇中有 91 個預測正確)。換言之,我們的模型與那些沒有預測能力來區分惡性腫瘤和良性腫瘤的模型差不多。
當您使用分類不平衡的資料集(比如正類別標籤和負類別標籤的數量之間存在明顯差異)時,單單準確率一項並不能反映全面情況。
在下一部分中,我們將介紹兩個能夠更好地評估分類不平衡問題的指標:精確率和召回率。

本作品採用《CC 協議》,轉載必須註明作者和本文連結

Hacking

相關文章