高偏差、高方差、低精確率與低召回率、混淆矩陣

一個人的場域發表於2017-01-05


本文是個人理解

1.高偏差(high bias)與方差(high variance)

    偏差,可以理解為樣本與模型預測結果的差距,可以使用平方差計算

    方差是樣本y值與模型期望的差的平方和。

    模型對實驗資料欠擬合(underfitting) 是會出現搞偏差,而過擬合(overfitting)會造成高方差

    解決方法:直接的方法是將實驗資料一分為二:訓練集和測試集。模型在訓練集和測試集上都達到高正確率才說明偏差和方差都可以接受

                       增加體徵的數量可以降低偏差;減少特徵數量可以降低方差


2. 精確率(precision)與召回率(recall)

      ,  '真正' 與 '真負'總和中'真正'的比例。

     , 即 '真正' 與'假負'總和中真正的比例


     以新聞推薦舉例。

      精確率可以理解為,所有推薦了的新聞中該推薦的新聞的比例。 比如,推薦了10篇新聞,其中8篇是應該推薦的

      召回率可以理解為,所有應該推薦的新聞中實際推薦了的新聞的比例。比如應該推薦10篇感興趣的新聞,只推薦了其中的8篇。

      要平衡精確率和召回率,可以調節區分正負類別的概率臨界值。 為提高精確率,可以提高概率臨界值,使得正類別的判斷更加

       保守;為了提高召回率,可以降低概率臨界值,以增加正類別的數量

       

3. 混淆矩陣

   

機器學習人工智慧領域),混淆矩confusionmatrix)是可化工具,特用於監督學習,在無監督學習一般叫做匹配矩矩陣的列表示預測類的例項,行表示實際類的例項,這樣通過混淆矩陣的一些指標可以衡量演算法的精度。
  
Predicted
  
  
Negative
  
  
Positive
  
  
Actual
  
  
Negative
  
  
a
  
  
b
  
  
Positive
  
  
c
  
  
d
  

  • a 表示偽的預測正確值
  • b表示偽的預測錯誤值
  • c 表示真的預測錯誤值
  • d 表示真的預測正確值
ACAccuracy=(a+d)/(a+b+c+d)
TPrecall or true positive rate = d/(c+d)
FPfalse positive rate = b/(a+b)
TN true negative rate= a/(a+b)
FNfalse negative rate = c/(c+d)
Pprecision  = d/(b+d)

     

相關文章