吳恩達機器學習筆記 —— 11 應用機器學習的建議

xingoo發表於2018-07-23

本篇講述了在機器學習應用時,如何進行下一步的優化。如訓練樣本的切分驗證?基於交叉驗證的引數與特徵選擇?在訓練集與驗證集上的學習曲率變化?在高偏差或者高方差時如何進行下一步的優化,增加訓練樣本是否有效?

更多內容參考 機器學習&深度學習

如果已經建立好了一個機器學習的模型,當我們訓練之後發現還存在很大的誤差,下一步應該做什麼呢?通常能想到的是:

  • 1 獲取更多的資料
  • 2 嘗試選擇更少的特徵集合
  • 3 獲得更多的特徵
  • 4 增加多項式特徵
  • 5 增加λ
  • 6 減小λ

樣本的切分:首先針對我們的樣本集,選擇其中的70%作為訓練集,訓練模型;選擇其中的30%作為測試集,驗證模型的準確度。當使用交叉驗證時,就不能簡單的把資料集分成兩份了,因為這樣無法同時選擇模型並衡量模型的好壞。因此可以把樣本分成3份,其中60%作為訓練集,20%作為交叉驗證集,20%作為準確率測試集。

吳恩達機器學習筆記 —— 11 應用機器學習的建議

通過多項式的維度與訓練集和驗證集的誤差可以畫出上面的圖形。如果多項式維度很低,訓練集和測試集誤差都很大,就叫做高偏差,即欠擬合。如果維度很高,訓練集的誤差很低,但是驗證集誤差很高,就叫做高方差,即過擬合。針對正則化λ也可以用這種方式進行選擇:

吳恩達機器學習筆記 —— 11 應用機器學習的建議

當訓練樣本很少時,訓練的模型在訓練集上很容易就擬合出來,所以誤差很小,隨著訓練樣本的增加,誤差也隨之增加;對於驗證集,由於最開始的樣本很少,泛化能力很差,所以誤差很高,隨著樣本的增加,驗證集的效果越來越好。

吳恩達機器學習筆記 —— 11 應用機器學習的建議

針對於高偏差的情況,由於多項式維度很低,所以擬合出來的是一條直線。因此隨著樣本的增加,訓練集的誤差也會增加,但是最後會趨於穩定。此時,增加樣本數量並沒有什麼作用。

吳恩達機器學習筆記 —— 11 應用機器學習的建議

針對於高方差的情況,增加樣本則會幫助模型擬合的更好。

吳恩達機器學習筆記 —— 11 應用機器學習的建議

相關文章