吳恩達機器學習系列14:偏差與方差

SuperFeng發表於2019-03-31

在訓練機器學習模型中,結果不能被很好地預測通常是因為高偏差(欠擬合)高方差(過擬合)。把交叉驗證集的代價函式和測試集的代價函式畫在一個影象中:

未命名圖片.png

左面紅色部分為高偏差(欠擬合),右邊紅色部分為高方差(過擬合)。


對於如下模型,線性迴歸正則化的代價函式為:未命名圖片.png

其中藍色框為正則化項,λ 越大,代表對引數的懲罰就越大。


訓練集代價函式  J_train (θ) 交叉驗證集代價函式 J_cv (θ) 測試集代價函式 J_test (θ) 不需要加正則化項,如下:

未命名圖片.png


對於正則化代價函式,通過不同的 λ 值計算出引數集 θ,然後計算出相應的交叉驗證集代價函式 J_cv (θ) 和測試集代價函式 J_test (θ)

未命名圖片.png

將它們畫在一張影象中:

未命名圖片.png

你會發現,隨著 λ 增加, J_test (θ) 在不斷增大,也就是說擬合程度越來越差。λ 剛開始增加時, J_cv (θ) 先減小,表示正則化優化了多項式的擬合,泛化程度較好;但隨著 λ 不斷增加,多項式對資料的擬合也會越來越差。通過這個影象,就可以找出最佳擬合的位置。



ps. 本篇文章是根據吳恩達機器學習課程整理的學習筆記。如果想要一起學習機器學習,可以關注微信公眾號「SuperFeng」,期待與你的相遇。

請關注公眾號.PNG

相關文章