吳恩達機器學習系列14：偏差與方差

在訓練機器學習模型中，結果不能被很好地預測通常是因為高偏差（欠擬合）或高方差（過擬合）。把交叉驗證集的代價函式和測試集的代價函式畫在一個影象中：

左面紅色部分為高偏差（欠擬合），右邊紅色部分為高方差（過擬合）。

對於如下模型，線性迴歸正則化的代價函式為：

其中藍色框為正則化項，λ 越大，代表對引數的懲罰就越大。

訓練集代價函式 J_train (θ) 、交叉驗證集代價函式 J_cv (θ) 和測試集代價函式 J_test (θ) 不需要加正則化項，如下：

對於正則化代價函式，通過不同的 λ 值計算出引數集 θ，然後計算出相應的交叉驗證集代價函式 J_cv (θ) 和測試集代價函式 J_test (θ)。

將它們畫在一張影象中：

你會發現，隨著 λ 增加， J_test (θ) 在不斷增大，也就是說擬合程度越來越差。λ 剛開始增加時， J_cv (θ) 先減小，表示正則化優化了多項式的擬合，泛化程度較好；但隨著 λ 不斷增加，多項式對資料的擬合也會越來越差。通過這個影象，就可以找出最佳擬合的位置。

ps. 本篇文章是根據吳恩達機器學習課程整理的學習筆記。如果想要一起學習機器學習，可以關注微信公眾號「SuperFeng」，期待與你的相遇。

相關文章