機器學習之模型選擇

Galois發表於2020-02-14

模型選擇

在選擇模型時,我們將資料分為的 3 個不同部分:

  • 訓練集:模型訓練,一般資料集中的 80
  • 驗證集:模型評估,一般資料集中的 20,又叫做留出集或開發集
  • 測試集:模型預測,未知資料
    一旦選擇了模型,就會在整個資料集上進行訓練,並在測試集上進行測試。如下圖所示:

機器學習之模型選擇

交叉驗證

交叉驗證,記為 CV,是一種不必特別依賴於初始訓練集的模型選擇方法。下表彙總了 幾種不同的方式:

機器學習之模型選擇
最常用的模型選擇方法是 k折交叉驗證,將訓練集劃分為 k 個子集,在 k − 1 個子集上訓練模型,在剩 餘的一個子集上評估模型,用這種劃分方式重複訓練k次。交叉驗證損失是 k 次 k 折交叉驗證的損失均值。

機器學習之模型選擇

正則化

正則化方法可以解決高方差問題,避免模型對於訓練資料產生過擬合。下表展示了常用的正則化方法:

機器學習之模型選擇

本作品採用《CC 協議》,轉載必須註明作者和本文連結

不要試圖用百米衝刺的方法完成馬拉松比賽。

相關文章