模型選擇
在選擇模型時,我們將資料分為的 3 個不同部分:
- 訓練集:模型訓練,一般資料集中的 80
- 驗證集:模型評估,一般資料集中的 20,又叫做留出集或開發集
- 測試集:模型預測,未知資料
一旦選擇了模型,就會在整個資料集上進行訓練,並在測試集上進行測試。如下圖所示:
交叉驗證
交叉驗證,記為 CV,是一種不必特別依賴於初始訓練集的模型選擇方法。下表彙總了 幾種不同的方式:
最常用的模型選擇方法是 k折交叉驗證,將訓練集劃分為 k 個子集,在 k − 1 個子集上訓練模型,在剩 餘的一個子集上評估模型,用這種劃分方式重複訓練k次。交叉驗證損失是 k 次 k 折交叉驗證的損失均值。
正則化
正則化方法可以解決高方差問題,避免模型對於訓練資料產生過擬合。下表展示了常用的正則化方法:
本作品採用《CC 協議》,轉載必須註明作者和本文連結