機器學習之資料集的劃分

Lois發表於2020-06-14

通常將資料集劃分為三個子集 ( 如下圖所示 ) ,您可以大幅降低過擬合的發生機率:

圖 2.將單個資料集劃分為三個子集

使用驗證集評估訓練集的效果.然後, 在模型“通過”驗證集之後,使用測試集再次檢查評估結果. 下圖展示了這一新工作流程:

圖 3.更好的工作流程

在這一經過改進的工作流程中:
1.選擇在驗證集上獲得最佳效果的模型.
2.使用測試集再次核查該模型.
該工作流程之所以更好, 原因在於它報漏給測試集的資訊更少.
注意:
不斷使用測試集和驗證集會使其逐漸失去效果.也就是說, 您使用相同的資料來決定超引數設定或其他模型改進的次數越多, 您對於這些結果能夠真正的泛化到未見過的新資料的信心就越低.請注意, 驗證集的失效速度通常比測試集緩慢.
如果可能的話, 建議您收集更多的資料來“重新整理”測試集和驗證集.重新開始是一種很好的重置方式.

本作品採用《CC 協議》,轉載必須註明作者和本文連結

Hacking

相關文章