機器學習之資料集的劃分

通常將資料集劃分為三個子集 ( 如下圖所示 ) ,您可以大幅降低過擬合的發生機率:

圖 2.將單個資料集劃分為三個子集

使用驗證集評估訓練集的效果.然後, 在模型“通過”驗證集之後,使用測試集再次檢查評估結果. 下圖展示了這一新工作流程:

圖 3.更好的工作流程

在這一經過改進的工作流程中:
1.選擇在驗證集上獲得最佳效果的模型.
2.使用測試集再次核查該模型.
該工作流程之所以更好, 原因在於它報漏給測試集的資訊更少.
注意:
不斷使用測試集和驗證集會使其逐漸失去效果.也就是說, 您使用相同的資料來決定超引數設定或其他模型改進的次數越多, 您對於這些結果能夠真正的泛化到未見過的新資料的信心就越低.請注意, 驗證集的失效速度通常比測試集緩慢.
如果可能的話, 建議您收集更多的資料來“重新整理”測試集和驗證集.重新開始是一種很好的重置方式.

本作品採用《CC 協議》，轉載必須註明作者和本文連結

Hacking

深度學習（一）之MNIST資料集分類
2022-03-18
深度學習
機器學習之清理資料
2020-06-16
機器學習
機器學習筆記——資料集分割
2018-09-25
機器學習筆記
33個機器學習常用資料集
2019-04-19
機器學習
分散式機器學習常用資料集
2021-11-28
分散式機器學習
機器學習中的有標註資料集和無標註資料集
2023-05-08
機器學習
最強資料集集合：50個最佳機器學習公共資料集
2018-11-08
機器學習
祕籍 | 機器學習資料集網址大全
2019-01-27
機器學習
訓練機器學習的資料集大小很重要 - svpino
2021-04-23
機器學習
機器學習高質量資料集大合輯
2018-10-24
機器學習
機器學習的訓練集
2021-02-05
機器學習
機器學習實戰原始碼和資料集下載
2018-07-18
機器學習原始碼
機器學習-資料清洗
2019-03-02
機器學習
機器學習大資料
2019-05-10
機器學習大資料
機器學習策略篇：詳解訓練/開發/測試集劃分（Train/dev/test distributions）
2024-03-04
機器學習AIdev
機器學習演算法（五）：基於企鵝資料集的決策樹分類預測
2023-03-25
機器學習演算法
在大型金融資料集上使用機器學習的特徵工程測試
2018-09-23
機器學習特徵工程
一個真實資料集的完整機器學習解決方案（上）
2020-12-15
機器學習
一個真實資料集的完整機器學習解決方案（下）
2020-12-18
機器學習
吳恩達機器學習作業程式碼和資料集
2020-11-27
吳恩達機器學習
【機器學習】--Python機器學習庫之Numpy
2018-04-06
機器學習Python
機器學習之學習速率
2020-06-12
機器學習
機器學習入門規劃
2020-10-11
機器學習
機器學習-- 資料轉換
2018-11-17
機器學習
機器學習之樸素貝葉斯分類
2019-02-28
機器學習
做資料分析需要學習機器學習嗎？
2020-01-15
機器學習
6種方式處理機器學習中不平衡的資料集 - svpino
2021-07-08
機器學習
機器學習筆記 - Pascal VOC資料集使用FCN語義分割
2021-08-18
機器學習筆記
[大資料][機器學習]之Model Card（模型卡片）介紹
2024-07-09
大資料機器學習模型
資料的採集，清洗，資料機器自動標註及轉化為深度學習格式
2018-08-16
深度學習
機器學習之學習曲線
2019-09-18
機器學習
器學習演算法（六）基於天氣資料集的XGBoost分類預測
2023-03-26
演算法
機器學習常用的分類器比較
2018-04-02
機器學習
機器學習之pca
2024-06-17
機器學習PCA
機器學習之皮毛
2021-04-14
機器學習
機器學習 # 為什麼機器學習要求資料是獨立同分布的？
2020-11-26
機器學習
Alink漫談(七) : 如何劃分訓練資料集和測試資料集
2020-06-12
機器學習中資料清洗的藝術
2019-08-23
機器學習

機器學習之資料集的劃分

圖 2.將單個資料集劃分為三個子集

圖 3.更好的工作流程

相關文章