在機器學習教學實踐中,我們常會遇到這樣一個問題:"模型表現非常出色,準確率超過90%!但當將其提交到隱藏資料集進行測試時,效果卻大打折扣。問題出在哪裡?"這種情況幾乎總是與資料洩露有關。
當測試資料在資料準備階段無意中洩露(滲透)到訓練資料時,就會發生資料洩露。這種情況經常出現在常規資料處理任務中,而你可能並未察覺。當洩露發生時,模型會從本不應看到的測試資料中學習,導致測試結果失真。
資料洩露的定義
資料洩露是機器學習中的一個常見問題,發生在不應被模型看到的資料(如測試資料或未來資料)意外地被用於訓練模型時。這可能導致模型過擬合,並在新的、未見資料上表現不佳。
https://avoid.overfit.cn/post/b33fb13c677243ada1a713ad7e0e3d17