**【求助】關於抽樣和標準化的問題**

swustxxl發表於2019-03-17

圖片說明

抽樣可劃分 訓練集 和 驗證集,具體到某一個連續型的數值變數,通過還要經過標準化的過程,這裡以0-1標準化為例,描述了三種抽樣和標準化的做法思路。這裡要指出,三種思路都有問題,因此想請教更好的做法,或者目前信貸建模領域通常的做法。

第1種,總體先抽樣,再將訓練集和驗證集分別進行標準化,問題顯而易見,由訓練集得出的模型,會與驗證集標準化後的資料標準不一致;

第2種,總體先抽樣,將訓練集標準化,並以標準化後的最大值最小值應用到驗證集上,這應該是目前程式種的主流做法,但問題也顯而易見,訓練集和驗證集畢竟是兩個資料集,最大值和最小值是不一樣的,因此會出現驗證集標準化結果超出0-1範圍的情況;

第3種,總體先進行標準化,然後在進行抽樣,這樣的好處是避免了第2種方式的問題,訓練集和驗證集,在一個標準化的條件下參與建模。但問題依舊,比如新來一批資料,完全有可能在舊總體之外,那麼也會出現超出0-1範圍的可能。

希望不吝賜教,謝謝

相關文章