**【求助】關於抽樣和標準化的問題**
抽樣可劃分 訓練集 和 驗證集,具體到某一個連續型的數值變數,通過還要經過標準化的過程,這裡以0-1標準化為例,描述了三種抽樣和標準化的做法思路。這裡要指出,三種思路都有問題,因此想請教更好的做法,或者目前信貸建模領域通常的做法。
第1種,總體先抽樣,再將訓練集和驗證集分別進行標準化,問題顯而易見,由訓練集得出的模型,會與驗證集標準化後的資料標準不一致;
第2種,總體先抽樣,將訓練集標準化,並以標準化後的最大值最小值應用到驗證集上,這應該是目前程式種的主流做法,但問題也顯而易見,訓練集和驗證集畢竟是兩個資料集,最大值和最小值是不一樣的,因此會出現驗證集標準化結果超出0-1範圍的情況;
第3種,總體先進行標準化,然後在進行抽樣,這樣的好處是避免了第2種方式的問題,訓練集和驗證集,在一個標準化的條件下參與建模。但問題依舊,比如新來一批資料,完全有可能在舊總體之外,那麼也會出現超出0-1範圍的可能。
希望不吝賜教,謝謝
相關文章
- [提問交流]關於Jquery Append鉤子的問題,大神求助!jQueryAPP
- 資料標準化遇到的問題
- 求助!關於npm install 老是出現這個問題NPM
- 關於AI數學和科學標準化測試的綜述AI
- 關於 a 標籤跳轉問題
- 關於a標籤的字型顏色問題
- 關於二維陣列指標的問題陣列指標
- 問題定級標準
- 關於 Angular 應用 Components 和 Directives 的例項化問題Angular
- 關於收集,標準化和集中化處理 Golang 日誌的一些建議Golang
- 關於問問題和時間管理的感悟
- 關於vue的webpack打包優化問題VueWeb優化
- [20211220]關於標量子查詢問題.txt
- 關於QT的標頭檔案相互包含的問題QT
- 關於setInterval和setTImeout中的this指向問題
- 關於 SAP Spartacus 和 SmartEdit 整合的問題
- 過分標準化可要小心,這樣做可能會導致效能上出現問題。
- 怎樣成為解決問題的高手?——關於問題解決的關鍵4步驟
- 關於C++當中的指標懸空問題C++指標
- 關於Jmeter引數化的編碼問題JMeter
- 關於this指向的問題
- 關於html的a標籤的target="__blank "的安全漏洞問題HTML
- 關於HTTP和HTTPS常見問題HTTP
- 關於UINavigationBar和UITabBar的translucent屬性的問題UINavigationtabBar
- go熱更新問題求助Go
- SAE安裝問題,求助
- Composer 使用遇到問題求助
- [20180819]關於父子游標問題(11g).txt
- 【求助各位大佬】【急】pytest 動態引數化遇到的問題
- 求助!使用 appium2.0 版本時,driver.close() 和.quit() 關閉應用失效的問題!APPUI
- 關於 Puerts 的效能問題
- 關於DrawerLayout的小問題
- 關於javascript的this指向問題JavaScript
- 關於盒模型相關的問題模型
- 關於element ui input標籤的改造樣式UI
- 關於qq音樂audio標籤裡src的獲取問題
- 關於Linux一些問題和答案Linux
- 迴歸測試遇到的問題求助