先有雞or先有蛋？淺談資料拆分與特徵縮放的順序問題

wengJJ發表於2018-08-30

原文網址 : https://www.jiqizhixin.com/articles/2018-08-30-10

前些天在 100-Days-Of-ML-Code 上回答了一個關於資料拆分與特徵縮放的順序先後的一個issue，感覺挺有爭議性的，故單獨拎出來做下筆記說明。我的觀點是：機器學習工程中，應該先進行資料劃分，再進行特徵縮放。出於嚴謹性，本篇文章是從機器學習-資料探勘方面進行資料拆分與特徵縮放的順序問題闡述，同時也歡迎大家一起討論這個問題。

問題闡述

關於資料拆分與特徵縮放的順序先後問題，一般會在工程中遇到，具體表現為：

先資料拆分再特徵縮放

from sklearn.preprocessing import StandardScaler,MinMaxScaler
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.1)
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

先資料縮放再資料拆分

from sklearn.preprocessing import StandardScaler,MinMaxScaler
sc = StandardScaler()
X_transform = sc.fit_transform(X)
X_train,X_test,y_train,y_test = train_test_split(X_transform,y,test_size=0.1)

論點闡述

首先先來看下我們常用的兩種 sklearn 上的特徵縮放：StandardScaler()與MinMaxScaler()

先有雞or先有蛋？淺談資料拆分與特徵縮放的順序問題

從圖中可以看出StandardScalar涉及到了均值μ與標準差σ，而MinMaxScaler則涉及到了最大值max與最小值min。這些引數的取值都得考慮到全域性樣本的，什麼意思呢？我們來看下兩者的輸出結果：

先資料拆分再特徵縮放先資料縮放再資料拆分

先有雞or先有蛋？淺談資料拆分與特徵縮放的順序問題

可以很明顯看出，兩種不同的操作順序輸出的資料是完全不同的，也就是說樣本的分佈是完全不同的(很重要！後面闡述要用到)，那這種差異性在現實工程中會有什麼影響？要解答這個問題，首先我們首先需要了解fit_transform()方法，fit_transform()你可以理解為fit()方法和transform()方法的pipeline，進行特徵縮放時我們的順序是

先fit獲得相應的引數值（可以理解為獲得特徵縮放規則）
再用transform進行轉換

fit_transform方法就是先執行fit()方法再執行transform()方法，所以每執行一次就會採用新的特徵縮放規則，我們可以將訓練集的特徵縮放規則應用到測試集上，可以將測試集的特徵縮放規則應用到訓練集上(不過一般很少這麼做)，但是通過全部資料集(訓練集+測試集)fit到的的特徵縮放規則是沒有模型訓練意義的。

這裡我們舉一個例子：假設農業部要求我們用LR模型來對花型別進行分類，我們經過學習得到了一個LR模型，模型上線後，現在需要對新的花資料進行預測分類（此時我們可以把舊花資料看做訓練集，新花資料看做測試集）：

按照先資料拆分再特徵縮放的做法是：先將舊花資料fit出特徵縮放規則，接著將其transform到新花資料上，接著對應用舊花資料特徵縮放規則的新花資料進行預測分類；
按照先資料縮放再資料拆分的做法是：將新舊花資料合併為一個總資料集，接著對總資料集進行fit_transform操作，最後再把新花資料切分出來進行預測分類；

重點！！！

這時候問題來了，“我們經過學習得到了一個LR模型”，請問我們學習的資料是什麼？舊花資料 OR 新舊花合併資料？答案肯定是舊花資料啊，更為詳細地講，是應用舊花資料特徵縮放規則的舊花資料，這時候第二種做法的問題就出來了，我們這個LR模型是根據應用舊花資料特徵縮放規則的舊花資料的分佈學習到的這條分類線

先有雞or先有蛋？淺談資料拆分與特徵縮放的順序問題

而此時你卻將這條分類線去應用在應用新舊花資料特徵縮放規則的新花資料上，根據上方我們得到的論點“兩種不同的操作順序輸出的樣本的分佈是完全不同”，兩種完全不同的分佈，你用根據其中一種分佈學習得到分類線對另一種分佈來說是完全沒有使用意義的，因為兩者根本可以說是根據不同的資料學習而來的，所以有些時候第二種做法效果可能會很好也可能會很糟糕，這就像你拿牛資料學習的LR模型去預測花的分類一樣。而機器學習的前身就是統計學，而統計學的一個樣本基本原則就是樣本同質性（homogenetic）。

總結

>>> from sklearn.datasets import load_iris
>>> from sklearn.model_selection import train_test_split
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
>>> quantile_transformer = preprocessing.QuantileTransformer(random_state=0)
>>> X_train_trans = quantile_transformer.fit_transform(X_train)
>>> X_test_trans = quantile_transformer.transform(X_test)
>>> np.percentile(X_train[:, 0], [0, 25, 50, 75, 100]) 
array([ 4.3,  5.1,  5.8,  6.5,  7.9])

這裡我貼的是sklearn的一段官方demo程式碼，可以看出sklearn的演示程式碼也是遵從先資料拆分再特徵縮放的順序進行的操作，先fit到X_train的特徵縮放規則，再將其應用在X_test上，這也從一個小方面驗證了我的觀點吧(雖然我也不喜歡不嚴謹的舉例論證方法)。所以綜上所述，我的觀點是在進行資料探勘方面的工作時，面對特徵縮放環節，應該先進行資料拆分再進行特徵縮放。

才學疏淺，歡迎評論指導

歡迎前往我的個人小站：www.wengjj.ink

先有雞還是先有蛋？這是領域驅動設計落地最大的困局
2024-07-09
JAVA 雞蛋問題
2020-10-22
Java
製作遊戲是先有劇本還是先有地圖、場景等內容？
2023-04-26
遊戲地圖
rvest爬取雞蛋期貨資料（遇到的問題）
2018-05-20
Java謎題6：雞與蛋
2019-09-23
Java
如何克服 Apache Kafka中的資料順序問題 - DATAVERSITY
2021-10-14
ApacheKafka
Alink漫談(九) ：特徵工程之特徵雜湊/標準化縮放
2020-07-04
特徵工程
Java謎題6：雞與蛋-解決方案
2019-09-23
Java
資料結構實驗一：順序表的建立與操作實現、順序表實現約瑟夫環問題
2018-04-01
資料結構
google經典演算法面試題-雞蛋問題
2019-02-03
Go演算法面試題
Jetpack Compose的Modifier順序問題
2021-12-19
Jetpack
MapStruct與lombok載入順序問題與annotationProcessorPaths的關係？
2022-12-04
StructLombok
淺談Java類中的變數初始化順序
2021-08-04
Java變數
欲成大器，先有格局——隋廣義先生的人生格局觀
2022-06-07
php與資料庫連線如何實現資料的順序和倒序
2020-11-05
PHP資料庫
mysql order by 和 group by 順序問題
2018-09-12
MySql
移動端順序問題上
2020-09-29
[國集論文筆記] 淺談保序迴歸問題
2021-03-13
筆記
淺談偏序
2024-08-15
【進階5-3期】深入探究 Function & Object 雞蛋問題
2019-04-16
FunctionObject
雞蛋期貨
2024-10-07
淺談 js 中的 this 指向問題
2019-03-07
JS
MySQL：讀取my.cnf的順序問題
2021-02-16
MySql
SQL語句中的AND和OR執行順序問題
2020-11-26
SQL
Python | 淺談併發鎖與死鎖問題
2020-08-14
Python
動態規劃法（六）雞蛋掉落問題（一）（egg dropping problem）
2018-06-05
動態規劃
順序刷題
2020-12-04
順序表有序插入資料
2020-06-21
淺談hdfs架構與資料流
2018-11-15
架構
FrameLayout裡有CardView造成的顯示順序問題
2019-01-08
View
SQL Server資料庫調整表中列的順序操作方法及遇到問題
2018-12-08
SQLServer資料庫
淺談SQL Server中的快照問題
2021-09-09
SQLServer
淺談深度學習的落地問題
2021-02-21
深度學習
函式宣告與變數宣告的提升機制優先順序問題
2019-03-11
函式變數
SQL中rownum和order by的執行順序的問題
2018-04-18
SQL
35面試常問：談談為什麼要拆分資料庫？有哪些方法？
2020-11-13
面試資料庫
漫談“資料拆分層次對比”
2023-02-16
一篇文章帶你搞定經典面試題之扔雞蛋問題
2019-02-16
面試題

先有雞or先有蛋？淺談資料拆分與特徵縮放的順序問題

問題闡述

論點闡述

先資料拆分再特徵縮放先資料縮放再資料拆分

總結

相關文章