sklearn中常用資料預處理方法

夜空中最亮的不咚發表於2018-03-27

常見的資料預處理方法，以下通過sklearn的preprocessing模組來介紹;

1. 標準化（Standardization or Mean Removal and Variance Scaling)

變換後各維特徵有0均值，單位方差。也叫z-score規範化（零均值規範化）。計算方式是將特徵值減去均值，除以標準差。

1
複製程式碼

sklearn.preprocessing.scale(X)
複製程式碼

一般會把train和test集放在一起做標準化，或者在train集上做標準化後，用同樣的標準化器去標準化test集，此時可以用scaler

1
2
3
複製程式碼

scaler = sklearn.preprocessing.StandardScaler().fit(train)
scaler.transform(train)
scaler.transform(test)
複製程式碼

實際應用中，需要做特徵標準化的常見情景：SVM

2. 最小-最大規範化

最小-最大規範化對原始資料進行線性變換，變換到[0,1]區間（也可以是其他固定最小最大值的區間）

1
2
複製程式碼

min_max_scaler = sklearn.preprocessing.MinMaxScaler()
min_max_scaler.fit_transform(X_train)
複製程式碼

3.規範化（Normalization）

規範化是將不同變化範圍的值對映到相同的固定範圍，常見的是[0,1]，此時也稱為歸一化。《機器學習》周志華

將每個樣本變換成unit norm。

1
2
複製程式碼

X = [[ 1, -1, 2],[ 2, 0, 0], [ 0, 1, -1]]
sklearn.preprocessing.normalize(X, norm='l2')
複製程式碼

得到：

1
複製程式碼

array([[ 0.40, -0.40, 0.81], [ 1, 0, 0], [ 0, 0.70, -0.70]])
複製程式碼

可以發現對於每一個樣本都有，0.4^2+0.4^2+0.81^2=1,這就是L2 norm，變換後每個樣本的各維特徵的平方和為1。類似地，L1 norm則是變換後每個樣本的各維特徵的絕對值和為1。還有max norm，則是將每個樣本的各維特徵除以該樣本各維特徵的最大值。

在度量樣本之間相似性時，如果使用的是二次型kernel，需要做Normalization

4. 特徵二值化（Binarization）

給定閾值，將特徵轉換為0/1

1
2
複製程式碼

binarizer = sklearn.preprocessing.Binarizer(threshold=1.1)
binarizer.transform(X)
複製程式碼

5. 標籤二值化（Label binarization）

1
複製程式碼

lb = sklearn.preprocessing.LabelBinarizer()
複製程式碼

6. 類別特徵編碼

有時候特徵是類別型的，而一些演算法的輸入必須是數值型，此時需要對其編碼。

1
2
3
複製程式碼

enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
enc.transform([[0, 1, 3]]).toarray()  #array([[ 1., 0., 0., 1., 0., 0., 0., 0., 1.]])
複製程式碼

上面這個例子，第一維特徵有兩種值0和1，用兩位去編碼。第二維用三位，第三維用四位。

7.標籤編碼（Label encoding）

1
2
3
4
5
6
複製程式碼

le = sklearn.preprocessing.LabelEncoder()  
le.fit([1, 2, 2, 6]) 
le.transform([1, 1, 2, 6])  #array([0, 0, 1, 2]) 
#非數值型轉化為數值型
le.fit(["paris", "paris", "tokyo", "amsterdam"])
le.transform(["tokyo", "tokyo", "paris"])  #array([2, 2, 1])
複製程式碼

8.特徵中含異常值時

1
複製程式碼

sklearn.preprocessing.robust_scale
複製程式碼

9.生成多項式特徵

這個其實涉及到特徵工程了，多項式特徵/交叉特徵。

1
2
複製程式碼

poly = sklearn.preprocessing.PolynomialFeatures(2)
poly.fit_transform(X)
複製程式碼

原始特徵：

轉化後：

文字資料預處理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer
2018-09-13
ORM
sklearn 第二篇：資料預處理
2019-07-30
Sklearn之資料預處理——StandardScaler歸一化
2020-10-18
sklearn基礎及資料處理
2019-09-03
資料預處理方法彙總
2020-03-16
機器學習第4篇：資料預處理（sklearn 插補缺失值）
2020-12-29
機器學習
資料預處理
2021-09-09
資料分析--資料預處理
2023-12-14
資料預處理-資料清理
2020-01-19
資料預處理 demo
2020-02-19
Pandas多維特徵資料預處理及sklearn資料不均衡處理相關技術實踐-大資料ML樣本集案例實戰
2018-12-19
特徵大資料
資料清洗處理-常用操作
2020-03-24
大資料常用處理框架
2020-12-22
大資料框架
資料預處理-資料歸約
2020-01-19
js中我最常用的幾種遍歷處理資料的方法梳理
2018-05-11
JS
關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化
2018-03-27
nlp 中文資料預處理
2019-12-02
TANet資料預處理流程
2020-10-07
影像預處理方法
2018-10-08
資料預處理和特徵工程
2020-07-24
特徵工程
深度學習--資料預處理
2024-07-28
深度學習
資料預處理（資料清洗）的一般方法及python實現
2019-01-28
Python
處理恢復資料方法
2019-12-25
JavaScript常用的字串處理方法
2019-12-10
JavaScript字串
資料預處理-資料整合與資料變換
2020-01-19
詳解AI開發中的資料預處理(清洗)
2023-03-27
AI
特徵工程之資料預處理（下）
2019-02-13
特徵工程
資料預處理之 pandas 讀表
2020-03-01
人工智慧 (01) 資料預處理
2019-12-18
人工智慧
深度學習——資料預處理篇
2019-02-18
深度學習
資料預處理利器 Amazon Glue DataBrew
2022-05-31
NUS-WIDE資料集預處理
2020-11-24
IDE
pandas 資料處理一些常用操作
2023-05-15
模型訓練：資料預處理和預載入
2020-10-27
模型
機器學習：探索資料和資料預處理
2020-12-13
機器學習
機器學習一：資料預處理
2019-02-27
機器學習
影像資料不足時的處理方法
2019-03-04
萬字詳解AI開發中的資料預處理(清洗)
2023-03-27
AI