Python資料預處理:徹底理解標準化和歸一化

千鋒Python唐小強發表於2020-07-08

資料預處理

資料中不同特徵的量綱可能不一致,數值間的差別可能很大,不進行處理可能會影響到資料分析的結果,因此,需要對資料按照一定比例進行縮放,使之落在一個特定的區域,便於進行綜合分析。

常用的方法有兩種:

最大 - 最小規範化:對原始資料進行線性變換,將資料對映到[0,1]區間

Python資料預處理:徹底理解標準化和歸一化

Z-Score標準化:將原始資料對映到均值為0、標準差為1的分佈上

Python資料預處理:徹底理解標準化和歸一化

為什麼要標準化/歸一化?

提升模型精度:標準化/歸一化後,不同維度之間的特徵在數值上有一定比較性,可以大大提高分類器的準確性。

加速模型收斂:標準化/歸一化後,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解。

如下圖所示:

Python資料預處理:徹底理解標準化和歸一化

Python資料預處理:徹底理解標準化和歸一化

哪些機器學習演算法需要標準化和歸一化

1)需要使用梯度下降和計算距離的模型要做歸一化,因為不做歸一化會使收斂的路徑程z字型下降,導致收斂路徑太慢,而且不容易找到最優解,歸一化之後加快了梯度下降求最優解的速度,並有可能提高精度。比如說線性迴歸、邏輯迴歸、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要計算距離的模型需要做歸一化,比如說KNN、KMeans等。

2)機率模型、樹形結構模型不需要歸一化,因為它們不關心變數的值,而是關心變數的分佈和變數之間的條件機率,如決策樹、隨機森林。

Python資料預處理:徹底理解標準化和歸一化

徹底理解標準化和歸一化

Python資料預處理:徹底理解標準化和歸一化

示例資料集包含一個自變數(已購買)和三個因變數(國家,年齡和薪水),可以看出用薪水範圍比年齡寬的多,如果直接將資料用於機器學習模型(比如KNN、KMeans),模型將完全有薪水主導。

#匯入資料

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
df = pd.read_csv( 'Data.csv')

缺失值均值填充,處理字元型變數

df[
'Salary'].fillna((df[
'Salary'].mean()), inplace= 
True)

df[ 'Age'].fillna((df[ 'Age'].mean()), inplace= True)
df[ 'Purchased'] = df[ 'Purchased'].apply( lambda x: 0 if x== 'No' else 1)
df=pd.get_dummies(data=df, columns=[ 'Country'])
Python資料預處理:徹底理解標準化和歸一化

最大 - 最小規範化


from sklearn.preprocessing 
import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(df)
scaled_features = scaler.transform(df)
df_MinMax = pd.DataFrame(data=scaled_features, columns=[ "Age", "Salary", "Purchased", "Country_France", "Country_Germany", "Country_spain"])
Python資料預處理:徹底理解標準化和歸一化

Z-Score標準化


from sklearn.preprocessing 
import StandardScaler

sc_X = StandardScaler()
sc_X = sc_X.fit_transform(df)
sc_X = pd.DataFrame(data=sc_X, columns=[ "Age", "Salary", "Purchased", "Country_France", "Country_Germany", "Country_spain"])
Python資料預處理:徹底理解標準化和歸一化


import seaborn 
as sns

import matplotlib.pyplot as plt
import statistics
plt.rcParams[ 'font.sans-serif'] = [ 'Microsoft YaHei']
fig,axes=plt.subplots( 2, 3,figsize=( 18, 12))
sns.distplot(df[ 'Age'], ax=axes[ 0, 0])
sns.distplot(df_MinMax[ 'Age'], ax=axes[ 0, 1])
axes[ 0, 1].set_title( '歸一化方差:% s '% (statistics.stdev(df_MinMax[ 'Age'])))
sns.distplot(sc_X[ 'Age'], ax=axes[ 0, 2])
axes[ 0, 2].set_title( '標準化方差:% s '% (statistics.stdev(sc_X[ 'Age'])))
sns.distplot(df[ 'Salary'], ax=axes[ 1, 0])
sns.distplot(df_MinMax[ 'Salary'], ax=axes[ 1, 1])
axes[ 1, 1].set_title( 'MinMax:Salary')
axes[ 1, 1].set_title( '歸一化方差:% s '% (statistics.stdev(df_MinMax[ 'Salary'])))
sns.distplot(sc_X[ 'Salary'], ax=axes[ 1, 2])
axes[ 1, 2].set_title( 'StandardScaler:Salary')
axes[ 1, 2].set_title( '標準化方差:% s '% (statistics.stdev(sc_X[ 'Salary'])))

可以看出歸一化比標準化方法產生的標準差小,使用歸一化來縮放資料,則資料將更集中在均值附近。這是由於歸一化的縮放是“拍扁”統一到區間(僅由極值決定),而標準化的縮放是更加“彈性”和“動態”的,和整體樣本的分佈有很大的關係。所以歸一化不能很好地處理離群值,而標準化對異常值的魯棒性強,在許多情況下,它優於歸一化。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69923331/viewspace-2703288/,如需轉載,請註明出處,否則將追究法律責任。

相關文章