資料預處理

資料中不同特徵的量綱可能不一致，數值間的差別可能很大，不進行處理可能會影響到資料分析的結果，因此，需要對資料按照一定比例進行縮放，使之落在一個特定的區域，便於進行綜合分析。

常用的方法有兩種：

最大 - 最小規範化：對原始資料進行線性變換，將資料對映到[0,1]區間

Z-Score標準化：將原始資料對映到均值為0、標準差為1的分佈上

為什麼要標準化/歸一化？

提升模型精度：標準化/歸一化後，不同維度之間的特徵在數值上有一定比較性，可以大大提高分類器的準確性。

加速模型收斂：標準化/歸一化後，最優解的尋優過程明顯會變得平緩，更容易正確的收斂到最優解。

如下圖所示：

哪些機器學習演算法需要標準化和歸一化

1）需要使用梯度下降和計算距離的模型要做歸一化，因為不做歸一化會使收斂的路徑程z字型下降，導致收斂路徑太慢，而且不容易找到最優解，歸一化之後加快了梯度下降求最優解的速度，並有可能提高精度。比如說線性迴歸、邏輯迴歸、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要計算距離的模型需要做歸一化，比如說KNN、KMeans等。

2）機率模型、樹形結構模型不需要歸一化，因為它們不關心變數的值，而是關心變數的分佈和變數之間的條件機率，如決策樹、隨機森林。

徹底理解標準化和歸一化

示例資料集包含一個自變數（已購買）和三個因變數（國家，年齡和薪水），可以看出用薪水範圍比年齡寬的多，如果直接將資料用於機器學習模型（比如KNN、KMeans），模型將完全有薪水主導。

#匯入資料


import numpy 
as np

import matplotlib.pyplot 
as plt

import pandas 
as pd

df = pd.read_csv(
'Data.csv')

缺失值均值填充,處理字元型變數

df[
'Salary'].fillna((df[
'Salary'].mean()), inplace= 
True)

df[
'Age'].fillna((df[
'Age'].mean()), inplace= 
True)

df[
'Purchased'] = df[
'Purchased'].apply(
lambda x: 
0 
if x==
'No' 
else 
1)

df=pd.get_dummies(data=df, columns=[
'Country'])

最大 - 最小規範化


from sklearn.preprocessing 
import MinMaxScaler

scaler = MinMaxScaler()

scaler.fit(df)

scaled_features = scaler.transform(df)

df_MinMax = pd.DataFrame(data=scaled_features, columns=[
"Age", 
"Salary",
"Purchased",
"Country_France",
"Country_Germany", 
"Country_spain"])

Z-Score標準化


from sklearn.preprocessing 
import StandardScaler

sc_X = StandardScaler()

sc_X = sc_X.fit_transform(df)

sc_X = pd.DataFrame(data=sc_X, columns=[
"Age", 
"Salary",
"Purchased",
"Country_France",
"Country_Germany", 
"Country_spain"])


import seaborn 
as sns

import matplotlib.pyplot 
as plt

import statistics

plt.rcParams[
'font.sans-serif'] = [
'Microsoft YaHei']

fig,axes=plt.subplots(
2,
3,figsize=(
18,
12)) 

sns.distplot(df[
'Age'], ax=axes[
0, 
0])

sns.distplot(df_MinMax[
'Age'], ax=axes[
0, 
1])

axes[
0, 
1].set_title(
'歸一化方差：% s '% (statistics.stdev(df_MinMax[
'Age'])))

sns.distplot(sc_X[
'Age'], ax=axes[
0, 
2])

axes[
0, 
2].set_title(
'標準化方差：% s '% (statistics.stdev(sc_X[
'Age'])))

sns.distplot(df[
'Salary'], ax=axes[
1, 
0])

sns.distplot(df_MinMax[
'Salary'], ax=axes[
1, 
1])

axes[
1, 
1].set_title(
'MinMax：Salary')

axes[
1, 
1].set_title(
'歸一化方差：% s '% (statistics.stdev(df_MinMax[
'Salary'])))

sns.distplot(sc_X[
'Salary'], ax=axes[
1, 
2])

axes[
1, 
2].set_title(
'StandardScaler:Salary')

axes[
1, 
2].set_title(
'標準化方差：% s '% (statistics.stdev(sc_X[
'Salary'])))

可以看出歸一化比標準化方法產生的標準差小，使用歸一化來縮放資料，則資料將更集中在均值附近。這是由於歸一化的縮放是“拍扁”統一到區間（僅由極值決定），而標準化的縮放是更加“彈性”和“動態”的，和整體樣本的分佈有很大的關係。所以歸一化不能很好地處理離群值，而標準化對異常值的魯棒性強，在許多情況下，它優於歸一化。

Python資料預處理：徹底理解標準化和歸一化

相關文章