Python資料預處理:徹底理解標準化和歸一化
資料預處理
資料中不同特徵的量綱可能不一致,數值間的差別可能很大,不進行處理可能會影響到資料分析的結果,因此,需要對資料按照一定比例進行縮放,使之落在一個特定的區域,便於進行綜合分析。
常用的方法有兩種:
最大 - 最小規範化:對原始資料進行線性變換,將資料對映到[0,1]區間
Z-Score標準化:將原始資料對映到均值為0、標準差為1的分佈上
為什麼要標準化/歸一化?
提升模型精度:標準化/歸一化後,不同維度之間的特徵在數值上有一定比較性,可以大大提高分類器的準確性。
加速模型收斂:標準化/歸一化後,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解。
如下圖所示:
哪些機器學習演算法需要標準化和歸一化
1)需要使用梯度下降和計算距離的模型要做歸一化,因為不做歸一化會使收斂的路徑程z字型下降,導致收斂路徑太慢,而且不容易找到最優解,歸一化之後加快了梯度下降求最優解的速度,並有可能提高精度。比如說線性迴歸、邏輯迴歸、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要計算距離的模型需要做歸一化,比如說KNN、KMeans等。
2)機率模型、樹形結構模型不需要歸一化,因為它們不關心變數的值,而是關心變數的分佈和變數之間的條件機率,如決策樹、隨機森林。
徹底理解標準化和歸一化
示例資料集包含一個自變數(已購買)和三個因變數(國家,年齡和薪水),可以看出用薪水範圍比年齡寬的多,如果直接將資料用於機器學習模型(比如KNN、KMeans),模型將完全有薪水主導。
#匯入資料
import numpy
as np
import matplotlib.pyplot
as plt
import pandas
as pd
df = pd.read_csv(
'Data.csv')
缺失值均值填充,處理字元型變數
df[
'Salary'].fillna((df[
'Salary'].mean()), inplace=
True)
df[
'Age'].fillna((df[
'Age'].mean()), inplace=
True)
df[
'Purchased'] = df[
'Purchased'].apply(
lambda x:
0
if x==
'No'
else
1)
df=pd.get_dummies(data=df, columns=[
'Country'])
最大 - 最小規範化
from sklearn.preprocessing
import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(df)
scaled_features = scaler.transform(df)
df_MinMax = pd.DataFrame(data=scaled_features, columns=[
"Age",
"Salary",
"Purchased",
"Country_France",
"Country_Germany",
"Country_spain"])
Z-Score標準化
from sklearn.preprocessing
import StandardScaler
sc_X = StandardScaler()
sc_X = sc_X.fit_transform(df)
sc_X = pd.DataFrame(data=sc_X, columns=[
"Age",
"Salary",
"Purchased",
"Country_France",
"Country_Germany",
"Country_spain"])
import seaborn
as sns
import matplotlib.pyplot
as plt
import statistics
plt.rcParams[
'font.sans-serif'] = [
'Microsoft YaHei']
fig,axes=plt.subplots(
2,
3,figsize=(
18,
12))
sns.distplot(df[
'Age'], ax=axes[
0,
0])
sns.distplot(df_MinMax[
'Age'], ax=axes[
0,
1])
axes[
0,
1].set_title(
'歸一化方差:% s '% (statistics.stdev(df_MinMax[
'Age'])))
sns.distplot(sc_X[
'Age'], ax=axes[
0,
2])
axes[
0,
2].set_title(
'標準化方差:% s '% (statistics.stdev(sc_X[
'Age'])))
sns.distplot(df[
'Salary'], ax=axes[
1,
0])
sns.distplot(df_MinMax[
'Salary'], ax=axes[
1,
1])
axes[
1,
1].set_title(
'MinMax:Salary')
axes[
1,
1].set_title(
'歸一化方差:% s '% (statistics.stdev(df_MinMax[
'Salary'])))
sns.distplot(sc_X[
'Salary'], ax=axes[
1,
2])
axes[
1,
2].set_title(
'StandardScaler:Salary')
axes[
1,
2].set_title(
'標準化方差:% s '% (statistics.stdev(sc_X[
'Salary'])))
可以看出歸一化比標準化方法產生的標準差小,使用歸一化來縮放資料,則資料將更集中在均值附近。這是由於歸一化的縮放是“拍扁”統一到區間(僅由極值決定),而標準化的縮放是更加“彈性”和“動態”的,和整體樣本的分佈有很大的關係。所以歸一化不能很好地處理離群值,而標準化對異常值的魯棒性強,在許多情況下,它優於歸一化。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69923331/viewspace-2703288/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 特徵預處理之歸一化&標準化特徵
- 關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化
- Sklearn之資料預處理——StandardScaler歸一化
- 資料變換-歸一化與標準化
- Python資料預處理:Dask和Numba並行化加速!Python並行
- 對比歸一化和標準化 —— 量化分析
- 【scikit-learn基礎】--『預處理』之 標準化
- Python資料處理從零開始----第三章(pandas)③資料標準化Python
- 資料預處理-資料歸約
- CANN訓練:模型推理時資料預處理方法及歸一化引數計算模型
- Python自動化處理Excel資料PythonExcel
- 資料歸一化
- 關於收集,標準化和集中化處理 Golang 日誌的一些建議Golang
- 什麼是機器學習的特徵工程?【資料集特徵抽取(字典,文字TF-Idf)、特徵預處理(標準化,歸一化)、特徵降維(低方差,相關係數,PCA)】機器學習特徵工程PCA
- 10 分鐘徹底理解 Redis 的持久化和主從複製Redis持久化
- Profile標準化資料庫管理資料庫
- 一題帶你徹底理解sleep()和wait()AI
- 資料預處理和特徵工程特徵工程
- 【DL-CV】資料預處理&權重初始化
- 一文詳解特徵縮放、標準化、歸一化的定義、區別、特點和作用特徵
- Python常用標準庫(pickle序列化和JSON序列化)PythonJSON
- 分散式OLTP資料庫發展趨勢(一):徹底去中心化分散式資料庫中心化
- 資料標準化遇到的問題
- 使用Profile標準化資料庫管理資料庫
- 談談資料資產化的關鍵:資料資產標準化
- 徹底理解ReentrantLockReentrantLock
- 徹底理解volatile
- 徹底理解synchronizedsynchronized
- 資料預處理
- 百億級資料處理優化優化
- 一文帶你徹底瞭解大資料處理引擎Flink記憶體管理大資料記憶體
- 深度學習煉丹-資料標準化深度學習
- 一文讓你徹底理解 Java HashMap 和 ConcurrentHashMapJavaHashMap
- 雲端計算暴露資料處理缺乏和安全實踐標準缺陷
- 資料預處理(資料清洗)的一般方法及python實現Python
- Python資料處理(二):處理 Excel 資料PythonExcel
- 【一文秒懂】帶你徹底搞懂正規化與反正規化資料庫設計資料庫
- 模型訓練:資料預處理和預載入模型