特徵預處理之歸一化&標準化

noor9發表於2021-01-23

原文網址 : https://www.cnblogs.com/xp-thebest/p/14319425.html

特徵

寫在前面

這篇部落格的主要內容

應用MinMaxScaler實現對特徵資料進行歸一化
應用StandardScaler實現對特徵資料進行標準化

特徵預處理

定義

通過一些轉換函式將特徵資料轉換成更加適合演算法模型的特徵資料過程

特徵預處理API

sklearn.preprocessing

為什麼要進行歸一化/標準化？

特徵的單位或者大小相差較大，或者某特徵的方差相比其他的特徵要大出幾個數量級，容易影響（支配）目標結果，使得一些演算法無法學習到其它的特徵

歸一化

定義

通過對原始資料進行變換把資料對映到(預設為[0,1])之間

歸一化公式

作用於每一列，max為一列的最大值，min為一列的最小值,那麼X’’為最終結果，mx，mi分別為指定區間值預設mx為1,mi為0

API

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )
- MinMaxScalar.fit_transform(X)
  - X:numpy array格式的資料[n_samples,n_features]
- 返回值：轉換後的形狀相同的array

資料

milage,Liters,Consumtime,target
40920,8.326976,0.953952,3
14488,7.153469,1.673904,2
26052,1.441871,0.805124,1
75136,13.147394,0.428964,1
38344,1.669788,0.134296,1

程式碼

from sklearn.preprocessing import MinMaxScaler
import pandas as pd
def minmax_demo():
    data = pd.read_csv("dating.txt")
    print(data)
    # 1、例項化一個轉換器類
    transfer = MinMaxScaler(feature_range=(2, 3))
    # 2、呼叫fit_transform
    data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
    print("最小值最大值歸一化處理的結果：\n", data)

    return None

結果

歸一化執行結果

標準化

定義

通過對原始資料進行變換把資料變換到均值為0,標準差為1範圍內

標準化公式

作用於每一列，mean為平均值，σ為標準差

API

sklearn.preprocessing.StandardScaler( )
- 處理之後每列來說所有資料都聚集在均值0附近標準差差為1
- StandardScaler.fit_transform(X)
  - X:numpy array格式的資料[n_samples,n_features]
- 返回值：轉換後的形狀相同的array

資料

同上歸一化介紹中使用的資料

程式碼

from sklearn.preprocessing import StandardScaler
import pandas as pd
def stand_demo():
    data = pd.read_csv("dating.txt")
    print(data)
    transfer = StandardScaler()
    data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
    print("標準化的結果：\n",data)
    print("每一列特徵的平均值：\n",transfer.mean_)
    print("每一列特徵的方差：\n",transfer.var_)
    return None

執行結果

標準化執行結果

Python資料預處理：徹底理解標準化和歸一化
2020-07-08
Python
關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化
2018-03-27
【scikit-learn基礎】--『預處理』之標準化
2023-12-13
Sklearn之資料預處理——StandardScaler歸一化
2020-10-18
什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】
2022-04-04
機器學習特徵工程PCA
資料變換-歸一化與標準化
2020-11-30
什麼是特徵標準化
2018-04-04
特徵
對比歸一化和標準化 —— 量化分析
2019-04-28
Alink漫談(九) ：特徵工程之特徵雜湊/標準化縮放
2020-07-04
特徵工程
一文詳解特徵縮放、標準化、歸一化的定義、區別、特點和作用
2020-10-25
特徵
為什麼要特徵標準化
2018-04-04
特徵
特徵工程之特徵預處理
2018-05-26
特徵工程
機器學習筆記——特徵標準化
2018-10-24
機器學習筆記特徵
關於收集，標準化和集中化處理 Golang 日誌的一些建議
2020-04-09
Golang
醫學影像預處理之標註
2021-07-03
特徵工程中的「歸一化」有什麼作用
2024-10-28
特徵工程
資料預處理和特徵工程
2020-07-24
特徵工程
【scikit-learn基礎】--『預處理』之正則化
2023-12-18
【scikit-learn基礎】--『預處理』之離散化
2023-12-21
CANN訓練：模型推理時資料預處理方法及歸一化引數計算
2023-04-03
模型
特徵工程之資料預處理（下）
2019-02-13
特徵工程
[Python人工智慧] 六.神經網路的評價指標、特徵標準化和特徵選擇
2018-06-12
Python人工智慧神經網路指標特徵
資料預處理-資料歸約
2020-01-19
Git Commit 標準化
2019-01-23
GitMIT
人工智慧倫理治理標準化指南（2023 版）
2023-09-22
人工智慧
標準化/結構化 JSON 輸出
2018-11-19
JSON
weblogic JDBC標準化效能最佳化
2020-11-06
WebJDBC
影像歸一化
2023-01-09
專欄 | 基於 Jupyter 的特徵工程手冊：資料預處理（一）
2020-04-09
特徵工程
Alink漫談(十) ：線性迴歸實現之資料預處理
2020-07-11
Python資料處理從零開始----第三章（pandas）③資料標準化
2021-09-09
Python
資料歸一化
2020-11-14
批量歸一化BN
2020-11-19
微服務的戰爭：統一且標準化
2020-08-30
微服務
weblogic標準化部署大綱
2020-11-16
Web
Clang-format格式標準化
2024-09-08
ORM
Mysql優化系列之——優化器對子查詢的處理
2020-01-21
MySql優化
【火爐煉AI】機器學習001-資料預處理技術（均值移除，範圍縮放，歸一化，二值化，獨熱編碼）
2018-08-03
AI機器學習