Sklearn之資料預處理——StandardScaler歸一化

Lu_mi發表於2020-10-18

原文網址 : https://blog.csdn.net/Lu_mi/article/details/108727204

文章目錄

為什麼要進行歸一化？

機器學習模型被網際網路行業廣泛應用，一般做機器學習應用的時候大部分時間是花費在特徵處理上，其中很關鍵的一步就是對特徵資料進行歸一化，為什麼要歸一化呢？

維基百科給出的解釋：

歸一化後加快了梯度下降求最優解的速度；

如果機器學習模型使用梯度下降法求最優解時，歸一化往往非常有必要，否則很難收斂甚至不能收斂。

歸一化有可能提高精度；

一些分類器需要計算樣本之間的距離（如歐氏距離），例如KNN。如果一個特徵值域範圍非常大，那麼距離計算就主要取決於這個特徵，從而與實際情況相悖（比如這時實際情況是值域範圍小的特徵更重要）。

我的理解：

去掉量綱，使得各指標之間具有可比性
將資料先知道一定區間內，使得運算便捷

下面再以房價預測的例子來說明一下歸一化的作用。以預測房價為例，自變數為房間數（x1）、面積大小（x2），因變數為房價。那麼可以得到的公式為：
y=θ1x1+θ2x2
y=θ1x1+θ2x2
其中，x1代表房間數，θ1代表x1變數前面的係數；x2代表面積，θ2代表x2變數前面的係數。
下面兩張圖（損失函式的等高線）代表資料是否歸一化的最優解尋解過程：
未歸一化：在這裡插入圖片描述
歸一化之後：
在尋找最優解的過程，當資料沒有歸一化的時候，面積數的範圍可以從0_{1000，房間數的範圍一般為0}10，可以看出面積數的取值範圍遠大於房間數。也就導致了等高面為長橢圓形，非常尖，因為變數前的係數大小相差很大，當使用梯度下降法尋求最優解時，很有可能走“之字型”路線（垂直等高線走）。
而資料歸一化後，損失函式變數前面的係數差距已不大，影像的等高面近似圓形，在梯度下降進行求解時能較快的收斂。因此如果機器學習模型使用梯度下降法求最優解時，歸一化往往非常有必要，否則很難收斂甚至不能收斂。

哪些機器學習演算法不需要(需要)做歸一化?

概率模型（樹形模型）不需要歸一化，因為它們不關心變數的值，而是關心變數的分佈和變數之間的條件概率，如決策樹、RF。而像Adaboost、SVM、LR、Knn、KMeans之類的最優化問題就需要歸一化。

下面列舉一下常用的歸一化方法以及各種方法的使用場景。

1.線性函式歸一化

線性函式將原始資料線性化的方法轉換到[0, 1]的範圍。計算公式如下：
在這裡插入圖片描述
在不涉及距離度量、協方差計算、資料不符合正太分佈的時候，使用該方法比較好

2.零均值標準化

零均值歸一化方法將原始資料集歸一化為均值為0、方差1的資料集（[0, 1]範圍）。計算公式如下：在這裡插入圖片描述
在分類、聚類演算法中，需要使用距離來度量相似性的時候、或者使用PCA技術進行降維、涉及到正態分佈的時候使用該方法較好。

3.非線性歸一化

（1）對數變換
在實際工程中，經常會有類似點選次數/瀏覽次數的特徵，這類特徵是長尾分佈的，可以將其用對數函式進行壓縮。特別的，在特徵相除時，可以用對數壓縮之後的特徵相減得到。對數規範化的常見形式是：在這裡插入圖片描述
（2）三角函式
三角函式的值在[0, 1]之間，如果有需要，可以用三角函式進行變換。

（3）sigmoid函式
sigmoid函式，也稱S型函式，可以對資料進行有效的壓縮。特別的，S型函式在邏輯迴歸中起著決定性作用。

關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化
2018-03-27
特徵預處理之歸一化&標準化
2021-01-23
特徵
sklearn中常用資料預處理方法
2018-03-27
sklearn 第二篇：資料預處理
2019-07-30
資料預處理-資料歸約
2020-01-19
Python資料預處理：徹底理解標準化和歸一化
2020-07-08
Python
文字資料預處理：sklearn 中 CountVectorizer、TfidfTransformer 和 TfidfVectorizer
2018-09-13
ORM
sklearn基礎及資料處理
2019-09-03
Alink漫談(十) ：線性迴歸實現之資料預處理
2020-07-11
CANN訓練：模型推理時資料預處理方法及歸一化引數計算
2023-04-03
模型
資料預處理之 pandas 讀表
2020-03-01
機器學習第4篇：資料預處理（sklearn 插補缺失值）
2020-12-29
機器學習
資料預處理
2021-09-09
資料分析--資料預處理
2023-12-14
資料預處理-資料清理
2020-01-19
資料預處理 demo
2020-02-19
Pandas多維特徵資料預處理及sklearn資料不均衡處理相關技術實踐-大資料ML樣本集案例實戰
2018-12-19
特徵大資料
機器學習一：資料預處理
2019-02-27
機器學習
資料歸一化
2020-11-14
nlp 中文資料預處理
2019-12-02
TANet資料預處理流程
2020-10-07
【scikit-learn基礎】--『預處理』之資料縮放
2023-12-15
資料預處理之獨熱編碼（One-Hot）
2020-09-25
【DL-CV】資料預處理&權重初始化
2019-02-16
Python資料預處理:Dask和Numba並行化加速!
2018-06-06
Python並行
資料預處理方法彙總
2020-03-16
資料預處理和特徵工程
2020-07-24
特徵工程
深度學習--資料預處理
2024-07-28
深度學習
sklearn: CountVectorize處理及一些使用引數
2020-12-26
資料預處理-資料整合與資料變換
2020-01-19
資料處理之去除重複資料
2020-03-17
特徵工程之資料預處理（下）
2019-02-13
特徵工程
人工智慧 (01) 資料預處理
2019-12-18
人工智慧
深度學習——資料預處理篇
2019-02-18
深度學習
資料預處理利器 Amazon Glue DataBrew
2022-05-31
NUS-WIDE資料集預處理
2020-11-24
IDE
模型訓練：資料預處理和預載入
2020-10-27
模型
【scikit-learn基礎】--『預處理』之正則化
2023-12-18