為什麼一些機器學習模型需要對資料進行歸一化？

zhanlijun發表於2015-04-20

為什麼一些機器學習模型需要對資料進行歸一化？

http://www.cnblogs.com/LBSer/p/4440590.html

機器學習模型被網際網路行業廣泛應用，如排序（參見：排序學習實踐）、推薦、反作弊、定位（參見：基於樸素貝葉斯的定位演算法）等。一般做機器學習應用的時候大部分時間是花費在特徵處理上，其中很關鍵的一步就是對特徵資料進行歸一化，為什麼要歸一化呢？很多同學並未搞清楚，維基百科給出的解釋：1）歸一化後加快了梯度下降求最優解的速度；2）歸一化有可能提高精度。下面我簡單擴充套件解釋下這兩點。

1 歸一化為什麼能提高梯度下降法求解最優解的速度？

史丹佛機器學習視訊做了很好的解釋：https://class.coursera.org/ml-003/lecture/21

如下圖所示，藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大，X1區間是[0,2000]，X2區間是[1,5]，其所形成的等高線非常尖。當使用梯度下降法尋求最優解時，很有可能走“之字型”路線（垂直等高線走），從而導致需要迭代很多次才能收斂；

而右圖對兩個原始特徵進行了歸一化，其對應的等高線顯得很圓，在梯度下降進行求解時能較快的收斂。

因此如果機器學習模型使用梯度下降法求最優解時，歸一化往往非常有必要，否則很難收斂甚至不能收斂。

2 歸一化有可能提高精度

一些分類器需要計算樣本之間的距離（如歐氏距離），例如KNN。如果一個特徵值域範圍非常大，那麼距離計算就主要取決於這個特徵，從而與實際情況相悖（比如這時實際情況是值域範圍小的特徵更重要）。

3 歸一化的型別

1）線性歸一化

$x' = \frac{x - \text{min}(x)}{\text{max}(x)-\text{min}(x)}$

這種歸一化方法比較適用在數值比較集中的情況。這種方法有個缺陷，如果max和min不穩定，很容易使得歸一化結果不穩定，使得後續使用效果也不穩定。實際使用中可以用經驗常量值來替代max和min。

2）標準差標準化

　　經過處理的資料符合標準正態分佈，即均值為0，標準差為1，其轉化函式為：

　　其中μ為所有樣本資料的均值，σ為所有樣本資料的標準差。

3）非線性歸一化

經常用在資料分化比較大的場景，有些數值很大，有些很小。通過一些數學函式，將原始值進行對映。該方法包括 log、指數，正切等。需要根據資料分佈的情況，決定非線性函式的曲線，比如log(V, 2)還是log(V, 10)等。

機器學習-資料歸一化方法
2015-11-15
機器學習
後設資料管理為什麼需要統一的元模型？
2022-06-20
模型
BAT面試題12：機器學習為何要經常對資料做歸一化？
2018-11-12
BAT面試題機器學習
為什麼需要資料治理
2023-12-20
為什麼要對資料庫最佳化
2024-03-07
資料庫
線性迴歸-如何對資料進行迴歸分析
2020-12-21
為什麼需要大資料安全分析？
2017-08-03
大資料
為什麼需要定期進行伺服器備份？
2022-10-13
伺服器
為什麼需要用代理進行網頁抓取？
2021-11-10
網頁
SQL資料庫怎麼進行資料歸檔和歸檔管理？
2024-03-15
SQL資料庫
為什麼機器學習模型會越來越糟？ - Santiago
2021-05-27
機器學習模型Go
為什麼需要DTO(資料傳輸物件)
2017-11-07
物件
為什麼你需要更精準的資料？
2015-04-14
白話TCP為什麼需要進行三次握手
2021-09-09
TCP
[Logmnr]對歸檔日誌進行資料探勘
2016-02-15
從行為軌跡進行大資料分析有什麼好處？
2022-12-29
大資料
機器學習 # 為什麼機器學習要求資料是獨立同分布的？
2020-11-26
機器學習
機器學習入門(三) — 迴歸模型(進階案例)
2018-12-07
機器學習模型
資料歸一化
2020-11-14
為什麼我們需要資料庫事務
2021-08-05
資料庫
資料湖架構，為什麼需要“湖加速”？
2020-09-17
架構
什麼是資料視覺化，為什麼資料視覺化很重要？
2022-03-14
視覺化
資料血緣系列（1）—— 為什麼需要資料血緣？
2024-07-08
10g 每晚定時對變化資料Table進行分析的一些問題
2008-04-16
深度學習為什麼需要那麼多的資料？
2018-08-30
深度學習
面試官：為什麼需要Java記憶體模型？
2021-10-14
面試Java記憶體模型
機器學習 | 資料歸一化的重要性你瞭解多少？
2018-07-20
機器學習
前端為什麼需要模組化開發
2019-05-05
前端
為什麼JavaScript需要模組化開發？
2018-12-31
JavaScript
對於重要的資料檔案,用什麼方法進行加密?
2018-10-29
加密
關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化
2018-03-27
為什麼要做資料視覺化
2023-12-19
視覺化
什麼是行為資料？企業為什麼要使用它？
2022-04-26
為什麼頻率維度需要進行非等變卷積？
2024-04-06
卷積
如何為機器學習進行資料標籤、版本控制和管理
2022-11-24
機器學習
matlab影象處理為什麼要歸一化和如…
2015-11-17
Matlab
Oracle10g 每晚定時對變化資料Table進行分析的一些問題
2008-04-16
Oracle
ajax為什麼需要json格式響應資料？
2020-10-23
JSON

為什麼一些機器學習模型需要對資料進行歸一化？

為什麼一些機器學習模型需要對資料進行歸一化？

1 歸一化為什麼能提高梯度下降法求解最優解的速度？

2 歸一化有可能提高精度

3 歸一化的型別

1）線性歸一化

2）標準差標準化

3）非線性歸一化

相關文章