BAT面試題12：機器學習為何要經常對資料做歸一化？

dicksonjyl560101發表於2018-11-12

原文網址 : http://blog.itpub.net/29829936/viewspace-2219640/

BAT面試題機器學習

BAT 面試題12：機器學習為何要經常對資料做歸一化？

http://blog.sina.com.cn/s/blog_cfa68e330102z2gd.html

機器學習中，為何要經常對資料做歸一化？

一般做機器學習應用的時候大部分時間是花費在特徵處理上，其中很關鍵的一步就是對特徵資料進行歸一化，為什麼要歸一化呢？維基百科給出的解釋：

1 ）歸一化後加快了梯度下降求最優解的速度；

2 ）歸一化有可能提高精度。下面我簡單擴充套件解釋下這兩點。

1 歸一化為什麼能提高梯度下降法求解最優解的速度？

如下圖所示，藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大，X1區間是[0,2000]，X2區間是[1,5]，其所形成的等高線非常尖。當使用梯度下降法尋求最優解時，很有可能走“之字型”路線（垂直等高線走），從而導致需要迭代很多次才能收斂；

而右圖對兩個原始特徵進行了歸一化，其對應的等高線顯得很圓，在梯度下降進行求解時能較快的收斂。

因此如果機器學習模型使用梯度下降法求最優解時，歸一化往往非常有必要，否則很難收斂甚至不能收斂。

2 歸一化有可能提高精度
一些分類器需要計算樣本之間的距離（如歐氏距離），例如KNN。如果一個特徵值域範圍非常大，那麼距離計算就主要取決於這個特徵，從而與實際情況相悖（比如這時實際情況是值域範圍小的特徵更重要）。

3 歸一化的型別
1）線性歸一化

這種歸一化方法比較適用在數值比較集中的情況。這種方法有個缺陷，如果max和min不穩定，很容易使得歸一化結果不穩定，使得後續使用效果也不穩定。實際使用中可以用經驗常量值來替代max和min。

2 ）標準差標準化
經過處理的資料符合標準正態分佈，即均值為0，標準差為1，其轉化函式為：

其中μ為所有樣本資料的均值，σ為所有樣本資料的標準差。

3 ）非線性歸一化
經常用在資料分化比較大的場景，有些數值很大，有些很小。通過一些數學函式，將原始值進行對映。該方法包括 log、指數，正切等。需要根據資料分佈的情況，決定非線性函式的曲線，比如log(V, 2)還是log(V, 10)等。

文章參考，感謝原創：

http://www.cnblogs.com/LBSer

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/29829936/viewspace-2219640/，如需轉載，請註明出處，否則將追究法律責任。

資料科學和機器學習面試問題
2019-02-28
資料科學機器學習面試
面試Python機器學習時，常見的十個面試題
2021-05-20
Python機器學習面試題
「乾貨」22道機器學習常見面試題目
2019-12-05
機器學習面試題
TikTok機器學習與資料科學家的面試題 - Reddit
2022-03-16
機器學習資料科學面試題
為何要學習心理學
2018-03-14
機器學習 | 資料歸一化的重要性你瞭解多少？
2018-07-20
機器學習
手撕面試官系列：BAT面試常問85題
2019-08-02
面試BAT
常見面試題學習（4）
2020-04-05
面試題
機器學習：迴歸問題
2020-08-09
機器學習
機器學習面試問題彙總
2020-04-04
機器學習面試
做資料分析需要學習機器學習嗎？
2020-01-15
機器學習
一線大廠在機器學習方向的面試題（一）
2021-04-12
機器學習面試題
幾道 BAT 演算法面試中經常問的「字串」問題
2019-04-04
BAT演算法面試字串
【機器學習】--迴歸問題的數值優化
2018-03-31
機器學習優化
(四) BAT面試的20道高頻資料庫面試題
2020-11-03
BAT資料庫面試題
10道機器學習、深度學習必會面試題
2018-05-02
機器學習深度學習面試題
LeetCode 74，直擊BAT經典面試題
2020-06-04
LeetCodeBAT面試題
為面試加油助力，90個常見的Kubernetes面試題，值得收藏學習
2021-11-01
面試題
一位前BAT面試官，詳聊進入BAT的面試經驗
2018-03-07
BAT面試
Python常見面試題總結——個人Python學習經驗
2019-07-16
Python面試題
一線大廠在機器學習方向的面試題（二）
2021-04-13
機器學習面試題
一線大廠在機器學習方向的面試題（三）
2021-04-14
機器學習面試題
Android複習資料——常見面試演算法題彙總（一）
2019-07-13
Android面試演算法
【機器學習】機器學習面試乾貨精講
2018-03-29
機器學習面試
機器學習筆試題精選（一）
2018-07-30
機器學習筆試
BAT 經典演算法筆試題 —— 磁碟多路歸併排序
2019-01-18
BAT演算法筆試排序
深度學習面試100題（第1-5題）：經典常考點CNN
2018-07-06
深度學習面試CNN
機器學習面試題，更有大廠內推機會
2018-04-18
機器學習面試題
常見12個python面試題整理
2021-09-11
Python面試題
機器學習面試準備大全 – 技能要求、面試例題詳解
2019-02-27
機器學習面試
機器學習面試準備大全 - 技能要求、面試例題詳解
2018-08-02
機器學習面試
大資料面試常見的面試題總結
2018-04-13
大資料面試題
機器學習-習題(一)
2022-05-04
機器學習
好程式設計師Python培訓分享機器學習面試題一
2020-06-15
程式設計師Python機器學習面試題
【乾貨】BAT面試經驗分享
2018-03-24
BAT面試
資料庫常見面試題總結
2018-07-12
資料庫面試題
推薦 | 掌握這12條經驗，對理解機器學習至關重要！
2018-08-02
機器學習
35面試常問：談談為什麼要拆分資料庫？有哪些方法？
2020-11-13
面試資料庫

BAT面試題12：機器學習為何要經常對資料做歸一化？

相關文章