特徵工程中的「歸一化」有什麼作用

摇摇头把烦恼摇出来發表於2024-10-28

原文網址 : https://www.cnblogs.com/98kya/p/18495594

歸一化在特徵工程中的作用包括：1、縮小資料範圍、2、加速機器學習模型訓練、3、提高模型準確率、4、降低模型複雜度。對1、縮小資料範圍進行展開：在資料集中，不同特徵可能具有不同的數量級和量綱，導致在模型訓練過程中一些特徵對結果影響過大，而歸一化透過將資料按比例縮放，使之落入一個小的特定區間如[0,1]，這樣能夠保證在最佳化演算法中所有特徵都以相同的標準被考慮，從而避免因特徵值跨度大帶來的模型訓練效率低下問題。

一、歸一化的定義與型別

歸一化，亦稱標準化，是特徵工程中常用的預處理方法，旨在改變資料的大小範圍，達到提升模型效能與穩健性的目的。

歸一化的方法大體可以分為兩類：Min-Max標準化和Z-Score標準化。Min-Max標準化是一種將所有資料縮放到[0,1]區間內的方法，其計算公式為：

x_{\text{norm}} = \frac{x – x_{\text{min}}}{x_{\text{max}} – x_{\text{min}}}

而Z-Score標準化則是將資料按均值中心化後，再除以標準差，公式為：

x_{\text{norm}} = \frac{x – \mu}{\sigma}

這兩種歸一化方式對應的是不同資料分佈的處理方式。

二、歸一化對模型效能的影響

在機器學習模型中，歸一化有助於加快收斂速度，特別是對於基於梯度下降法的最佳化演算法而言，因為歸一化後梯度下降法在引數更新時更加平穩，避免了在高維空間中由於尺度不均產生的懸崖現象。

同時，歸一化可以提高模型的準確性和泛化能力。經過歸一化的資料，其特徵具有相同的尺度，這使得模型可以公平地評估每個特徵的重要性，提高了模型在面對未知資料時的魯棒性。

三、歸一化在不同型別資料中的運用

歸一化不止應用於連續型變數，對於離散型資料或原本就很小的數值，考慮歸一化的必要性則需要根據實際應用場景判斷。例如，對於圖片畫素值這樣的資料，通常直接除以255完成歸一化；在文字處理中，詞頻或TF-IDF特徵經常會被歸一化，以減少高頻詞彙對模型的不良影響。

四、潛在風險和注意事項

儘管歸一化在多數情況下都帶來積極的作用，但實施歸一化時，我們還需要注意資料分佈的變化，以及異常值的處理。異常值若不加處理，會影響到最大/最小值，進而影響歸一化的效果。一種常見的處理異常值的方法是使用RobustScaler，它對異常值具有更好的魯棒性。

此外，實施歸一化時，要保持訓練集和測試集使用相同的轉換。即在歸一化時，使用訓練資料集的引數（最大值、最小值、均值和標準差）對測試集進行處理，以避免資料洩露問題。

透過上述綜合分析可見，歸一化作為一種基礎且關鍵的預處理步驟，在特徵工程中起著至關重要的作用，對於提升機器學習模型的表現具有不可忽視的正面影響。

相關問答FAQs：為什麼特徵工程中需要進行歸一化？

歸一化在特徵工程中是為了保證不同特徵之間的資料在相同的尺度範圍內，這有助於模型收斂更快、提高模型的效能、避免某些特徵對模型訓練產生主導性影響。此外，歸一化還可以減少特徵值的方差，提高模型的穩定性，使得模型更具泛化能力。

歸一化的方法有哪些？

常見的歸一化方法包括最小-最大歸一化（Min-Max Scaling）、標準化(Z-score normalization)、均值歸一化（Mean normalization）等。其中最小-最大歸一化將資料線性變換到[0, 1]的範圍內，標準化將資料轉換為均值為0，標準差為1的正態分佈，均值歸一化是指將資料調整到均值為0。

在機器學習中，歸一化有哪些常見問題需要注意？

在進行歸一化時，需要注意避免資料洩露問題，即在歸一化時使用了測試集的資訊，導致模型在實際預測時效能表現下降。此外，對於稀疏資料的歸一化也需要特別小心，在歸一化過程中可能導致稀疏性丟失，需要根據具體情況進行處理。

CSS中的calc()有什麼作用？
2024-11-25
CSS
什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】
2022-04-04
機器學習特徵工程PCA
Linux中什麼是inode?有什麼作用?
2022-04-19
Linux
python中，"_"和"__"的作用有什麼不同？
2022-03-11
Python
CRM自動化有什麼作用?
2022-08-07
JQuery中$(document)是什麼意思有什麼作用
2020-04-04
jQuery
Linux中公有云是什麼?有什麼作用?
2022-06-02
Linux
一文詳解特徵縮放、標準化、歸一化的定義、區別、特點和作用
2020-10-25
特徵
AB test 中的AA test有什麼作用？
2020-11-23
自動化運維是什麼意思？有什麼作用？
2021-07-14
運維
特徵預處理之歸一化&標準化
2021-01-23
特徵
CRM中的Web表單分析有什麼作用？
2022-03-22
Web
Linux中uuid是什麼?作用有哪些?
2023-11-09
LinuxUI
CRM銷售自動化有什麼作用？
2022-05-02
meta有什麼作用
2019-01-24
CRM有什麼作用？
2022-05-02
Linux中Prometheus是什麼意思?主要特徵有哪些？
2021-12-16
LinuxPrometheus特徵
Linux中什麼是套接字檔案?有什麼作用？
2023-10-09
Linux
在Linux中，bash shell 中的 hash 命令有什麼作用?
2024-07-07
Linux
專案管理中的資源日曆是什麼？有什麼作用
2023-11-23
專案管理
Linux中什麼是打包？與歸檔有什麼區別？
2023-04-04
Linux
說說HTML中的`<html>`標籤有什麼作用？
2024-11-25
HTML
html標籤中的lang屬性有什麼作用？
2024-12-09
HTML
微控制器中斷有什麼作用
2020-10-08
Linux中Kdump是什麼？其作用有哪些？
2023-04-11
Linux
零信任中sdp是什麼?有何作用?
2023-04-14
資料視覺化平臺有什麼作用
2022-05-19
視覺化
什麼是特徵標準化
2018-04-04
特徵
Linux中type命令有什麼作用?語法格式是什麼？
2022-01-05
Linux
bucket是什麼意思？有什麼作用？
2020-04-24
Java swing是什麼?有什麼作用?
2021-07-29
Java
FMEA有什麼具體的作用？
2022-07-20
Java serialVersionUID 有什麼作用？
2020-12-28
JavaUI
為什麼說自動化特徵工程將改變機器學習的方式
2019-02-12
特徵工程機器學習
什麼是現代資料棧？有什麼特徵？
2022-05-30
特徵
Linux中selinux是什麼意思？SELinux的主要作用有哪些？
2023-03-08
Linux
機器學習中，有哪些特徵選擇的工程方法？
2018-07-09
機器學習特徵
量化投資中的特徵工程
2019-01-30
特徵工程

特徵工程中的「歸一化」有什麼作用

一、歸一化的定義與型別

二、歸一化對模型效能的影響

三、歸一化在不同型別資料中的運用

四、潛在風險和注意事項

相關文章