什麼是特徵標準化

夜空中最亮的不咚發表於2018-04-04

原文網址 : https://juejin.im/post/5ac4ac0c6fb9a028db58e9f6

轉載:原地址https://zhuanlan.zhihu.com/p/24930540

各位小夥伴們大家好，今天讓我們來聊一聊機器學習中的所需要的資料這個話題，首先，我們先開始想一個問題，為了讓機器學習更加的方便消化，我們需不需要對一些資料動一些手腳呢？所以，圍繞這個問題，我們今天就來講一講特徵數值的標準化。

也可以說是正常化，規律化正軌化等等。話不多說，讓我們馬上開始：
再說標準化之前，先讓我們想一想現實生活當中我們的資料是怎樣的，他們很可能來自不同的地方，是被不同的人採集，有著不同的規格，用一個最經典的房價預測的案例來說，當我們用機器學習來根據房屋的各個層面來預測房價，這其中可能包括離市中心的距離，房屋的樓層，房屋的面積，所在城市，幾室幾廳等等，但是因為這些資料的取值範圍往往差距懸殊，比如樓層可能在二三十層以內，面積可能上百，離市中心的距離可以以千來計。然後回到機器學習中，假如我們以一個簡單的線性迴歸來預測房屋的價格，那麼方程可能會這樣：
價格=a*距離市中心+b*樓層+c*面積

其中這個a,b,c這三個數值我們可以看做為機器學習需要努力努力再努力進行優化的引數，讓我們來說的更具體一點，用上述的a,b,c算出的價格是預測價格，機器學習需要預測真實值和預測值之間的差別，然後對這個誤差進行一些數學上的處理，使這個誤差值無限的接近於一個最小值0，變成一個進一步的階梯，然後反向的傳遞迴在這個引數a.b,c當中，來提升下一次預測的準確度

這時候就可以用這個公式：

誤差=預測-實際價格

這個時候你可能會想，這個概念和我們這個題目的標準化有什麼關係呢？

這個時候請我們想象下，現在我們假設把a,b,c分成三個人，他們現在是一個團隊，來共同的解決一個問題，在工作中a總是不知道工作發生了什麼，只會用蠻力氣，

b的能力適中，c的能力最強，這時候團隊的boss看了看他們的工作，說不行啊，還有很多提高的部分啊，然後不屑的表示，你們這個結果和我期待的有很大的差距，你們快去縮小下差距。這個時候，老闆給的要求是縮小差距，但是a,b,c卻不知道自己應該怎麼樣縮小差距，以及彼此之間的差距在哪？因此這三者只好評分這個任務，不過c很快就完成了，b,第二完成，a做的超級慢，所以這樣等完成後花的總時間很長，bc都需要等著a把剩下的工作做完才可以看結果，這樣下來，其實效率並不高。

好，這個時候我們把這個問題放到機器學習中，首先，我們先把b去除掉，再把房價的問題在進行簡化一下：

價格=a*距離市中心+c*面積

只留下這a,c兩個特徵屬性，因為面積的跨度在0到200之間0，離市中心的跨度普遍在100之內，所以在這個公式中，c只要稍微變化一點，c*面積的變化也會很大，因為面積的值本來就很大，但是如果a也變化一點點，a*市中心的距離不會和c一樣有那麼大的影響力，這樣的差別就會影響最終的工作效率。所以這時候我們要提高效率，那麼這個時候效率的標準化就可以幫上忙。

我們在機器學習之前先將收集到的資料預先處理一下，我們把取值面積大的數值可以進行適當的濃縮一下取值跨度小的適當的可以進行放大一下，使得他們的跨度可以儘量的統一，通常用於特徵標準化的途徑有兩種，一種叫做minmax normalization 他們會按比例將所有的資料放縮到0-1這個區間，有的也可能是-1-1的區間，還有一種叫做std normalization，他會把所有的資料放縮成平均值為0，方差為1的資料（mean=0,std=1），通過使用這些標準化的手段，我們不僅可以加快機器學習的統計速度，還可以避免機器學習可以學到特別的扭曲。

好了，這就是這篇文章所表述的對於機器學習特徵標準化的一個小介紹和通常使用的一個方法，如果你對機器學習感興趣歡迎繼續關注我的簡書頻道和知乎專欄，我也很希望可以和大家進行交流。

為什麼要特徵標準化
2018-04-04
特徵
什麼是通證標準？
2022-12-22
軟體測試的准入準出是什麼?標準是什麼?
2021-04-02
特徵預處理之歸一化&標準化
2021-01-23
特徵
特徵模型和特徵-這是什麼？
2022-01-05
特徵模型
什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】
2022-04-04
機器學習特徵工程PCA
什麼是 C 和 C ++ 標準庫？
2018-08-22
機器學習筆記——特徵標準化
2018-10-24
機器學習筆記特徵
豐田為什麼要做標準化
2022-05-11
精益企業的標準是什麼？
2023-09-18
什麼是 Dynatrace 的 Speed Index 度量標準
2023-03-13
Index
Alink漫談(九) ：特徵工程之特徵雜湊/標準化縮放
2020-07-04
特徵工程
什麼是 Dynatrace 裡的 Visually Complete 度量標準
2023-03-13
尋找Python培訓機構標準是什麼
2021-12-09
Python
智慧經營的條件和標準是什麼？
2021-05-28
天行健諮詢：什麼是標準化作業？
2022-09-01
[Python人工智慧] 六.神經網路的評價指標、特徵標準化和特徵選擇
2018-06-12
Python人工智慧神經網路指標特徵
等保2.0國家標準是什麼？與等保1.0有啥變化？
2022-05-07
什麼是現代資料棧？有什麼特徵？
2022-05-30
特徵
什麼是可靠性標準以及如何保證？ -DZone
2020-11-03
電話機器人效果的核心標準是什麼
2021-08-04
機器人
什麼是開標、評標？
2020-01-20
六西格瑪諮詢的收費標準是什麼？
2023-04-17
土建職稱論文發表的格式標準是什麼
2020-12-30
什麼是APT攻擊？APT攻擊有什麼主要特徵?
2022-05-11
APT特徵
Inconel600對應什麼國標標準
2022-06-11
標準差excel用什麼函式 excel標準偏差的公式
2022-01-21
Excel函式公式
什麼是資料準備？
2024-02-29
六西格瑪諮詢公司的定價標準是什麼？
2023-02-06
什麼是智慧指標？為什麼要用智慧指標？
2019-03-29
指標
什麼是SQL遊標?
2018-04-12
SQL
Linux中Prometheus是什麼意思?主要特徵有哪些？
2021-12-16
LinuxPrometheus特徵
什麼是資料標註，它的用途是什麼？
2023-02-07
精益六西格瑪專案的選題標準是什麼
2023-10-18
上海精益生產諮詢公司的收費標準是什麼？
2023-05-06
特徵工程中的「歸一化」有什麼作用
2024-10-28
特徵工程
ERC20標準到底講的什麼？
2018-09-04
什麼是標頭檔案
2024-08-04

什麼是特徵標準化

相關文章