為什麼要特徵標準化

夜空中最亮的不咚發表於2018-04-04

原文網址 : https://juejin.im/post/5ac4ac546fb9a028cf32b12f

特徵

轉載

原地址:https://zhuanlan.zhihu.com/p/24839177

今天我們會來聊聊機器學習所需要的資料,為了讓機器學習方面消化, 我們需不需要對資料動些手腳呢. 所以今天就會提到特徵資料的標準化, 也可以說正常化, 歸一化, 正規化等等.

注: 本文不會涉及數學推導. 大家可以在很多其他地方找到優秀的數學推導文章.

因為本文原作是一段短視訊介紹.
所以首先放視訊連結: Youtube 或者優酷.
也可以在這個網頁找到其他很多相關內容: 莫煩 Python

現實中的資料

在說特徵標準化之前, 我們先來說說現實生活中, 我們的資料是什麼樣的. 它們很可能來自不同的地方, 被不同的人採集, 有著不同的規格. 用最經典的房價預測例子來和大家說說. 我們用機器學習從房屋的各個層面來預測房價, 房屋的特徵可能包括, 離市中心的距離, 房屋樓層, 房屋面積, 所在城市, 幾室幾廳等等. 這些資料的取值範圍往往差距懸殊, 比如樓層一般在2-30層以內, 面積可能上百, 離市中心距離可以以千來記.

資料方程

回到機器學習中, 如果我們以一個簡單的線性迴歸方程來預測房屋的價格, 那方程可能會是這樣 . 價格= a* 離市中心 + b * 樓層 + c * 面積. 其中的 a b c 就是機器學習需要努力努力再努力來優化的引數.

我們說的在具體一點, 用 abc 算出來的價格是預測價格 . 機器學習需要計算預測值和實際值的差別, 然後對這個誤差進行一些數學上的處理, 使之變成進步的階梯, 然後反向地傳遞迴引數 a b c 來提升下次的預測準確度. 好了. 這些概念和我們要提到的標準化有什麼關係呢?

舉例說明

我們可以把 abc 想想成3個人. 他們共同努力解決一個問題, 在某一個問題中, a工作的時候總是不知道發生了什麼, b 的能力適中, c 工作能力最強, 老闆看了他們一起工作的結果, 發現還有很多可以提高的地方, 然後不屑地說: 你們這個結果和我期望的還有很大差距, 你們快去縮小差距. 老闆給的要求只是縮小差距. 可是 abc 都不知道差距在哪. 所以他們這次只好平分接下來的任務, 不過 c 很快就做完了, b 第二, a 做得很慢, 所以花的總時間很長, c 和 b 都要等 a 把剩下的工作做完才能再給老闆看結果, 這樣效率並不高.

把這個問題放在機器學習中, 為了好理解, 我們把 b 先排除掉. 再把房價問題也簡化一下, 留下兩個特徵. 因為面積的跨度一般可以從0 到 2-300, 而離市中心的距離跨度一般在10以內. 所以在這個公式中, c 只要稍稍變化一點, 他乘以面積的變化就會很大, 因為面積的值可以很大, 但是當a也變化那一點點時, 他對預測價格的影響力不會像 c 那樣巨大. 這樣的差別就會影響最終的工作效率. 所以, 我們要提高效率, 特徵的標準化就可以幫上忙. 我們在機器學習訓練之前, 先對資料預先處理一下, 取值跨度大的特徵資料, 我們濃縮一下, 跨度小的括展一下, 使得他們的跨度儘量統一.

通常用於特徵標準化的途徑有兩種, 一種叫做 min max normalization, 他會將所有特徵資料按比例縮放到0-1的這個取值區間. 有時也可以是-1到1的區間. 還有一種叫做 standard deviation normalization, 他會將所有特徵資料縮放成平均值為0, 方差為1. 使用這些標準化手段. 我們不僅可以快速推進機器學習的學習速度, 還可以避免機器學習學得特扭曲.

什麼是特徵標準化
2018-04-04
特徵
豐田為什麼要做標準化
2022-05-11
為什麼要虛擬化，為什麼要容器，為什麼要Docker，為什麼要K8S？
2023-01-16
DockerK8S
特徵預處理之歸一化&標準化
2021-01-23
特徵
機器學習筆記——特徵標準化
2018-10-24
機器學習筆記特徵
前端為什麼要工程化？
2021-01-16
前端
Alink漫談(九) ：特徵工程之特徵雜湊/標準化縮放
2020-07-04
特徵工程
python為什麼要字串格式化
2021-09-11
Python字串格式化
什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】
2022-04-04
機器學習特徵工程PCA
為什麼要建立資料視覺化
2022-03-22
視覺化
[Python人工智慧] 六.神經網路的評價指標、特徵標準化和特徵選擇
2018-06-12
Python人工智慧神經網路指標特徵
什麼是通證標準？
2022-12-22
為什麼全球變暖控制目標要設在1.5℃？
2023-11-28
為什麼要對資料庫最佳化
2024-03-07
資料庫
為什麼要上BI視覺化系統？
2020-09-12
視覺化
Facebook註冊失敗是為什麼？臉書Facebook註冊要準備什麼？
2022-11-10
為什麼標準庫的模板變數都是inline的
2022-11-28
變數inline
Django官方為什麼沒有標準專案結構
2020-12-09
Django
為什麼要code review
2023-04-15
View
為什麼要寫作
2021-04-16
軟體測試的准入準出是什麼?標準是什麼?
2021-04-02
服裝企業為什麼要談資訊化？
2022-07-04
Python是什麼？為什麼要掌握python？
2020-05-07
Python
Inconel600對應什麼國標標準
2022-06-11
標準差excel用什麼函式 excel標準偏差的公式
2022-01-21
Excel函式公式
為什麼特徵相關性非常的重要？
2019-10-23
特徵
為什麼要學習 Julia
2019-03-03
為什麼要指令重排序？
2018-05-28
排序
為什麼要財務自由
2018-07-31
為什麼要學習 Rust
2019-12-01
Rust
為什麼要學習 Vim？
2018-03-25
為什麼要學習Netty？
2021-07-29
Netty
開源與標準：為什麼對待專利如何不同？
2019-11-14
什麼是 C 和 C ++ 標準庫？
2018-08-22
特徵模型和特徵-這是什麼？
2022-01-05
特徵模型
豐田的準時化（JIT）為什麼能賺錢？
2022-08-15
什麼是智慧指標？為什麼要用智慧指標？
2019-03-29
指標
為什麼 JavaScript 的 this 要這麼用？
2019-02-28
JavaScript

為什麼要特徵標準化

現實中的資料

資料方程

舉例說明

相關文章