資料的標準化與正則化
標準化(Standardization)
Standardization of datasets is a common requirement for many machine learning estimators implemented in scikit-learn; they might behave badly if the individual features do not more or less look like standard normally distributed data: Gaussian with zero mean and unit variance.(use scale function in scikit-learn)
In practice we often ignore the shape of the distribution and just transform the data to center it by removing the mean value of each feature, then scale it by dividing non-constant features by their standard deviation.
For instance, many elements used in the objective function of a learning algorithm (such as the RBF kernel of Support Vector Machines or the l1 and l2 regularizers of linear models) assume that all features are centered around zero and have variance in the same order. If a feature has a variance that is orders of magnitude larger than others, it might dominate the objective function and make the estimator unable to learn from other features correctly as expected.
正則化/歸一化(Normalization)
Normalization is the process of scaling individual samples to have unit norm. This process can be useful if you plan to use a quadratic form such as the dot-product or any other kernel to quantify the similarity of any pair of samples.
This assumption is the base of the Vector Space Model often used in text classification and clustering contexts.
相關文章
- 資料庫標準化與正規化資料庫
- 關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化
- 【原】關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化
- 資料變換-歸一化與標準化
- 統計資料歸一化與標準化
- [轉]資料標準化
- 資料標準化遇到的問題
- 談談資料資產化的關鍵:資料資產標準化
- Profile標準化資料庫管理資料庫
- 正則化與模型選擇模型
- 機器學習之簡化正則化:L2 正則化機器學習
- 使用Profile標準化資料庫管理資料庫
- 深度學習煉丹-資料標準化深度學習
- 機器學習之稀疏性正則化:L1 正則化機器學習
- 「機器學習速成」稀疏性正則化:L1正則化機器學習
- 常用的CSS命名規則(web標準化設計)CSSWeb
- 前端資料正規化化前端
- 正則化詳解
- 資料庫正規化與例項資料庫
- 機器學習之簡化正則化:Lambda機器學習
- 正則化是幹嘛的
- 謹慎做資料庫技術的標準化(轉)資料庫
- 原理解析-過擬合與正則化
- 機器學習筆記——模型選擇與正則化機器學習筆記模型
- 深度學習——正則化深度學習
- 第六篇:資料預處理(三) - 資料標準化
- 運維標準化與流程化建設深度指南(轉)運維
- 寫給 Web 開發者的深度學習教程 - 資料標準化 & 引數初始化Web深度學習
- Python資料預處理:徹底理解標準化和歸一化Python
- 函式依賴與資料庫正規化函式資料庫
- 資料庫設計正規化2——BC正規化和第四正規化資料庫
- 一體化、標準化、視覺化資料平臺,博睿資料領跑智慧運維新典範視覺化運維
- Swift3.0語言教程使用Unicode正規化標準化獲取字串SwiftUnicode字串
- 中國電子技術標準化研究院:2018大資料標準化白皮書( 附下載)大資料
- Java與資料庫 —— JDBC標準Java資料庫JDBC
- 資料庫(第一正規化,第二正規化,第三正規化)資料庫
- 資料庫設計正規化1——三正規化資料庫
- 談談資料制度與資料標準的關係