機器學習演算法筆記之6：資料預處理

marsjhao發表於2020-04-06

原文網址 : https://blog.csdn.net/marsjhao/article/details/70213749

一、概述

在工程實踐中，我們得到的資料會存在有缺失值、重複值等，在使用之前需要進行資料預處理。資料預處理沒有標準的流程，通常針對不同的任務和資料集屬性的不同而不同。資料預處理的常用流程為：去除唯一屬性、處理缺失值、屬性編碼、資料標準化正則化、特徵選擇、主成分分析。

二、資料預處理方法

1. 去除唯一屬性

唯一屬性通常是一些id屬性，這些屬性並不能刻畫樣本自身的分佈規律，所以簡單地刪除這些屬性即可。

2. 處理缺失值

缺失值處理的三種方法：直接使用含有缺失值的特徵；刪除含有缺失值的特徵（該方法在包含缺失值的屬性含有大量缺失值而僅僅包含極少量有效值時是有效的）；缺失值補全。

常見的缺失值補全方法：均值插補、同類均值插補、建模預測、高維對映、多重插補、極大似然估計、壓縮感知和矩陣補全。

（1）均值插補

如果樣本屬性的距離是可度量的，則使用該屬性有效值的平均值來插補缺失的值；如果的距離是不可度量的，則使用該屬性有效值的眾數來插補缺失的值。

（2）同類均值插補

首先將樣本進行分類，然後以該類中樣本的均值來插補缺失值。

（3）建模預測

將缺失的屬性作為預測目標來預測，將資料集按照是否含有特定屬性的缺失值分為兩類，利用現有的機器學習演算法對待預測資料集的缺失值進行預測。

該方法的根本的缺陷是如果其他屬性和缺失屬性無關，則預測的結果毫無意義，但是若預測結果相當準確，則說明這個缺失屬性是沒必要納入資料集中的，一般的情況是介於兩者之間。

（4）高維對映

將屬性對映到高維空間，採用獨熱碼編碼（one-hot）技術。將包含K個離散取值範圍的屬性值擴充套件為K+1個屬性值，若該屬性值缺失，則擴充套件後的第K+1個屬性值置為1。

這種做法是最精確的做法，保留了所有的資訊，也未新增任何額外資訊，若預處理時把所有的變數都這樣處理，會大大增加資料的維度。這樣做的好處是完整保留了原始資料的全部資訊、不用考慮缺失值；缺點是計算量大大提升，且只有在樣本量非常大的時候效果才好。

（5）多重插補（MultipleImputation，MI）

多重插補認為待插補的值是隨機的，實踐上通常是估計出待插補的值，再加上不同的噪聲，形成多組可選插補值，根據某種選擇依據，選取最合適的插補值。

（6）壓縮感知和矩陣補全

（7）小結

插補處理只是將未知值補以我們的主觀估計值，不一定完全符合客觀事實。在許多情況下，根據對所在領域的理解，手動對缺失值進行插補的效果會更好。

3. 特徵編碼

（1）特徵二元化

特徵二元化的過程是將數值型的屬性轉換為布林值的屬性，設定一個閾值作為劃分屬性值為0和1的分隔點。

（2）獨熱編碼（One-HotEncoding）

獨熱編碼採用N位狀態暫存器來對N個可能的取值進行編碼，每個狀態都由獨立的暫存器來表示，並且在任意時刻只有其中一位有效。

獨熱編碼的優點：能夠處理非數值屬性；在一定程度上擴充了特徵；編碼後的屬性是稀疏的，存在大量的零元分量。

4. 資料標準化、正則化

資料標準化

資料標準化是將樣本的屬性縮放到某個指定的範圍。

資料標準化的原因：

某些演算法要求樣本具有零均值和單位方差；

需要消除樣本不同屬性具有不同量級時的影響：①數量級的差異將導致量級較大的屬性佔據主導地位；②數量級的差異將導致迭代收斂速度減慢；③依賴於樣本距離的演算法對於資料的數量級非常敏感。

min-max標準化：對於每個屬性，設minA和maxA分別為屬性A的最小值和最大值，將A的一個原始值x通過min-max標準化對映成在區間[0,1]中的值x'，其公式為：新資料=（原資料 - 最小值）/（最大值 - 最小值）

z-score標準化：基於原始資料的均值（mean）和標準差（standarddeviation）進行資料的標準化。將A的原始值x使用z-score標準化到x'。z-score標準化方法適用於屬性A的最大值和最小值未知的情況，或有超出取值範圍的離群資料的情況。新資料=（原資料- 均值）/ 標準差