第五篇:資料預處理(二) - 異常值處理

穆晨發表於2017-05-20

前言

       資料中如果有某個值偏離該列其他值比較離譜,那麼就有可能是一個異常的值。在資料預處理中,自然需要把這個異常值檢測出來,然後剔除掉,或者光滑掉,或者其他各種方法進行處理。

       需要注意的是,本文僅介紹最為基礎的單維度異常檢測及處理方法,而在實際應用中更多用到的是多維度異常檢測,這部分得到時結合具體專案學習。

異常值處理

       1. 安裝並匯入包outliers並載入。

       2. 生成一組用於測試的資料集(本例採用隨機生成):

       

       

       outlier計算偏離最遠位置的點,它有兩個引數:

       - opposite:它值為TRUE或者FALSE時分別表示的是兩個距離方向的極值點。
       - logical:它的值同樣為TRUE或者FALSE,分別表示用布林值表示結果還是具體距離值表示。

       4. 處理:

       

       以上程式碼以每4個元素為單位進行均值光滑。

小結

       實際專案中使用的更多是多維的,更高階的距離檢測機制。比如異常點的檢測還可以採用聚類的方法,落在簇之外的點就是異常點。

       而且除了光滑,還有很多種異常值方式處理。一般來說和缺失值處理的方法相似,這裡就不詳細論述了。

 

相關文章