前言
資料中如果有某個值偏離該列其他值比較離譜,那麼就有可能是一個異常的值。在資料預處理中,自然需要把這個異常值檢測出來,然後剔除掉,或者光滑掉,或者其他各種方法進行處理。
需要注意的是,本文僅介紹最為基礎的單維度異常檢測及處理方法,而在實際應用中更多用到的是多維度異常檢測,這部分得到時結合具體專案學習。
異常值處理
1. 安裝並匯入包outliers並載入。
2. 生成一組用於測試的資料集(本例採用隨機生成):
outlier計算偏離最遠位置的點,它有兩個引數:
- opposite:它值為TRUE或者FALSE時分別表示的是兩個距離方向的極值點。
- logical:它的值同樣為TRUE或者FALSE,分別表示用布林值表示結果還是具體距離值表示。
4. 處理:
以上程式碼以每4個元素為單位進行均值光滑。
小結
實際專案中使用的更多是多維的,更高階的距離檢測機制。比如異常點的檢測還可以採用聚類的方法,落在簇之外的點就是異常點。
而且除了光滑,還有很多種異常值方式處理。一般來說和缺失值處理的方法相似,這裡就不詳細論述了。