第五篇：資料預處理(二) - 異常值處理

穆晨發表於2017-05-20

前言

資料中如果有某個值偏離該列其他值比較離譜，那麼就有可能是一個異常的值。在資料預處理中，自然需要把這個異常值檢測出來，然後剔除掉，或者光滑掉，或者其他各種方法進行處理。

需要注意的是，本文僅介紹最為基礎的單維度異常檢測及處理方法，而在實際應用中更多用到的是多維度異常檢測，這部分得到時結合具體專案學習。

異常值處理

1. 安裝並匯入包outliers並載入。

2. 生成一組用於測試的資料集(本例採用隨機生成)：

outlier計算偏離最遠位置的點，它有兩個引數：

- opposite：它值為TRUE或者FALSE時分別表示的是兩個距離方向的極值點。
- logical：它的值同樣為TRUE或者FALSE，分別表示用布林值表示結果還是具體距離值表示。

4. 處理：

以上程式碼以每4個元素為單位進行均值光滑。

小結

實際專案中使用的更多是多維的，更高階的距離檢測機制。比如異常點的檢測還可以採用聚類的方法，落在簇之外的點就是異常點。

而且除了光滑，還有很多種異常值方式處理。一般來說和缺失值處理的方法相似，這裡就不詳細論述了。

【Python資料分析基礎】: 異常值檢測和處理
2018-08-08
Python
資料預處理
2021-09-09
Python資料處理（二）：處理 Excel 資料
2019-02-16
PythonExcel
資料預處理 demo
2020-02-19
sklearn 第二篇：資料預處理
2019-07-30
Python錯誤處理和異常處理（二）
2019-03-07
Python
資料預處理-資料清理
2020-01-19
資料分析--資料預處理
2023-12-14
異常處理機制(二)之異常處理與捕獲
2023-11-14
nlp 中文資料預處理
2019-12-02
機器學習一：資料預處理
2019-02-27
機器學習
資料預處理規則
2015-01-06
資料預處理的形式
2007-05-15
第二章相似性和相異性度量&資料&資料預處理
2018-10-23
資料預處理-資料歸約
2020-01-19
資料預處理–資料降維
2016-05-12
第四篇：資料預處理(一) - 缺失值處理
2017-05-20
資料預處理方法彙總
2020-03-16
資料預處理和特徵工程
2020-07-24
特徵工程
機器學習筆記---資料預處理
2022-04-30
機器學習筆記
TANet資料預處理流程
2020-10-07
springboot統一異常處理及返回資料的處理
2020-10-15
Spring Boot
JSP 異常處理如何處理？
2021-09-01
JS
Java 傳統異常處理（二）
2017-03-27
Java
Java異常處理設計（二）
2013-11-19
Java
異常處理
2016-02-21
PHP錯誤處理和異常處理
2017-11-12
PHP
資料處理
2024-03-25
資料預處理之 pandas 讀表
2020-03-01
人工智慧 (01) 資料預處理
2019-12-18
人工智慧
深度學習——資料預處理篇
2019-02-18
深度學習
特徵工程之資料預處理（下）
2019-02-13
特徵工程
資料預處理利器 Amazon Glue DataBrew
2022-05-31
sklearn中常用資料預處理方法
2018-03-27
機器學習：探索資料和資料預處理
2020-12-13
機器學習
處理百萬級以上的資料處理
2013-12-16
Sqoop匯入資料異常處理
2019-01-30
OOP
資料庫連線異常處理思路
2022-10-11
資料庫

第五篇：資料預處理(二) - 異常值處理

前言

異常值處理

小結

相關文章