如何從大量資料中找出異常值

超人汪小建發表於2018-11-08

原文網址 : https://juejin.im/post/5be381e3e51d45305c2ce594

前言

機器學習中資料預處理階段，首先要考慮的就是將資料集中的異常值找出來，然後再做額外處理。當然，異常值的處理並不存在什麼銀彈，只能具體情況具體分析再根據效果選擇處理方法。

直方圖

看看資料集直方圖也許能看出點端倪，比如下面這個圖，下方的是原始資料集，上面的是對應直方圖，可以看到大多數都分佈在11000左邊，它的右邊存在一些分佈，這些分佈極少的點很可能就是異常點。

sigma原則

一些簡單的場景可能直接使用某些準則就能找出異常值，比如3 sigma或5 sigma之類的。如下圖，這裡用3 sigma準則找到5個異常點。該過程主要計算出平均值mu和標準差sigma，然後再比較[mu-3*sigma,mu+3*sigma]

二次sigma處理

如果直接使用sigma原則效果不好，也就是說可能有些沒問題的點被識別成異常點，或者有些異常點沒有被發現，那麼這種情況下可以考慮用二次sigma處理。第一次使用n1 sigma，第二次n2 sigma。

快速傅立葉變換

如果是週期性的時序資料，假如原始訊號包含了噪音，可以考慮用快速傅立葉變換找出異常點。

假設有一個原始時序序列，現在對其新增高斯噪音，高斯噪音直方圖為圖中第二行，然後變成第三行帶高斯噪音的時序序列，增加噪音後看起來相當混亂，所以我們進行傅立葉變換將其轉換到頻域看能否將噪音分離，計算時通過快速傅立葉變換加快執行。

從頻率響應能清楚看到最獨特的兩個點，對應的頻率為5，知道頻率後可以通過一定的頻寬進行噪音分離，那麼比如選擇0.5，那麼頻率範圍就是[4.5,5.5]。將噪音去除後，我們再通過傅立葉逆變換即能得到去除噪音後的時序訊號。

中值方法

類似的還有均值方法，但是均值有時會將差異平均掉了，效果沒這麼好，於是更多使用中值方法。它的主要思想是定義一個視窗大小，然後通過移動視窗不斷將數值與視窗內的中值進行比較，該點與中值的距離如果超過指定的閾值，則說明這是一個異常點。下面是經過中值方法過濾前後。

其他方法

可以使用馬爾科夫鏈蒙特卡洛(MCMC)、高斯過程等等。

github

github.com/sea-boat/Ma…

-------------推薦閱讀------------

我的開源專案彙總(機器&深度學習、NLP、網路IO、AIML、mysql協議、chatbot)

為什麼寫《Tomcat核心設計剖析》

我的2017文章彙總——機器學習篇

我的2017文章彙總——Java及中介軟體

跟我交流，向我提問：

歡迎關注：

【Python資料分析基礎】: 異常值檢測和處理
2018-08-08
Python
如何從零開始建設資料中臺？
2020-05-06
個推異常值檢測和實戰應用
2021-01-28
如何從800萬資料中快速撈出自己想要的資料？
2023-05-10
資料中臺從何而來
2020-02-21
異常值檢測！最佳統計方法實踐（程式碼實現）！⛵
2022-11-23
從MySQL大量資料清洗到TiBD說起
2021-08-23
MySql
資料中臺是什麼意思？如何建設資料中臺？
2021-04-29
如何從10億資料中快速判斷是否存在某一個元素
2021-02-26
資料中臺與資料治理將何去何從？
2023-03-30
優思學院｜箱形圖利用1.5係數判斷異常值的理由
2022-07-19
2020-12-18python中異常值處理中的程式碼不能執行
2020-12-18
Python
大量資料如何做分頁處理
2024-04-10
企業如何高效智慧管理大量文件資料？
2020-07-17
如何找出被鎖定的行
2019-07-20
[20181222]如何找出回滾操作.txt
2018-12-23
前端如何處理十萬級別的大量資料
2019-04-14
前端
MongoDB中如何優雅地刪除大量資料
2022-11-28
MongoDB
java 如何從零實現一個資料庫差異對比工具？
2020-12-12
Java資料庫
異地資料中心的資料實時同步，該怎樣智慧化實現？
2024-06-20
PostgreSQL資料庫匯入大量資料時如何最佳化
2022-09-01
SQL資料庫
1863. 找出所有子集的異或總和再求和 JavaScript【回溯】
2022-05-21
JavaScript
如何找出引起ORA-1652的SQL？
2019-06-11
SQL
MySQL大量髒資料,如何只保留最新的一條？
2023-04-20
MySql
mysql 表資料量大量查詢慢如何優化
2021-03-08
MySql優化
國企如何進行資料中臺建設？
2019-12-16
泛零售資料中臺如何真正落地？
2020-09-12
linux命令從log檔案中找出404 或者500的所有報錯資訊？
2024-04-24
Linux
資料中臺
2019-05-13
資料中心
2020-12-24
大量索引場景下 Easysearch 和 Elasticsearch 的吞吐量差異
2023-11-25
索引Elasticsearch
如何使用python多執行緒有效爬取大量資料？
2021-09-11
Python執行緒
5G到來，資料中心如何變革？
2019-04-03
超融合資料中心如何搭建？有哪些優勢？
2023-11-30
如何利用 knest 構建資料中心的 Kubernetes as a Service？
2023-01-10
資料中心到底是如何建設的？
2022-03-04
企業如何建立更環保的資料中心？
2022-04-24
波音公司也中招？Lockbit宣稱從該公司竊取了大量敏感資料
2023-10-30