異常檢測

张继文發表於2024-07-26

1 PCA

標準化-協方差矩陣-特徵值/特徵向量-選擇特徵向量

計算投影值,投影值越大,越異常

2 DBSACN

在聚類過程中尋找核心物件,擴充套件密度可達的樣本,由密度可達關係匯出的最大密度相連的樣本集合,即為我們最終聚類的一個類別。

圖中MinPts=5,紅色的點都是核心物件。

密度直達:epsilon鄰域內,黑色點由紅色點密度直達;

密度可達:可以相連的核心物件,圖中的綠色箭頭連線;

密度相連:密度可達的樣本序列的ϵϵ-鄰域內所有的樣本相互都是密度相連的。


8651703-f86a4912162902d2.png

3 LOF

區域性異常因子:計算每個點的核心密度,如果密度明顯小於鄰居,則為異常點;

如果資料點 p 的 LOF 得分在1附近,表明資料點p的區域性密度跟它的鄰居們差不多;

如果資料點 p 的 LOF 得分小於1,表明資料點p處在一個相對密集的區域,不像是一個異常點;

如果資料點 p 的 LOF 得分遠大於1,表明資料點p跟其他點比較疏遠,很有可能是一個異常點。

4孤立森林

通過計算決策路徑的長度來判斷異常,決策路徑越短,說明越可能是異常。

5 one class svm

給出正常值的邊界,超出邊界,就是異常值。


8651703-dabfa96bdf7a4b8f.png

相關文章