【小白學AI】八種應對樣本不均衡的策略

忽逢桃林發表於2020-08-03

原文網址 : https://www.cnblogs.com/PythonLearner/p/13417544.html

文章來自：微信公眾號【機器學習煉丹術】

1 什麼是非均衡

分類(classification)問題是資料探勘領域中非常重要的一類問題，目前有琳琅滿目的方法來完成分類。然而在真實的應用環境中，分類器(classifier)扮演的角色通常是識別資料中的“少數派”，比如：

銀行識別信用卡異常交易記錄
垃圾郵件識別
檢測流水線識別殘次品
病情監測與識別等等

在這樣的應用環境下，作為少數派的群組在資料總體中往往佔了極少的比例：絕大多數的信用卡交易都是正常交易，八成以上的郵件都是正常郵件，大多數的流水線產品是合格產品，在進行檢查的人群中特定疾病的發病率通常非常低。

如果這樣的話，假設99%的正樣本+1%的負樣本構成了資料集，那麼假設模型的預測結果全是正，這樣的完全沒有分辨能力的模型也可以得到99%的準確率。這個按照樣本個數計算準確率的評價指標叫做——Accuracy.

因此我們為了避免這種情況，最常用的評價指標就是F-score,Precision&Recal，Kappa係數。

【F-Score和Kappa係數已經在歷史文章中講解過啦】

2 8種解決辦法

解決辦法主要有下面10種不同的方法。

重取樣resampling
- 上取樣：簡單上取樣，SMOT，ADASYN
- 下采樣：簡單下采樣，聚類Cluter，Tomek links
調整損失函式
異常值檢測框架
二分類變成多分類
EasyEnsemble

2.1 重取樣（四種方法）

重取樣的目的就是讓少的樣本變多，或者是讓多的樣本變少。下圖很形象的展示出這個過程：

【簡單上取樣】

就是有放回的隨機抽取少數量的樣本，飯後不斷複製抽取的隨機樣本，直到少數量的樣本與多數量的樣本處於同一數量級。但是這樣容易造成過擬合問題。

為什麼會造成過擬合呢？ 最極端的例子就是把一個樣本複製100次，這樣就有了一個100樣本的資料庫。模型訓練出來很可能得到100%的正確率，但是這模型真的學到東西了嗎？

【SMOTE】

SMOT:Synthetic Minority Over-sampling Technique.(翻譯成中文，合成最少個體上取樣技術？)

核心思想是依據現有的少數類樣本人為製造一些新的少數類樣本 SMOTE在先用K近鄰演算法找到K個近鄰，利用這個K個近鄰的各項指標，乘上一個0~1之間的隨機數就可以組成一個新的少數類樣本。容易發現的是，就是SMOTE永遠不會生成離群樣本

【ADASYN】

ADASYN：Adaptive Synthetic Sampling Approach（自適應合成樣本方法）

ADASYN其實是SMOTE的一種衍生技術，相比SMOT在每一個少數類樣本的周圍隨機的建立樣本，ADASYN給每一個少數類的樣本分配了權重，在學習難度較高的少數類樣本週圍建立更多的樣本。在K近鄰分類器分類錯誤的那些樣本周圍生成更多的樣本，也就是給他們更大的權重，而並不是隨機0~1的權重。

這樣的話，就好像，一個負樣本週圍有正樣本，經過這樣的處理後，這個負樣本週圍會產生一些相近的負樣本。這樣的弊端也是顯而易見的，就是對離群點異常敏感。

【簡單下采樣】
這個很簡單，就是隨機刪除一些多數的樣本。弊端自然是，樣本數量的減少，刪除了資料的資訊

【聚類】
這個是一個非常有意思的方法。我們先選取樣本之間相似度的評估函式，比方說就用歐氏距離（可能需要對樣本的資料做歸一化來保證不同特徵的同一量綱）。

方法1：假設有10個負樣本和100個正樣本，對100個正樣本做kmeans聚類，總共聚10個類出來，然後每一個類中心作為一個正樣本。

方法2：使用K近鄰，然後用K個樣本的中心來代替原來K個樣本。一直這樣做，直到正樣本的數量等於負樣本的數量。

【Tomek links】

這個不知道咋翻譯

Tomek links是指相反類樣本的配對，這樣的配對距離非常近，也就是說這樣的配對中兩個樣本的各項指標都非常接近，但是屬於不同的類。如圖所示，這一方法能夠找到這樣的配對，並刪除配對中的多數類樣本。經過這樣的處理，兩類樣本之間的分界線變得更加清晰，使少數類的存在更加明顯。

下圖是操作的過程。

2.2 調整損失函式

調整損失函式的目的本身是為了使模型對少數量樣本更加敏感。訓練任何一個機器學習模型的最終目標是損失函式(loss function)的最小化，如果能夠在損失函式中加大錯判少數類樣本的損失，那麼模型自然而然能夠更好地識別出少數類樣本。

比較著名的損失函式就是目標檢測任務中的focal loss。不過在處理其他任務的時候，也可以人為的增加少數樣本錯判的損失。

2.3 異常值檢測框架

將分類問題轉換成為一個異常值監測框架

這個異常值檢測框架又是一個非常大的體系，有很多不同的模型，比方說：異常森立等。之後會專門講講這個體系的模型的。

（小夥伴關注下公眾號唄，不迷路呀）

2.4 二分類變成多分類

對於不均衡程度較低的資料，可以將多數量樣本進一步分為多個組，雖然二分類問題被轉化成了一個多分類問題，但是資料的不平衡問題被解決，接下來就可以使用多分類中的一對多(OVA)或一對一(OVO)的分類方式進行分類。

就是把多數類的樣本通過聚類等方法，劃分成不同的類別。這樣2分類任務就變成了多分類任務。

2.5 EasyEnsemble

另外一種欠取樣的改進方法是 EasyEnsemble ，它將多數樣本劃分成若 N個集合，然後將劃分過後的集合與少數樣本組合，這樣就形成了N個訓練集合，而且每個訓練都正負樣本均衡，並且從全域性來看卻沒有資訊丟失。

分類任務中的樣本不均衡問題
2020-10-07
nodejs版本不對會怎麼樣
2024-09-20
NodeJS
Nginx多種負載均衡策略搭建
2019-06-27
Nginx負載
幾種常見的DDOS攻擊應對策略
2020-06-03
Nginx 做負載均衡的幾種輪詢策略
2018-05-18
Nginx負載
Ribbon - 幾種自定義負載均衡策略
2020-12-24
負載
什麼是負載均衡？有哪幾種策略？
2019-11-12
負載
小白開學Asp.Net Core 《八》
2019-07-16
ASP.NET
7種大模型風險及API 管理應對策略
2024-10-25
大模型API
Sklearn-LogisticRegression邏輯迴歸(有處理樣本不均衡時設定引數的方法)
2018-09-26
邏輯迴歸
PHP的就業前景怎麼樣？PHP小白應該怎麼學習？
2019-04-24
PHP就業
影象樣本不夠用？元學習幫你解決
2019-08-21
Bert文字分類實踐（三）：處理樣本不均衡和提升模型魯棒性trick
2021-10-16
文字分類模型
改善供應商關係的八種方法
2023-04-18
反爬蟲應對策略
2023-12-01
爬蟲
提升網站效能：Nginx五種高效負載均衡策略詳解！
2024-02-27
網站Nginx負載
影象壓縮重建也能抵禦對抗樣本，這是一種新的防守策略
2019-04-12
影像壓縮重建也能抵禦對抗樣本，這是一種新的防守策略
2019-04-12
Jetpack—LiveData元件的缺陷以及應對策略
2022-01-18
JetpackLiveData元件
應對快速變化的Android開發環境：高效學習策略
2024-05-23
Android開發環境
AI人才「用工荒」如何解決？看看這幾家頂級公司的應對策略
2019-02-01
AI
gRPC負載均衡（自定義負載均衡策略）
2020-05-20
RPC負載
CC攻擊的原理和應對的策略
2022-12-07
小白學習Golang（八）Go語言集合類（上）
2020-09-24
Golang
【小白學AI】GBDT梯度提升詳解
2020-08-30
AI梯度
AI從業者需要應用的10種深度學習方法
2018-09-05
AI深度學習
【譯】Consul負載均衡策略
2018-11-08
負載
負載均衡的種類
2020-02-11
負載
小白對go陣列及切片的學習
2021-04-07
Go陣列
國外著名初創企業的八種最佳營銷駭客策略
2022-05-21
一句話的需求怎麼測？需求文件的三種現狀及應對策略
2022-06-19
Ribbon 支援的9大負載均衡策略
2020-12-29
負載
kivy八種佈局方式學習
2021-08-09
面試官：3 種快取更新策略是怎樣的？
2022-07-19
面試快取
劍橋大學：研究揭示自戀者特徵及應對策略
2025-01-05
特徵
小白設計模式：策略模式
2018-12-23
設計模式
資料洩密的危害，原因，與應對策略
2024-03-22
MongoDB新的均衡策略和自動合併
2024-10-11
MongoDB