Paper Reading: Random Balance ensembles for multiclass imbalance learning

乌漆WhiteMoon發表於2024-10-29

目錄
  • 研究動機
  • 文章貢獻
  • 多分類的隨機平衡整合
    • 二分類 Random Balance
    • MultiRandBal
    • OVO-RandBal 和 OVA-RandBal
  • 實驗結果
    • 資料集和實驗設定
    • 對比實驗
    • MAUC 的分解
    • 多樣性
    • 執行時間
  • 優點和創新點

Paper Reading 是從個人角度進行的一些總結分享,受到個人關注點的側重和實力所限,可能有理解不到位的地方。具體的細節還需要以原文的內容為準,部落格中的圖表若未另外說明則均來自原文。

論文概況 詳細
標題 《Random Balance ensembles for multiclass imbalance learning》
作者 Juan J. Rodríguez, José-Francisco Díez-Pastor, Álvar Arnaiz-González, Ludmila I. Kuncheva
發表期刊 Knowledge-based systems
發表年份 2020
期刊等級 中科院 SCI 期刊分割槽(2022年12月最新升級版)1 區,CCF-C
論文程式碼 文中未公開

作者單位:

  1. Universidad de Burgos, Escuela Politécnica Superior, Avda. Cantabria s/n, 09006 Burgos, Spain
  2. Bangor University, Dean Street, Bangor Gwynedd, LL57 1UT, United Kingdom

研究動機

在不平衡的資料集中,當少數類的樣本被忽略時模型可以獲得很好的精度。但是許多問題中,如診斷、故障檢測、欺詐檢測,正確預測少數類樣本尤為重要。因此很多分類方法沒有考慮到資料的不平衡情況,在處理這類資料時可能會遇到困難。目前已經提出了許多處理不平衡資料集的方法,這些方法主要集中在二分類問題上,對多分類的情況關注較少。
隨機平衡(Random Balance, RandBal)是一種資料預處理整合策略,每個分類器的分類比例是隨機選擇的。這種方法不適用於獨立的分類器,但對於作為整合的一部分的分類器非常有用,例如 RandBalBoost 是 RandBal 與 AdaBoost 相結合的一種混合方法。

文章貢獻

本文將 RandBal 方法從二分類擴充套件到多分類,提出了兩種整合策略。第一種方法稱為多重隨機平衡 MultiRandBal,該方法同時處理所有類,每個基分類器的訓練資料都是隨機抽樣的。第二種方法是將多分類問題按照 OVO 或 OVA 的分解為兩分類問題,並構建 RandBal 整合學習器,這兩個版本分別稱為 OVO-RandBal 和 OVA-RandBal。透過 52 個多分類資料集進行了實驗,結果表明 MultiRandBal 和 OVO/OVA-RandBal 都是原始二分類 RandBal 的可行擴充套件,在多分類不平衡問題上的表現優於其他對比方法。

多分類的隨機平衡整合

二分類 Random Balance

對於二分類 Random Balance 整合方法中每個分類器,無論原始訓練資料中的不平衡比是多少,類的比例都是隨機分配的。給定一個有 n 個樣本的資料集,Random Balance 變換後的資料集也包括 n 個例項,其中一個類的例項數是從區間 [2, n−2] 中抽取的隨機整數 k,剩下的 n−k 個例項來自另一個類。設 C1 為樣本中需要 k 個例項的類,n1=|C1| 為 C1 的可用樣本數。如果 k<n1,則 k 個樣本由欠取樣得到,反之使用過取樣進行處理。欠取樣方法使用的是隨機欠取樣,過取樣方法使用 SMOTE。

MultiRandBal

本文將 RandBal 擴充套件到多分類的情況,多分類 RandBal 的流程如下虛擬碼所示。在區間 [0,1] 內從均勻分佈中隨機抽取一個權重給每個類,並對權重進行歸一化,表示轉換後的資料集中每個類需要取樣的樣本比例。

如下虛擬碼給出了多分類隨機平衡整合方法 MultiRandBal 的流程,該方法簡單地用隨機平衡構造的資料集構建每個基分類器。

MultiRandBal 的唯一引數是基學習器的數量,為了調整特定資料集的效能可以引入一些引數,例如欠取樣的最大不平衡比、錯誤分類的代價等。同時 MultiRandBal 也可以與任何整合方法相結合,例如在 Bagging 和 AdaBoost 中使用 MultiRandBal 對資料集進行變換。

OVO-RandBal 和 OVA-RandBal

透過使用 OVO 或 OVA 也可以將 RandBal 擴充套件到多分類。OVO 中所有的類別會兩兩組合,併為每對類別組合構建一個分類器,整合學習器由 c(c−1)/2 個分類器組成。OVA 將列舉全部類別作為正類,將其餘類別作為負類,由 c 個分類器組成整合學習器。

實驗結果

資料集和實驗設定

實驗室用的資料集來自 KEEL、PWR、USC,很多資料集都來自 UCI 資料集,基本資訊如下表所示。實驗指標使用 Accuracy、Kappa、G-mean、average-Accuracy、F-measure、MAUC,結果透過 25×2 折分層交叉驗證獲得。

對比演算法包括 9 種不平衡學習模型,以及這些方法的 OVA、OVO 版本,如下表所示。

對比實驗

下圖展示了在有隨機平衡和沒有隨機平衡的情況下的平均排名的視覺化結果,使用整合方法排名的堆疊條形圖呈現。左側子圖中的柱狀圖明顯低於右側子圖中的柱狀圖,表明使用 Random Balance 的整合方法的總體排名較為靠前。

下圖以箱形圖的形式展示了這些排名,基於隨機平衡方法的箱線圖用灰色表示,可見隨機平衡方法相比其他方法具有優勢。

資料集在 6 個評估指標上的散點圖如下圖所示,點的 x 軸是所有不使用 Random Balance 的方法對應資料集的平均值,y 軸是使用 Random Balance 的方法的平均值。如果使用和不使用隨機平衡的方法對給定資料集給出相同的預測,則該點將位於圖中所示的對角線上。因此從實驗結果可見,所有測量都明顯傾向於使用隨機平衡的集合方法。

下表對不同的整合方法的多分類分解進行比較,實驗表明在一般情況下 OVA 策略優於 OVO 策略。

MAUC 的分解

MAUC 為所有類對的平均 AUC,一對類可以分為三組:兩個類都是多數類、兩個類都是少數類、一個類是多數類另一個是少數類,下表展示了這些不同版本的 MAUC 的平均排名。

多樣性

Kappa 是一種度量多樣性的指標,它會將預測的類與實際的類進行比較。總體多樣性度量是所有對 Kappa 的成對值的平均值,Kappa 值越小表明基分類器的多樣性越強。下表展示了多樣性的平均排名,通常 Boosting 比 Bagging 更加多樣化,使用 RandBalBoost 的三種方法比使用 BagRandBal 的三種方法具有更大的多樣性。

執行時間

下表總結了演算法的執行時間,使用隨機平衡和多分類分解的方法是最慢的,對於沒有多分類分解的 Random Balance 時間更具優勢。

優點和創新點

個人認為,本文有如下一些優點和創新點可供參考學習:

  1. 本文將 Random Balance 策略從二分類擴充套件到多分類,分別提出了基於多類別重取樣的 MultiRandBal 和將多分類拆解到二分類的 OVO/OVA-RandBal;
  2. 實驗環節的結果豐富且充分,各個環節均進行了大量的實驗,說服力強。

相關文章