Paper Reading: Imbalanced ensemble learning leveraging a novel data-level diversity metric

乌漆WhiteMoon發表於2024-09-28

目錄
  • 研究動機
  • 文章貢獻
  • 本文方法
    • 基於例項歐氏距離的多樣性度量 IED
    • PBIL 引導的不平衡整合學習
  • 實驗結果
    • 資料集和實驗設定
    • 對比不同的取樣比
    • 配對演算法的魯棒性
    • 複雜度分析
    • 投票策略的評估
    • 對比實驗
  • 優點和創新點

Paper Reading 是從個人角度進行的一些總結分享,受到個人關注點的側重和實力所限,可能有理解不到位的地方。具體的細節還需要以原文的內容為準,部落格中的圖表若未另外說明則均來自原文。

論文概況 詳細
標題 《Imbalanced ensemble learning leveraging a novel data-level diversity metric》
作者 Ying Pang, Lizhi Peng, Haibo Zhang, Zhenxiang Chen, Bo Yang
發表期刊 Pattern Recognition
發表年份 2025
期刊等級 中科院 SCI 期刊分割槽(2023年12月最新升級版)1 區,CCF-B
論文程式碼 文中未公開

作者單位:

  1. Quancheng Laboratory, Jinan, 250022, China
  2. School of Computing, University of Otago, Dunedin, 9016, New Zealand
  3. School of Information Science and Engineering, University of Jinan, 250022, China

研究動機

資料不平衡是機器學習任務的關鍵挑戰,訓練資料的偏態分佈會對標準機器學習模型的效能造成嚴重的負面影響。將整合學習與資料重取樣或成本敏感學習相結合的不平衡整合學習演算法效能較高,其中多樣性是整合學習的關鍵屬性之一。為了衡量整合學習模型的多樣性,已經有幾個常用的基於分類器的度量,如 Q 統計量、相關係數 𝑝 和分歧度量,其中 Q 統計量是常用的度量。然而現有的多樣性指標都是用來衡量基分類器生成的預測結果的多樣性,在測量模型多樣性之前必須先訓練整合學習模型的每個基分類器。如果多樣性評估的效能較差,則必須透過重新取樣訓練資料或調整基本分類器來重複模型訓練,這大大增加了訓練整合學習模型的複雜性。

文章貢獻

為了解決基於現有多樣性度量的學習複雜性較高的問題,本文提出了一種新的資料級多樣性度量 IED。它能夠直接基於訓練資料集度量多樣性,而不需要訓練分類器,同時本文也設計了兩種基於最優例項配對和貪婪例項配對的 IED 計算方法。在此基礎上,本文設計了一種不平衡整合學習模型 P-EUSBagging,它使用基於種群的增量學習(PBIL)來生成子資料集,再用這些資料集用於訓練具有最大資料級多樣性的基分類器。P-EUSBagging 採用 Bagging 來整合,並設計了一種新的權重自適應投票策略,獎勵給出正確預測的基本分類器。實驗使用 44 個不平衡資料集,實驗結果表明 IED 可以顯著減少訓練整合學習模型所需的時間,PEUSBagging 在 G-Mean 和 AUC 上都顯著提高了學習效能。

本文方法

基於例項歐氏距離的多樣性度量 IED

本文提出了一個種名為 IED 的方法來度量相同大小的 𝐿 子資料集的多樣性,IED 的主要思想是分兩步計算多樣性:首先計算 𝐿 子資料集中任意兩個子資料集的多樣性,然後透過平均 L 子資料集中兩個子資料集的所有成對多樣性來計算所有 𝐿 子資料集的 IED。
設 𝐷𝑝={𝑑𝑝1,𝑑𝑝2,…,𝑑𝑝𝑛} 和 𝐷𝑞={𝑑𝑞1,𝑑𝑞2,…,𝑑𝑞𝑛} 為兩個子資料集,每個子集包含 𝑛 個樣本。對這兩個子資料集中的例項進行如下配對:對於 𝐷𝑝 中的每個例項,根據兩個例項的歐幾里得距離從 𝐷𝑞 中找到“最匹配”的一個。這兩個“最匹配”的例項稱為例項對,每個例項只能出現在一個例項對中,因此例項對中的兩個例項並不總是彼此最近的鄰居。如下圖所示,儘管 𝑥2 是 𝑧1 和 𝑧2 最近的鄰居,但是符合要求的情況是 𝑧1 與 𝑥1 配對,𝑥2 與 𝑧2 配對。

令 𝑃={{𝑑𝑝11,𝑑𝑞12},{𝑑𝑝21,𝑑𝑞22},……,{𝑑𝑝𝑛1,𝑑𝑞𝑛2}} 為例項配對的集合,此時兩個子資料集 𝐷𝑝 和 𝐷𝑞 的多樣性用 𝐼𝐸𝐷𝑝,𝑞 表示,使用如下公式計算,其中 𝑚 為資料例項的特徵維度。

𝐿 子資料集的多樣性是透過平均任意兩個子資料集的多樣性來計算的,使用如下公式計算。

計算最優配對 𝐼𝐸𝐷 的虛擬碼如下所示。

為了降低例項配對的複雜度,本文設計了一種基於隨機化的貪心演算法,虛擬碼如下所示。該方法從一個資料集中隨機選擇一個例項,然後在另一個資料集中找到最佳配對例項。

PBIL 引導的不平衡整合學習

在此基礎上,本文提出了一種新的非平衡整合學習框架,如下圖所示。該框架首先使用基於種群的增量學習(Population Based Incremental Learning, PBIL) 生成例項多樣性最大的子資料集,然後使用每個子資料集來訓練基本分類器,最後使用權重自適應投票策略整合所有基分類器。

因為欠取樣過程可以模擬為進化演算法中的二進位制編碼過程,同時 PBIL 是一種結合遺傳演算法機制和簡單競爭學習的進化演算法,所以使用 PBIL 來最佳化生成用於訓練基分類器的子資料集的過程。將欠取樣視為一個最佳化問題,原始資料集被分成多數類樣本和少數類樣本兩個子集。然後建立一個二進位制編碼字串來表示由所有多數類樣本組成的染色體作為基因,每個基因可以有兩種狀態 1 和 0,1 表示選擇相應的多數例項包含在子資料集中,0 表示排除。PBIL 維護一個機率向量,每一代的新個體都被取樣。然後利用適應度最優的個體更新每一代的機率向量,強制下一代個體攜帶更多最優個體的基因。

為了選擇例項多樣性最大的 𝐿 平衡子資料集,使用 IED 作為 PBIL 的適應度函式。如下圖所示,生成一條由 𝐿 片段組成的長而完整的染色體,每個段是一個子資料集的大多數例項的選擇。因為每個子資料集必須是類平衡的,所以每個片段中為 1 的基因的總數應該等於少數類例項的數量。

由於 Bagging 的簡單性和良好的泛化能力,因此本文的不平衡整合學習框架中使用 Bagging 策略。本文進一步提出了一種新的投票策略——自適應權重投票,這種策略可以根據每個基分類器的分類效能自適應地分配權重。關鍵思想是獎勵給出正確預測的分類器,懲罰給出錯誤預測的分類器。對於訓練集中的 𝑖th 例項樣本樣本的預測結果,𝐿 基分類器的預測結果分別表示為 𝑦'1,𝑦'2,…,𝑦'𝐿,使用 𝑧1i,𝑧2i,…,𝐿i 來表示預測結果的正確性:

不正確的預測例項的數量用 𝑛-i=−∑𝐿𝑙=1𝑧𝑙i⋅𝛼𝑙i 表示,當 𝑧𝑙i=1 時 𝛼𝑙i=0,當 𝑧𝑙i=-1 時 𝛼𝑙i=1。對於基分類器 𝑙th 將被分配一個分數 𝑠𝑙,該分數由如下公式計算:

對於一個樣本,如果不是所有的基分類器都給出了錯誤的預測結果,給出正確預測結果的基分類器將得到獎勵(𝑛-i/𝐿),而其他基分類器將得到懲罰(−𝑛-i/)。使用 𝑛-i/𝐿 作為獎勵或懲罰可以實現:如果大多數分類器給出了錯誤的結果,則給出正確結果的少數分類器將獲得較大的獎勵,其他分類器將受到較大的懲罰。
最後將基分類器 𝑙 的分數計算為所有例項的分數之和,即 𝑆𝑙=∑𝑚i=1=𝑠𝑙i,其中 𝑚 為訓練資料集中的例項數。在用於投票之前,需要對基本分類器的分數進行規範化,首先使用線性函式或 s 型函式將它們對映到 [0,1] 的範圍。

基於上述權重分配機制,整合學習模型的最終預測結果從如下公式得出,其中 h𝑙(x) 為基礎分類器𝑙對測試例項分式預測的結果。每當基分類器的分類效能發生變化時,投票權重就會自動更新。

實驗結果

資料集和實驗設定

使用來自 KEEL 庫的 44 個不平衡資料集進行實驗,使用五折交叉驗證和 KEEL 中指定的相同資料分割槽來確保可重複性。使用 DT 作為整合學習的基本分類器,所有方法都使用 scikit-learn 實現。使用 G-Mean 和 AUC 作為評價指標。

對比不同的取樣比

使用隨機欠取樣來生成訓練基分類器的子資料集,透過改變欠取樣比率來控制資料集的多樣性。例如比率為 0.1 意味著 90% 的例項在所有子資料集中是相同的, 10% 是從使用隨機欠取樣的原始資料集中選擇的。每個子資料集有相同數量的多數類和少數類例項,整合學習模型由 10 個基分類器組成。欠取樣率在 0.05~1 之間變化,步長為 0.05,過程如下:

  1. 對於每個隨機抽樣比率,生成 10 個子集作為訓練集,然後使用 IED 評估這 10 個子集的多樣性。
  2. 使用生成的子集構建 10 個基分類器,並在測試資料集上進行測試,使用 Q 統計量評估 10 個基分類器的多樣性。
  3. 使用多數投票來整合基本分類器的預測,以生成測試資料集的總體分類結果,然後計算當前整合模型的 AUC。

下圖展示了隨機選取的 20 個資料集的 IED 和 Q 統計量測試結果進行對比,其中 x 表示多樣性,y 軸表示 AUC。可見 IED 與 Q 統計量曲線方向相反,IED 值越大則多樣性越大,Q 統計量值越小則多樣性越大。這表明 AUC 和多樣性值的擬合結果與少數類例項的絕對數量的相關性更強,而不是與 IR 的相關性有關。當訓練例項數量較少時,例項多樣性對整合學習效能的影響較弱。

接著計算 IED 與其他三個多樣性指標之間的 Pearson 相關係數,分別是 Q 統計量、相關係數 𝜌 和分歧度量。Pearson 相關係數衡量兩個變數之間的關聯強度,接近 1 的值表示強相關性。結果如下圖所示,其中 x 軸表示按少數類例項數升序排序的 44 個資料集,y 軸表示係數值。可見在大多數資料集上,從 IED 資料級度量和三個基於分類器的度量中獲得的多樣性值之間的高度相關性。

配對演算法的魯棒性

此處透過比較貪婪配對演算法和最優配對演算法來評估 IED 的魯棒性,下圖顯示了兩種配對演算法對每個資料集的 IED 結果的 Pearson 相關係數。平均 Pearson 相關係數為 0.98,表明兩種配對演算法的評價具有較高的相關性。隨著少數群體數量的增加,皮爾遜相關係數略有下降,總體而言兩種演算法計算的多樣性之間存在很強的相關性。表明貪婪演算法在測量資料級多樣性方面幾乎與最優配對演算法一樣有效,但複雜度更低。

複雜度分析

使用 IED 和其他三個多樣性度量來分析訓練整合學習模型的時間複雜度,使用梯度提升決策樹(GBDT)作為基分類器。下圖顯示了使用不同基數分類器數量的比較方法的執行時間,當基分類器比較複雜時,IED 的執行時間明顯低於其他三種多樣性指標。

下圖顯示了基於實現多樣性所需的重取樣操作次數的不同方法的執行時間,其中基分類器的個數設定為 10。結果表明隨著重取樣的增加,需要更多的時間來訓練整合學習模型,IED 的執行時間增長明顯低於其他三個多樣性指標。

投票策略的評估

此處對 Min-Max 函式和 Sigmoid 函式的效能進行比較,同時將本文的方案與其他四種投票策略進行了比較,分別是:Majority、Weight-accuracy、Weight-LR、Cascade voting。每種投票策略的獲勝時間如下圖所示,其中 Adaptive-M 和 Adaptive-S 分別表示使用 Min-Max 函式和 Sigmoid 函式的權重自適應投票策略,可見本文提出的策略在 AUC 和 G-Mean 指標上都始終具有優勢。

對比實驗

將提出的不平衡整合學習模型 P-EUSBagging 與其他 8 種方法進行了比較,這些對比演算法和引數設定如下表所示。

下面兩張表給出了 44 個資料集上所有方法的 AUC 和 G-mean 的測試結果,P-EUSBagging 在 AUC 和 G-mean 結果方面優於其他整合模型。

優點和創新點

個人認為,本文有如下一些優點和創新點可供參考學習:

  1. 針對現有的評估整合學習模型中基分類器的多樣性的方法的複雜性較高的問題,本文基於歐氏距離設計了一種新的指標 IED,結合本文提出的貪心演算法能夠高效地對多樣性進行評估;
  2. 基於 IED 指標,本文使用 PBIL 演算法生成例項多樣性最大的子資料集來訓練分類器,增強了基分類器的多樣性;
  3. 本文提出了一種自適應權重投票策略,該策略可以增大較強的基分類器的投票權重。

相關文章