Paper Reading: Cost-sensitive deep forest for price prediction

乌漆WhiteMoon發表於2024-07-31

目錄
  • 研究動機
  • 文章貢獻
  • 本文方法
    • 改進的 K-means 離散化
    • 代價敏感深度森林
  • 實驗結果
    • 汽車共享價格資料集實驗
    • 房屋租賃資料集實驗
    • 房地產銷售資料集實驗
  • 優點和創新點

Paper Reading 是從個人角度進行的一些總結分享,受到個人關注點的側重和實力所限,可能有理解不到位的地方。具體的細節還需要以原文的內容為準,部落格中的圖表若未另外說明則均來自原文。

論文概況 詳細
標題 《Cost-sensitive deep forest for price prediction》
作者 Chao Ma, Zhenbing Liu, Zhiguang Cao, Wen Song, Jie Zhang, Weiliang Zeng
發表期刊 Pattern Recognition
發表年份 2020
期刊等級 中科院 SCI 期刊分割槽(2023年12月最新升級版)1 區,CCF-B
論文程式碼 文中未公開

作者單位:

  1. School of Informatics, Xiamen University, China
  2. School of Electronic Engineering and Automation, Guilin University of Electronic Technology, China
  3. Department of Industrial Systems Engineering and Management, National University of Singapore, Singapore
  4. Institute of Marine Science and Technology, Shandong University, China
  5. School of Computer Science and Engineering, Nanyang Technological University, Singapore
  6. School of Automation, Guangdong University of Technology, China

研究動機

價格預測是機器學習和模式識別技術的重要任務,在多個相關領域都得到了廣泛的研究。價格預測方法大致可以分為兩類,第一類方法以時間序列的形式預測價格的趨勢,第二種方法側重於根據單個物品的特徵來預測其價格。本文專注於第二種型別的價格預測任務,大多數現有的價格預測工作採用基於迴歸的方法來預測價格的具體值。然而對於許多現實世界的應用程式,預測一個類別(或範圍)的價格要實際得多。雖然深度森林被認為是許多分類任務的最佳解決方案,但它不能直接應用於價格預測任務。傳統的深度森林通常將所有的錯誤分類成本等同對待,然而慮到價格預測的特點,需要透過考慮每個錯誤分類的成本來改進傳統的深度森林。從而使錯誤分類將被迫更接近真實的價格類別,同時保持令人滿意的準確性。

文章貢獻

針對價格預測問題的特點,本文提出了一種代價敏感的深度森林價格預測方法 CSDF。透過代價敏感方案對遠離真實價格類別的錯誤分類施加更高的成本,期望降低錯誤分類的成本並將其推向真實價格範圍。此外為了進一步提高整體效能,透過修改傳統的 K-means 方法,開發了一種改進的 K-means 離散化方法來預先定義價格的類別。基於多個真實資料集的實驗結果表明,與傳統深度森林和其他基準相比,本文提出的代價敏感深度森林可以顯著降低成本,同時保持較好的準確性。

本文方法

改進的 K-means 離散化

在價格預測中,價格的分佈往往是不均勻的。在統計學中經常使用變異係數 CV 衡量一個分佈的變異水平,CV 定義為標準差除以均值,CV 越大則變分水平越高。在離散化中通常採用區間內樣例數的變異係數 CVN 和區間範圍的變異係數CVR 來進行評價,一般來說 CVN 越小表示不平衡類越少,CVR 越小表示區間範圍越均勻。K-means 離散化在 CVN 和 CVR 方面往往表現出相對較好的效能,因為它在生成聚類時考慮了資料的方差和均值。
如果資料集包含過多的異常值,增加間隔的數量會降低 CVN、增加 CVR。本文提出一種改進的 K-means 來進一步提高離散化效能,為了獲得低 CVN 和較少間隔的 CVR,本文將異常值過多的間隔合併到相鄰的間隔中,並採用 isolation forest 來選擇這些間隔。首先將異常區間定義為隨著區間數量的增加而不發生變化的區間,然後定義了三種型別的最異常區間:範圍最大的區間、樣本數最少的區間、密度最小的區間。基於它們的修正 K-means 分別稱為 KMR、KMN 和 KMD,傳統 K-means 則稱為 KM。修改後的 K-means 的總體步驟如下:

  1. 將間隔數設定為最小的來執行傳統 K-means;
  2. 將間隔數增加 1,直到找到最異常的間隔;
  3. 將異常間隔中的所有價格設定為密集部分方向上的最近價格;
  4. 基於從步驟 3 獲得的新價格重複前 3 個步驟,直到步驟 2 中的間隔數等於所需數;
  5. 將步驟 4 開始的最終間隔設定為修正的 K-means。

代價敏感深度森林

不同類別的樣本被錯誤分類時,深度森林演算法對其代價的評估是等同的。為了在價格預測中解決這個問題,本文提出了一個代價敏感的深度森林 CSDF,它為每個錯誤分類分配特定的代價,同時保持準確性。首先定義一個代價矩陣,基於 K-means 或其改進變體進行離散化,選擇區間的中值作為中心。然後將兩個中心的距離視為這兩個類的距離,將其視為將一個類的樣本誤分類為另一個類的代價。假設 cij 是將 i 類樣本誤分類為 j 類的代價,代價矩陣 C 使用如下公式表示,其中 cij=cji、cii=0。

給定一個類標號為 y 的樣本,透過最佳化目標函式得到預測的類標籤 y-。其中 Ij 表示預測值為 j 而真實標籤為 i 的情況,P(y-j|y) 表示給定真標籤時預測的後驗機率,分類任務的成本就是對所有樣本進行分類的平均代價。

CSDF 的總體架構如下圖所示,每個基分類器都是代價敏感的。類向量透過 k 個基分類器的類向量的平均值計算得到,對於某一層的輸入為前一層的原始特徵向量與輸出的拼接。CSDF 第一層的輸入為原始特徵向量,透過該層的輸出根據代價矩陣計算代價。如果代價顯著降低,則將原始特徵向量與該層的輸出連線起來,作為下一層的輸入。下一層按照上面的描述進行訓練和評估,這個過程不斷迭代,直到代價沒有顯著降低,將代價停止下降的這一層的結果作為 CSDF 的輸出。

實驗結果

汽車共享價格資料集實驗

汽車共享價格資料集來源於 P2P 汽車共享平臺 START car Life,該資料集由中國三個城市的 116145 項汽車資訊組成。選擇汽車的 19 個屬性作為特徵,如下圖所示。

下圖展示了資料集的價格分佈,大部分的價格值都在 1000 以下,高於 1000 的價格值在很大範圍內是稀疏分佈的。本文將價格預測作為一個分類任務,採用離散化方法將價格劃分為區間,並將區間作為標籤。隨機分層抽取 70% 的資料作為訓練集,剩餘的資料用於測試。

根據價格分佈將區間數設定為 4~19,並採用上述所有離散化方法實現。圖(a)展示了 EPI、EOH2、KM 的 CVN 和 CVR,其中 KM 的 CVN 和 CVR 較低,優於 EPI 和 EOH。圖(b)展示了 K-means 和修改後的 K-means 的 CVN 和 CVR,所有修改後的 K-means 的 CVN 和 CVR 都隨著區間數的增加而減小,並且在大多數情況下都小於 K-means 的 CVN 和 CVR,這驗證了修改後的K -means 的有效性。

將 CSDF 和 DF 的效能進行比較,其代價分別如下圖所示。可見對於所有離散化方法,CSDF 的大部分代價都低於 DF 的代價,同時這兩種方法在修正 K-means 上的代價都比其他離散化方法要小。

下圖展示了 CSDF 和 DF 的精度,可以看到兩種方法的精度值隨著類別數量的增加而下降。結果表明 CSDF 可以顯著降低 DF 的分類成本,使誤分類更接近真實區間,同時保持與 DF 幾乎相同的精度。

房屋租賃資料集實驗

接著在房屋租賃價格資料集上驗證 CSDF 方法的效能,該資料集包括 66735 個房屋記錄,具有 16 個特徵。隨機分層抽取 70% 的資料項作為訓練集,剩餘 30% 用於測試。下圖顯示了整個資料集的價格分佈,可以看到大多數價格值低於 300,而高於 300 的價格值在很大範圍內稀疏分佈。考慮到房價的區間約為汽車共享價格的三分之一,將房屋租賃價格的區間數設定為 3~9。

首先比較 K-means 和修改的 K-means 的 CVN 和 CVR,從下圖中可以看出修改的 K-means 的 CVN 和 CVR 都小於 K-means,說明修改過的 K-means 使區間更加均勻和平衡。

接著比較 DF 和 CSDF 在代價和精度方面的差異,代價的對比結果如下圖所示,可見 CSDF 的大部分代價都低於 DF。

精度的對比結果如下圖所示,可見 CSDF 的精度在開始時與 DF 幾乎相同,隨著間隔數的增加,CSDF 的精度略高於 DF。

房地產銷售資料集實驗

在房地產銷售的價格資料集上進一步評估本文的方法,該資料集包括 1460 個具有 79 個特徵的房地產樣本。隨機分層抽取 70% 的樣本作為訓練集,剩餘 30% 用於測試。下圖顯示了整個資料集的價格分佈,可以看到大部分的價格值都在 40 萬以下,將房屋銷售資料的區間(即類別)的數量設定為 3~12。

首先對離散化的 K-means 和修改的 K-means 進行評估,如下表所示,可以看到四種方法的 CVN 和 CVR 都是相同的。

然後比較 RF、RoF、DF 和 CSDF 的分類準確率,如下圖所示,可見隨著區間數的增加所有精度值都有所下降,但 DF 和 CSDF 的總體精度都是最好的。

DF 和 CSDF 的成本的比較如下表所示,除了區間數 11 之外,CSDF 的成本均低於 DF,這進一步證明了 CSDF 在降低價格預測成本方面的有效性。

綜上所述,CSDF 在汽車共享、房屋租賃和房地產銷售的價格預測方面取得了更好的整體表現,具有較高的準確率和較低的成本,具有較強的泛化能力。

優點和創新點

個人認為,本文有如下一些優點和創新點可供參考學習:

  1. 針對價格預測問題中的資料不平衡,本文將代價敏感學習和深度森林模型進行結合,使其可以基於代價進行訓練;
  2. 本文將 k-means 和 isolation forest 結合進行改進,實現了低 CVN 和 CVR 的離散化效果。

相關文章