SMOTE與SMOGN演算法R語言程式碼

疯狂学习GIS發表於2024-07-15

原文網址 : https://www.cnblogs.com/fkxxgis/p/18302987

本文介紹基於R語言中的UBL包，讀取.csv格式的Excel表格檔案，實現SMOTE演算法與SMOGN演算法，對機器學習、深度學習迴歸中，訓練資料集不平衡的情況加以解決的具體方法。

在之前的文章SMOGN演算法Python實現：解決迴歸分析中的資料不平衡中，我們介紹了基於Python語言中的smogn包，實現SMOGN演算法，對機器學習、深度學習迴歸中訓練資料集不平衡的情況加以解決的具體方法；而我們也在上述這一篇文章中提到了，SMOGN演算法的Python實現實在是太慢了，且Python還無法較為方便地實現迴歸資料的SMOTE演算法。因此，我們就在本文中介紹一下基於R語言中的UBL包，實現SMOTE演算法與SMOGN演算法的方法。對於這兩種演算法的具體介紹與對比，大家參考上述提到的這一篇文章即可，這裡就不再贅述了。

首先，我們配置一下所需用到的R語言UBL包。包的下載方法也非常簡單，我們輸入如下的程式碼即可。

install.packages("UBL")

輸入程式碼後，按下回車鍵，執行程式碼；如下圖所示。

接下來，我們即可開始程式碼的撰寫。在這裡，我們最好透過如下的方式新建一個R語言指令碼（我這裡是用的RStudio）；因為後期執行演算法的時候，我們往往需要對比多種不同的引數搭配效果，透過指令碼來執行程式碼會比較方便。

其中，我們需要的程式碼如下所示。

library(UBL)
csv_path <- r"(E:\01_Reflectivity\99_Model_Training\00_Data\02_Extract_Data\26_Train_Model_New\Train_Model_0710.csv)"
result_path <- r"(E:\01_Reflectivity\99_Model_Training\00_Data\02_Extract_Data\26_Train_Model_New\Train_Model_0710_smote_nir.csv)"
data <- read.csv(csv_path)
data_nona <- na.omit(data)
data_nona$PointType <- as.factor(data_nona$PointType)
data_nona$days <- as.factor(data_nona$days)

data_smote <- SmoteRegress(inf_dif~., data_nona, dist = "HEOM", C.perc = "balance")
data_smogn <- SMOGNRegress(inf_dif~., data_nona, thr.rel = 0.6, dist = "HEOM", C.perc = "extreme")

hist(data_nona$inf_dif, breaks = 50)
hist(data_smote$inf_dif, breaks = 50)
hist(data_smogn$inf_dif, breaks = 50)

write.csv(data_smogn, file = result_path, row.names = FALSE)
write.csv(data_smote, file = result_path, row.names = FALSE)

其中，上述程式碼的具體含義如下。

首先，透過library(UBL)將我們剛剛配置好的UBL包加以載入，該包提供了處理不平衡資料的函式和演算法；隨後，我們可以設定輸入的.csv格式檔案的路徑，這一檔案中儲存了我們需要加以處理的資料；隨後，我們設定輸出的.csv格式檔案的路徑，這一檔案就是我們加以處理後的結果資料。

接下來，我們使用read.csv函式讀取輸入的.csv格式檔案，並將其儲存在變數data中。其後的data_nona <- na.omit(data)程式碼表示，去除資料中的缺失值，將處理後的資料儲存在data_nona中。隨後，這裡需要注意，由於我們的輸入資料中含有數值型的類別變數，因此需要將其轉換為因子（factor）型別，這樣才可以被UBL包識別為類別變數。

接下來，第一個函式SmoteRegress()就是使用SMOTE演算法對data_nona進行迴歸任務的不平衡處理——其中inf_dif是目標變數（因變數），~.表示使用所有其他列作為特徵（自變數），dist = "HEOM"表示使用HEOM（Heterogeneous Euclidean-Overlap Metric）距離度量（注意，只要我們的輸入資料中有類別變數，那麼就需要用這一種距離表示方式），最後的C.perc = "balance"表示平衡類別比例。

隨後的SMOGNRegress()函式，則是使用SMOGN演算法對 data_nona 進行迴歸任務的不平衡處理——其中thr.rel = 0.6表示設定相對閾值為0.6，這個引數設定的越大，演算法執行的程度越深；其他引數則和前一個函式類似。這裡如果大家需要對兩個函式的引數加以更進一步的理解，可以直接訪問其官方網站。

最後，為了比較一下我們執行SMOTE演算法與SMOGN演算法的結果，可以繪製一下data_nona中，目標變數inf_dif的直方圖，breaks = 50表示將直方圖分成50個條塊。

如果透過直方圖確定我們演算法處理後的資料可以接受，那麼就可以將處理結果資料寫入到輸出的.csv格式檔案，row.names = FALSE表示不儲存行索引。

執行上述程式碼後，我們可以實際看一下三個直方圖的結果情況。首先，是處理前的資料，如下圖所示。

其次，是SMOTE演算法處理後的資料，如下圖所示。

最後，是SMOGN演算法處理後的資料，如下圖所示。

基於以上圖片可以很清楚地看出，SMOTE演算法與SMOGN演算法確實對於原始的資料分佈而言，有著明顯的改變作用。

至此，大功告成。

探索SMOTE演算法
2020-02-18
演算法
R語言：KEGG富集、視覺化教程，附程式碼
2024-06-14
R語言視覺化
r語言
2019-10-18
R語言
【R語言入門】R語言環境搭建
2021-09-09
R語言
R 語言使用
2024-06-10
R語言入門與資料分析
2024-04-20
R語言
【R語言入門】R語言中的變數與基本資料型別
2020-11-28
R語言變數資料型別
最短路徑——dijkstra演算法程式碼（c語言）
2020-05-18
演算法C語言
最短路徑——floyd演算法程式碼（c語言）
2020-05-19
演算法C語言
繪製三元圖、顏色空間圖：R語言程式碼
2024-03-27
R語言
《R語言入門與資料分析》——向量索引
2020-10-02
R語言索引
R語言快速入門
2018-09-18
R語言
R語言：畫樹圖
2018-09-22
R語言
什麼是r語言
2019-10-16
R語言
R語言函式-tolower
2020-11-17
R語言函式
R語言社群主題檢測演算法應用案例
2020-12-03
R語言演算法
使用crul庫和R語言的下載器程式
2023-10-19
R語言
C語言簡單程式碼程式
2020-09-25
C語言
低程式碼與大語言模型的探索實踐
2024-02-24
模型
R語言的入門教程
2023-12-21
R語言
R語言-Survival analysis（生存分析）
2019-05-31
R語言
C 語言程式碼總結
2020-12-04
R語言程式設計藝術第2章向量(上)
2019-01-25
R語言程式設計
使用 R 語言實現簡單的文字識別程式
2024-11-05
使用R語言分析微信好友
2018-10-05
R語言
R語言批量建立資料框
2018-09-28
R語言
Lasso迴歸及其R語言操作
2024-04-08
R語言
R語言的初級學習
2024-04-27
R語言
R語言資料質量分析
2024-03-21
R語言
Python真的勒死R語言了嗎？
2019-08-25
PythonR語言
R語言經典統計分析
2024-10-16
R語言
python和r語言的區別
2021-09-11
PythonR語言
社交網路分析的 R 基礎：（一）初探 R 語言
2022-02-05
編譯語言、解釋語言與指令碼語言之間的區別
2018-12-24
編譯指令碼
為什麼自制指令碼語言是程式語言的最高境界？
2018-07-24
指令碼
R語言連線資料庫（MySQL)
2018-07-06
R語言資料庫MySql
R語言學習-迴歸診斷
2019-02-03
R語言
Mann–Whitney U test R語言檢驗
2024-10-19
R語言

SMOTE與SMOGN演算法R語言程式碼

相關文章