資料分佈不平衡是機器學習工作流中的一個重要問題。所謂不平衡的資料集，意思就是兩個類中一個類的例項比另一個要高，換句話說，在一個分類資料集之中，所有類的觀察值的數量是不一樣的。這個問題不僅存在於二進位制類資料中，也存在於多類資料中。

　　本文中將列出一些重要的技術，幫助您處理不平衡的資料。

　　 1、過取樣(Oversampling)

　　此技術用於修改不相等的資料類以建立平衡的資料集。當資料量不足時，過取樣法透過增大稀有樣本的大小來達到平衡。

　　過取樣的一種主要技術是SMOTE(合成少數過取樣技術，Synthetic Minority Over-sampling TEchnique)。在這種技術中，少數類是透過生成合成算例而不是透過替換來進行過取樣的，而且對於每一個少數類的觀察值，它都計算出k最近鄰(k-NN)。但這種方法僅限於假設任意兩個正例項之間的區域性空間屬於少數類、訓練資料不是線性可分的情況下，這種假設可能並不總是正確的。根據所需的過取樣量，隨機選擇k-NN的鄰域。

　　優勢

　　·無資訊損失

　　·減少過度取樣引起的過擬合。

　　深入研究SMOTE技術，請點選。

　　 2、欠取樣(Undersampling)

　　與過取樣不同，這種技術透過減少類的數量來處理一個不平衡的資料集。分類問題有多種方法，如聚類中心和Tomek links。聚類中心方法用K-means演算法的聚類中心代替樣本的聚類;Tomek link方法去除類之間不需要的重疊，直到所有最小距離的最近鄰都屬於同一個類。

　　優勢

　　·可以透過減少訓練資料集的數量來改進執行時。

　　·有助於解決記憶問題

　　有關欠取樣的更多資訊，請單擊。

　　 3、成本敏感學習技術(Cost-Sensitive Learning)

　　成本敏感學習(CSL)透過最小化總成本來將誤分類成本加入考慮因素中，這種技術的目標主要是追求將例項分類為一組已知類時的高精度，它在機器學習演算法中發揮著重要的作用，包括現實資料探勘類應用。

　　該方法將FP(False Positive)、FN (False Negative)、TP (True Positive)、TN (True Negative)的成本表示為成本矩陣，如下圖所示，其中C(i,j)表示對例項進行分類的誤分類成本，“i”為預測類，“j”為實際類。這是一個二元分類的成本矩陣的例子。

　　優勢

　　·該方法避免了引數的預先選擇和決策超平面的自動調整。

　　深入瞭解CSL技術，請單擊。

　　 4、整合學習技術(Ensemble Learning)

　　這個基於整合的方法是處理不平衡資料集的另一種技術，整合技術是將多個分類器的結果或效能結合起來，以提高單個分類器的效能。該方法透過裝配不同的分類器來修改單個分類器的歸納能力。它主要結合了多個基礎學習器的輸出。整合學習有多種方法，如Bagging、Boosting等。

　　Bagging(Bootstrap Aggregating)，試圖在較小的資料集上實現相似的學習器，然後取所有預測的平均值。Boosting (Adaboost)是一種迭代技術，它根據最後的分類調整觀察值的權重。該方法減少了偏置誤差，建立了較強的預測模型。

　　優勢

　　·這是一個更穩定的模型

　　·預測結果更好

　　瞭解有關此技術的更多資訊，請單擊。

　　 5、組合類方法(Combined Class Methods)

　　該方法將各種方法組合在一起，能夠更好地處理不平衡資料。例如，SMOTE可以與其他方法進行組合，如MSMOTE (Modified SMOTE)、SMOTEENN (SMOTE with edit Nearest neighbor)、SMOTE- tl、SMOTE- el等，來消除不平衡資料集中的噪聲。MSMOTE是SMOTE的改進版本，它將少數類的樣本分為三類，如安全樣本、潛伏噪聲樣本和邊界樣本。

　　優勢

　　·不丟失有用資訊

　　·很好的歸納

　　原文作者：AMBIKA CHOUDHURY 來源：Analytics India Magazine

機器學習：處理不平衡資料的5個重要技術

相關文章