機器學習--分類變數編碼方法
前言
最近在Medium上看到一篇關於分類變數編碼的方法概述,記錄一下,主要講述了除了One-Hot encoding 編碼外,根據不同應用場景,也許會有更好的選擇。
one-hot 編碼(one-hot encoding)類似於虛擬變數(dummy variables),是一種將分類變數轉換為幾個二進位制列的方法。其中 1 代表某個輸入屬於該類別。
從機器學習的角度來看,one-hot 編碼並不是一種良好的分類變數編碼方法。
因為one-hot 編碼增加了大量的維度,要列舉該特徵下的所有取值情況。例如,如果用一個序列來表示美國的各個州,那麼 one-hot 編碼會帶來 50 多個維度。
one-hot 編碼不僅會為資料集增加大量維度,而且實際上並沒有太多資訊,很多時候 1 散落在眾多零之中,即有用的資訊零散地分佈在大量資料中。這會導致結果異常稀疏,使其難以進行優化,對於神經網路來說尤其如此。
更糟糕的情況是,每個資訊稀疏列之間都具有線性關係。這意味著一個變數可以很容易地使用其他變數進行預測,導致高維度中出現並行性和多重共線性的問題。
例如下面這種情況:
最優資料集由資訊具有獨立價值的特徵組成,但 one-hot 編碼建立了一個完全不同的環境。
當然,如果只有三、四個類,那麼 one-hot 編碼可能不是一個糟糕的選擇。但是隨著類別的增加,可能還有其他更合適的方案值得探索。Medium 專欄的作者列舉了幾個方案以供參考。
目標編碼
目標編碼(Target encoding)是表示分類列的一種非常有效的方法,並且僅佔用一個特徵空間,也稱為均值編碼。該列中的每個值都被該類別的平均目標值替代。這可以更直接地表示分類變數和目標變數之間的關係,並且也是一種很受歡迎的技術方法(尤其是在 Kaggle 比賽中)。
但這種編碼方法也有一些缺點。首先,它使模型更難學習均值編碼變數和另一個變數之間的關係,僅基於列與目標的關係就在列中繪製相似性。
而最主要的是,這種編碼方法對 y 變數非常敏感,這會影響模型提取編碼資訊的能力。
由於該類別的每個值都被相同的數值替換,因此模型可能會過擬合其見過的編碼值(例如將 0.8 與完全不同的值相關聯,而不是 0.79),這是把連續尺度上的值視為嚴重重複的類的結果。
因此,需要仔細監控 y 變數,以防出現異常值。要實現這個目的,就要使用 category_encoders 庫。由於目標編碼器是一種有監督方法,所以它同時需要 X 和 y 訓練集。
from category_encoders import TargetEncoder
enc = TargetEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)
留一法編碼
留一法(Leave-one-out)編碼試圖通過計算平均值(不包括當前行值)來彌補對 y 變數的依賴以及值的多樣性。這使異常值的影響趨於平穩,並建立更多樣化的編碼值。
由於模型不僅要面對每個編碼類的相同值,還要面對一個範圍值,因此它可以更好地泛化。
在實現方面,可以使用 category_encoders 庫中的 LeaveOneOutEncoder
from category_encoders import LeaveOneOutEncoder
enc = LeaveOneOutEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)
實現類似效果的另一種策略是將正態分佈的噪聲新增到編碼分數中,其中標準差是可以調整的引數。
貝葉斯目標編碼
貝葉斯目標編碼(Bayesian Target Encoding)是一種使用目標作為編碼方法的數學方法。僅使用均值可能是一種欺騙性度量標準,因此貝葉斯目標編碼試圖結合目標變數分佈的其他統計度量。例如其方差或偏度(稱為高階矩「higher moments」)。
然後通過貝葉斯模型合併這些分佈的屬性,從而產生一種編碼,該編碼更清楚類別目標分佈的各個方面,但是結果的可解釋性比較差
證據權重
證據權重(Weight of Evidence,簡稱 WoE)是另一種關於分類自變數和因變數之間關係的方案。WoE 源自信用評分領域,曾用於區分使用者是違約拖欠還是已經償還貸款。證據權重的數學定義是優勢比的自然對數,即:
ln (% of non events / % of events)
WoE 越高,事件發生的可能性就越大。「Non-events」是不屬於某個類的百分比。使用證據權重與因變數建立單調關係,並在邏輯尺度上確保類別,這對於邏輯迴歸來說很自然。WoE 是另一個衡量指標「Information Value」的關鍵組成部分。該指標用來衡量特徵如何為預測提供資訊。
from category_encoders import WOEEncoder
enc = WOEEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)
這些方法都是有監督編碼器,或者是考慮目標變數的編碼方法,因此在預測任務中通常是更有效的編碼器。但是,當需要執行無監督分析時,這些方法並不一定適用。
非線性 PCA
非線性 PCA(Nonlinear PCA)是一種使用分類量化來處理分類變數的主成分分析(PCA)方法。它會找到對類別來說的最佳數值,從而使常規 PCA 的效能(可解釋方差)最大化。
相關文章
- 機器學習系列文章:引數方法(最大似然、分類)機器學習
- Java - 24 類變數和類方法Java變數
- 變數的分類(臨時(本地)變數、環境變數、全域性變數和系統變數)變數
- 利用機器學習進行惡意程式碼分類機器學習
- 機器學習總結(2)—分類中的代數模型機器學習模型
- 變分自編碼器VAE:一步到位的聚類方案聚類
- Java中變數之區域性變數、本類成員變數、父類成員變數的訪問方法Java變數
- 【機器學習】--xgboost初始之程式碼實現分類機器學習
- 【機器學習】支援向量機分類機器學習
- Python變數、編碼、註釋Python變數
- 【Linux】什麼是shell指令碼?shell變數分為哪幾類?Linux指令碼變數
- 人工智慧 (02) 機器學習 - 監督式學習分類方法人工智慧機器學習
- 快速瞭解 變分自編碼器 VAE
- 如何用機器學習對文字分類機器學習文字分類
- 如何選擇機器學習分類器?機器學習
- Java中的類(好似結構體) 物件(好似指標變數)變數 方法Java結構體物件指標變數
- java類變數Java變數
- Python實現類別變數的獨熱編碼(One-hot Encoding)Python變數Encoding
- 變分方法7
- IPC 方法分類
- Python檢視模組(變數、函式、類)方法Python變數函式
- 機器學習十講-第三講分類機器學習
- 機器學習3-分類演算法機器學習演算法
- 機器學習常用的分類器比較機器學習
- 機器學習--有監督學習--分類演算法(預測分類)機器學習演算法
- 機器學習(三):理解邏輯迴歸及二分類、多分類程式碼實踐機器學習邏輯迴歸
- 定量,變數柱塞泵的工作原理,分類,工作特性變數
- 【火爐煉AI】機器學習002-標記編碼方法AI機器學習
- 變分自編碼器(五):VAE + BN = 更好的VAE
- RFID 基礎/分類/編碼/調製/傳輸
- Java 變數種類Java變數
- arm彙編--變數變數
- 機器學習之樸素貝葉斯分類機器學習
- 機器學習4-分類演算法2機器學習演算法
- R成精-機器學習分類演算法機器學習演算法
- 機器學習概述、演變和方法資訊圖機器學習
- 分類任務loss不變
- 十四、類變數和實列變數(python)變數Python