Feature Selection詳解（附帶Relief、Relief-F、LVM詳解）（二）

Leon1895發表於2018-10-17

原文網址 : https://blog.csdn.net/qq_40793975/article/details/83104537

Feature Selection詳解

第二十六次寫部落格，本人數學基礎不是太好，如果有幸能得到讀者指正，感激不盡，希望能借此機會向大家學習。這一篇承接上一篇《Feature Selection詳解（附帶Relief、Relief-F、LVM詳解）（一）》的內容，仍然是針對特徵選擇問題的其他幾種常見方法進行闡述，並介紹其中一種比較經典的特徵選擇演算法（LVM）。

“包裹式”特徵選擇

與過濾式方法在選擇特徵時不考慮學習器不同，“包裹式”特徵選擇方法將學習器的效能作為特徵子集的度量方法考慮進來，因此，包裹式選擇方法可以被認為是為指定學習器選擇最適合的特徵子集。實驗證明，雖然使用該方法的最終學習器的效能要高於過濾式，但是由於特徵選擇過程中需要對學習器進行多次訓練，因此大大增加了計算開銷。
LVW（Las Vegas Wrapper）是一個典型的包裹式特徵選擇方法，於1996年由Liu和Setiono提出，他是“拉斯維加斯演算法”（Las Vegas Algorithm）的一種改進版本，拉斯維加斯演算法是一種隨機搜尋策略，在給定執行時間限制的情況下，該演算法可能得不到最優的結果，在搜尋空間很大（特徵很多）而又不設定時間限制時，可能會得不到最終結果。LVW在隨機搜尋的過程中，加入訓練學習器並評估學習器效能的步驟，演算法虛擬碼如下圖所示。

Feature Selection詳解（附帶Relief、Relief-F、LVM詳解）（二）

圖2 LVM演算法

演算法第1-4行：初始化最小分類錯誤率 $E$ 、當前最優特徵子集大小 $d$ 、當前最優特徵子集 $A^*$ 以及當前執行次數 $t$ ，將原始資料集劃分為訓練集和驗證集；
演算法第5行：為該演算法新增明確的時間界；
演算法第6-7行：在原始特徵集合 $A$ 中隨機選擇特徵子集 $A'$ ，設定該輪迴圈的特徵子集大小 $d'$ ；
演算法第8行：在當前樣本空間（只保留 $A'$ 中的值）中，通過訓練集訓練指定的學習器，並通過驗證集測試該學習器的分類錯誤率 $E'$ ；
演算法第9-14行：如果該輪迴圈得到的學習器分類錯誤率 $E'$ 低於 $E$ ，或者 $E'$ 等於 $E$ 且該輪迴圈的特徵子集大小 $d'$ 小於 $d$ ，就將當前執行次數 $t$ 清零，將 $E$ 設定為 $E'$ ， $d$ 設定為 $d'$ ， $A^*$ 設定為 $A'$ ，否則，執行次數增一。

“嵌入式”特徵選擇

在過濾式和包裹式特徵選擇中，特徵選擇過程與學習器訓練過程由明顯的分別，與此不同，“嵌入式”特徵選擇是將特徵選擇過程與學習器訓練過程結合在一起，兩者在同一個優化過程中完成，即在學習器訓練過程中自動完成特徵選擇。
線上性迴歸問題中，優化目標可以表示為

為了防止過擬合，在上述優化目標中加入 $L_2$ 正則項，得到下式

其中， $\lambda$ 是正則化係數，上式被稱為“嶺迴歸”（Ridge Regression）。現在將 $L_2$ 正則項替換為 $L_1$ 正則項，那麼可以得到

上式被稱為LASSO（Least Absolute Shrinkage and Selection Operator），通過加入 $L_1$ 正則項得到的解更加稀疏，因此可以作為一種有效的嵌入式特徵選擇方法，這種問題的最終解可以通過“近端梯度下降”（Proximal Gradient Descent，簡稱PGD）得到，假設優化目標可以表示為

這裡 $\mathbf{x}$ 是優化變數，令 $\triangledown$ 表示微分運算元。如果 $f\left(\mathbf{x}\right)$ 可導，且滿足L-Lipschitz條件，即存在常數 $L>0$ 使得下式成立

則在 $\mathbf{x}_k$ 附近可以將 $f\left(\mathbf{x}_k\right)$ 通過二階泰勒展開式近似為

其中， $\text{const}$ 是與 $\mathbf{x}$ 無關的常數， $\langle\centerdot,\centerdot\rangle$ 是內積，上式的最小值在如下 $\mathbf{x}_{k+1}$ 獲得，

如果通過梯度下降法對 $f\left(\mathbf{x}\right)$ 進行最小化，那麼每一步梯度下降迭代實際上等價於最小化二次函式 $\hat{f}\left(\mathbf{x}\right)$ ，將這種思想推廣到帶有 $L_1$ 正則項的優化目標，可以類似的得到其每一步迭代為

即在每一步進行梯度下降的同時考慮 $L_1$ 範數最小化，對於上式，可以先計算

然後求解

由於優化引數的各個分量之間不相關，因此上式由如下閉式解

其中 $x^i_{k+1}$ 和 $z^i$ 分別是向量 $\mathbf{x}_{k+1}$ 和 $\mathbf{z}$ 的第 $i$ 個分量。

參考資料

【1】《機器學習》周志華
【2】《The Feature Selection Problem :Traditional Methods and a New Algorithm》Kenji Kira,Larry A. Rendell
【3】《Estimating Attributes: Analysys and Extensions of RELIEF》 Igor Kononenko
【4】《Feature Selection And Classification - A Probabilistic Wrapper Approach》 Huan Liu,Rudy Setiono

linux LVM詳解
2020-01-21
LinuxLVM
CTMediator 原理詳解（二）
2019-01-07
Android Service詳解(二)
2019-02-23
Android
Spring Aop 詳解二
2020-10-21
Spring
Java集合詳解(二)
2020-11-01
Java
Flutter 動畫詳解（二）
2018-10-29
Flutter動畫
Flutter常用Widget詳解（二）
2019-02-21
Flutter
JavaScript繼承詳解（二）
2021-09-09
JavaScript繼承
Redis三種特殊資料型別API詳解附帶詳細使用場景
2020-12-03
Redis資料型別API
Java基礎面試題型整理,附帶答案詳解
2021-01-15
Java面試題
帶你走進CSS定位詳解
2018-08-03
CSS
Threejs之二:相機詳解
2019-03-01
JS
【詳解】JNI (Java Native Interface) （二）
2018-10-26
Java
iOS之runtime詳解api(二)
2019-03-03
iOSAPI
詳解C#泛型（二）
2018-11-15
C#泛型
Go 語言介面詳解（二）
2019-04-15
Go
Scrapy基礎（二）：使用詳解
2018-12-12
詳解二分查詢
2024-06-09
influx詳解(二):配置檔案
2018-04-24
UX
元件化實踐詳解（二）
2018-04-13
元件化
Azure Terraform（二）語法詳解
2020-12-28
ORM
C語言指標詳解（二）
2018-10-25
C語言指標
【詳解】ThreadPoolExecutor原始碼閱讀（二）
2018-11-01
thread原始碼
詳解C#特性和反射（二）
2018-09-26
C#反射
JavaScript二級下拉選單詳解
2018-08-11
JavaScript
委託與事件-事件詳解（二）
2019-07-20
事件
sqli-labs第二關詳解
2020-10-05
SQL
MySQL之SQL優化詳解（二）
2019-06-30
MySql優化
JDK8新特性詳解（二）
2020-12-23
JDK
Sharding-JDBC分片策略詳解（二）
2020-12-04
JDBC
使用全卷積神經網路FCN，進行影像語義分割詳解(附帶Tensorflow詳解程式碼實現)
2020-07-24
卷積神經網路
http協議/cookie詳解/session詳解
2018-05-04
HTTP協議CookieSession
阿里大師帶你詳解API介面安全
2019-04-30
阿里API
詳解C#委託和事件（二）
2018-10-17
C#事件
Flutter 佈局（二）- Padding、Align、Center詳解
2018-06-10
Flutterpadding
HTTPS詳解-加密演算法（二）完
2018-07-23
HTTP加密演算法
solidity案例詳解（二）眾籌合約
2024-02-07
Solid
Dart語言詳解（二）——基本語法
2020-03-11
Dart

Feature Selection詳解（附帶Relief、Relief-F、LVM詳解）（二）

Feature Selection詳解

“包裹式”特徵選擇

“嵌入式”特徵選擇

參考資料

相關文章