L1正則化與嵌入式特徵選擇(稀疏性)

香橙雲子發表於2018-02-06

原文網址 : https://juejin.im/post/5a79ac19f265da4e8a31d098

嶺迴歸的歷史可追溯到1943年由A.Tikhonov發表在《蘇聯科學院院刊》上的一篇文章，我們知道計算機是在1946年發明出來的，由此可見，這是一個歷史悠久的演算法，至今依舊有生命力，屬於經典演算法之一。

嶺迴歸，是線性迴歸的L2正則化方式。本質上是一種迴歸。

給定資料集D = {(x1,y1),(x2,y2),...,(xm,ym)},其中xϵR^d dimension，yϵR。我們考慮最簡單的線性迴歸模型,以平方誤差為損失函式：

對於正則化不太瞭解的朋友可以看我這一篇文章《L1與L2正則化》，但是我們這裡對於正則化有一些更加深入的理解。

正則化(Regularization)是在被優化的目標函式中，新增一項與常數因子λ相乘(有時候也使用α)的引數，這一項就叫做正則項。我們很容易知道，由於目標函式總是向最小化方向發展，則被加進來的這一項會受到懲罰使之更傾向於小。具體的理解可以參考我的《L1與L2正則化》。以下是線性迴歸帶正則化的目標函式表示式。

帶L1正則化的線性迴歸的目標函式：

帶L2正則化的線性迴歸的目標函式，也就是我們提到的嶺迴歸：

以上是正則化的感性認識以及其工作原理。我們常用的正則化為L1和L2正則化，也稱L1範數正則化與L2範數正則化。這兩種正則化都可以用來降低過擬合的風險，但是L1正則化比L2正則化多一個優勢在於，其可以更容易獲得稀疏(sparse)解，即其會有更少的非零分量。

我舉一個直觀的例子。假設x僅僅有兩個屬性，於是根據線性迴歸的目標函式求解，w都之後有兩個分量。即w1與w2，以此為座標軸，畫出一個座標系。如圖所示

那麼我們取在這個(w1,w2)空間裡平方誤差取值一樣的點連成線，就成了我們的平方誤差項等值線。再畫出L1，L2範數的等值線，即在(w1,w2)空間中L1範數與L2範數取值相同的點的連線，如圖所示。我們知道，平方誤差等值線與正則化項等值線的交點為帶正則化項的線性迴歸目標函式的解。我們從圖中可以看出，平方誤差等值線與L1正則化等值線的交點，在座標軸的頻率更高，即w1或w2為0；二平方誤差等值線與L2正則化等值線的交點更容易出現在象限中，即w1與w2均不為0。由此可見，採用L1範數正則化比L2範數更容易得到稀疏解。

注意到w取得稀疏解則意味著初始的d個特徵中僅有對應著w的非零分量的特徵才會出現在最終模型中，所以求得的結果是得到了僅採用一部分初始特徵的模型。我們便可以將L1鄭澤華的學習方法視為一種特徵選擇方法，刪掉了部分特徵(特徵為0)，特徵選擇過程與學習器訓練過程融為一體，同時完成。

L1和L2正則的區別，如何選擇L1和L2正則？

L1在0處不可導，怎麼處理他們都是可以防止過擬合，降低模型複雜度L1是在loss function後面加上模型引數的1範數（也就是|xi|）L0範數的最小化問題在實際應用中是NP難問題，無法實際應用
L2是在loss function後面加上模型引數的2範數（也就是sigma(xi^2)），注意L2範數的定義是sqrt(sigma(xi^2))，在正則項上沒有新增sqrt根號是為了更加容易優化L1 會產生稀疏的特徵L2 會產生更多地特徵但是都會接近於0
L1會趨向於產生少量的特徵，而其他的特徵都是0，而L2會選擇更多的特徵，這些特徵都會接近於0。L1在特徵選擇時候非常有用，而L2就只是一種規則化而已。
L1對應拉普拉斯分佈，L2對應高斯分佈，L1偏向於引數稀疏性，L1不可導可以使用近似演算法或者ADMM來解決

機器學習之稀疏性正則化：L1 正則化
2020-06-28
機器學習
「機器學習速成」稀疏性正則化：L1正則化
2019-06-24
機器學習
正則化與模型選擇
2019-01-25
模型
ch11 特徵選擇與稀疏學習
2024-06-21
特徵
xgboost 特徵選擇，篩選特徵的正要性
2018-04-17
特徵
機器學習筆記——模型選擇與正則化
2020-10-17
機器學習筆記模型
【機器學習】--魯棒性調優之L1正則，L2正則
2018-03-31
機器學習
【小技巧】巧用CSS屬性值正則匹配選擇器
2020-03-11
CSS
xgboost 特徵重要性選擇 / 看所有特徵哪個重要
2018-06-06
特徵
特徵工程之特徵選擇
2018-10-26
特徵工程
使用PyTorch實現L1, L2和Elastic Net正則化
2024-05-10
PyTorchAST
特徵選擇和特徵生成問題初探
2018-07-29
特徵
特徵工程特徵選擇 reliefF演算法
2020-11-07
特徵工程演算法
[WPF] 可選擇的TextBlock，正則匹配高亮顯示
2024-10-12
BloC
正則化
2023-04-06
從線性迴歸來理解正則化
2021-06-21
反射,hashlib模組,正則匹配,冒泡，選擇，插入排序
2020-04-04
反射排序
RF、GBDT、XGboost特徵選擇方法
2018-04-19
特徵
特徵選擇技術總結
2022-11-24
特徵
L1 和L2(Frobenius弗羅貝尼烏斯)正則化複習筆記
2018-07-02
筆記
神經網路損失函式中的正則化項L1和L2
2018-05-07
神經網路函式
決策樹模型(2)特徵選擇
2024-03-26
模型特徵
機器學習中的範數規則化-L0,L1和L2正規化
2019-02-20
機器學習
核範數與規則項引數選擇
2020-04-06
XGBoost 輸出特徵重要性以及篩選特徵
2018-08-26
特徵
原理解析-過擬合與正則化
2020-12-05
機器學習 – 特徵選擇演算法流程、分類、優化與發展綜述
2019-03-04
機器學習特徵演算法優化
基於條件熵的特徵選擇
2020-08-09
熵特徵
機器學習之簡化正則化:L2 正則化
2020-06-20
機器學習
【特徵工程】（資料）使用Xgboost篩選特徵重要性
2019-12-14
特徵工程
正則化詳解
2021-01-10
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（五）
2020-05-24
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（四）
2020-05-07
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（一）
2020-04-22
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（二）
2020-04-24
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（三）
2020-04-24
特徵工程
保健品選擇與服用的哲學原則
2024-05-11
[Python人工智慧] 六.神經網路的評價指標、特徵標準化和特徵選擇
2018-06-12
Python人工智慧神經網路指標特徵
演算法金 | DL 騷操作掃盲，神經網路設計與選擇、引數初始化與最佳化、學習率調整與正則化、Loss Function、Bad Gradient
2024-07-10
演算法神經網路Function

L1正則化與嵌入式特徵選擇(稀疏性)

L1和L2正則的區別，如何選擇L1和L2正則？

相關文章