從線性迴歸來理解正則化

ZhiboZhao發表於2021-06-21

原文網址 : https://www.cnblogs.com/zhaozhibo/p/14916406.html

本文主要以線性迴歸為切入點，分析了過擬合出現的原因以及正則化的理解，並從MLE和MAP兩個方面重新對線性迴歸進行了求解，揭示了MLE，MAP與正則化之間的關係。

一、最小二乘的簡要回顧

假設輸入空間為：

\(x_{m \times n} = (x_{1}, x_{2},...,x_{i},...,x_{m})^T\)

那麼每個輸入向量的特徵維度為\(n\)，相應地，訓練樣本表示為：

\(T=((x_{1}, y_{1}),(x_{2}, y_{2}),...,(x_{m}, y_{m}))\)

我們的目的就是找到一組引數\(w_{n \times 1}=(w_{1}, w_{2},..., w_{n})\)，使輸入向量與\(w\)的線性組合能夠儘可能地擬合輸出\(y\)，於是模型可以定義為：
\(xw = y\)

於是根據上篇文章定義的\(L_{2}\)損失函式，模型的經驗風險Loss可以定義為：

\(Loss = \dfrac{1}{2} \sum (y_{i}-x_{i}w)^{2} = \dfrac{1}{2} (y-xw)^{2}\)

於是引數的求解就轉化成最小化\(Loss\)，因此\(Loss\)對\(w\)求導，便可取得極小值。

\(\dfrac{\partial Loss}{\partial w} = \dfrac{\partial (y-xw)^{T}(y-xw)}{\partial w} = 2x^{T}(xw-y) = 0\)

因此，解得\(w = (x^{T}x)^{-1}x^{T}y\)

然而，當\(x^{T}x\)不可逆時，則不存在唯一的解析解，反映到機器學習中就是過擬合。從影像去噪來考慮，輸入的帶噪聲影像可以展開成一個\(hw \times 1\)的向量，通過神經網路來擬合對應清晰影像每一個畫素位置的值，那麼所學到的引數矩陣可以簡單地定義為\(\theta_{1 \times hw}\)，以線性迴歸的視角得到引數\(\theta\)的解析解為：

\(\theta_{1 \times hw} = (xx^{T})^{-1}xy^{T}\)

若\(xx^{T}\)不為滿秩，則不存在逆。由於深度學習需要大量的外部影像樣本不斷學習引數\(\theta\)，相當於網路在求解這\(n\)多個非線性方程組。若方程組的個數小於特徵的維度，那麼得到的解的假設空間也就越多，在\(Loss\)的約束下很容易學到過擬合的解。解決這一問題的根本辦法就是使樣本個數遠大於特徵維度，這樣就可以約束解空間，更容易得到較好的模型。要達到這種效果有很多：

1）增加樣本數（資料增廣等）2）減少特徵個數（dropout，PCA降維等）3）加正則化進行約束

正則化通過使模型中某些引數為0從而降低模型引數複雜度，從廣義上講也屬於第二種降低過擬合的方法。通常，\(L_{1}\)範數會使得模型引數變得稀疏，\(L_{2}\)範數能夠使模型引數集中分佈在0附近，因此都能實現引數\(w\)的降維。

在最小二乘法中加入\(L_{2}\)正則化項對引數\(w\)進行約束後，得到結構風險的表示式：

\(Loss = \dfrac{1}{2} \sum (y_{i}-x_{i}w)^{2} + \lambda w^{T}w= \dfrac{1}{2} (y-xw)^{2} + \lambda w^{T}w\)

同理，可得：

\(\dfrac{\partial Loss}{\partial w} = 2(x^{T}x+\lambda I)-2x^{T}y = 0\)
解得：\(w = (x^{T}x+\lambda I)^{-1}x^{T}y\)

關於矩陣求導的相關知識，請移步下一篇文章。

二、從概率的角度來理解最小二乘估計

統計學習中，擬合的誤差分為可減少誤差(reducible error)與不可減少誤差(irreducible error)。可減少誤差可以通過提出更合適的模型來減少，而由於資料本身存在一定的擾動，會受到其他非客觀因素的影響，導致觀測樣本會有一些波動，這些波動導致所提出的模型無法準確無誤地進行擬合，產生的誤差稱為不可減少誤差。

我們假設不可減少誤差為\(\delta \sim N(0,\sigma^{2})\)，那麼估計出來的樣本：

\(y = xw + \delta\)，並且：\(y \sim N(xw, \sigma^{2})\)

根據高斯分佈的概率，可以得到：

\(p(y|x,w) = \dfrac{1}{\sigma \sqrt{2\pi}} exp (-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}})\)

目的就是求出\(p(y|x,w)\)最大時，引數\(w\)的取值，因此可以採用最大似然估計(MLE)的角度，來求上式的最大似然估計。

\(MLE = log \prod p(y_{i}|x_{i}, w)=\sum log p(y_{i}|x_{i}, w) = \sum log \dfrac{1}{\sigma \sqrt{2\pi}}-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}}\)

於是：
\(w = argmax(MLE) = argmin(y-xw)^{T}(y-xw)\)，與前文定義的經驗風險損失一致。

若給引數\(w\)增加一個先驗資訊，即\(w \sim N(0, \sigma_{w}^{2})\)，於是按照最大後驗概率的觀點：

\(w = argmax(MAP) = argmax(p(y|x,w)p(w))\)，進一步可得：

\(p(y|x,w)p(w) = \dfrac{1}{\sigma \sqrt{2\pi}} exp (-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}}) \times \dfrac{1}{\sigma_{w} \sqrt{2\pi}} exp (-\dfrac{w^{T}w}{2\sigma_{w}^{2}})\)

整理得：

\(w = argmax(MAP) = argmin((y-xw)^{T}(y-xw)+\dfrac{\sigma^{2}}{\sigma_{w}^{2}}w^{T}w)\)

設\(\lambda = \dfrac{\sigma^{2}}{\sigma_{w}^{2}}\)，公式與前文定義的結構風險損失一致

通俗理解線性迴歸(Linear Regression)
2020-09-11
什麼是機器學習迴歸演算法？【線性迴歸、正規方程、梯度下降、正則化、欠擬合和過擬合、嶺迴歸】
2022-04-06
機器學習演算法梯度
正規方程法來求解線性迴歸模型引數
2024-11-17
模型
COMP 330正則化邏輯迴歸分類
2024-04-02
邏輯迴歸
線性迴歸
2024-11-17
線性迴歸與邏輯迴歸
2019-07-08
邏輯迴歸
線性迴歸——lasso迴歸和嶺迴歸（ridge regression）
2019-05-11
1.3 - 線性迴歸
2024-03-18
線性迴歸推導
2019-02-22
4-線性迴歸
2024-08-23
線性迴歸實戰
2021-05-29
1維線性迴歸
2022-04-08
線性迴歸總結
2020-12-26
多元線性迴歸模型
2020-12-03
模型
對比線性迴歸、邏輯迴歸和SVM
2018-08-13
邏輯迴歸
python實現線性迴歸之簡單迴歸
2020-04-29
Python
資料探勘從入門到放棄（一）：線性迴歸和邏輯迴歸
2020-09-24
邏輯迴歸
spark-mlib線性迴歸
2018-11-24
Spark
pytorch實現線性迴歸
2024-05-31
PyTorch
TensorFlow實現線性迴歸
2019-06-05
線性迴歸-程式碼庫
2024-08-27
PRML 迴歸的線性模型
2022-03-01
模型
資料分析：線性迴歸
2022-05-19
線性迴歸演算法
2022-07-04
演算法
R：alpha多樣性線性迴歸
2024-11-28
機器學習 | 線性迴歸與邏輯迴歸
2020-09-23
機器學習邏輯迴歸
線性迴歸—求解介紹及迴歸擴充套件
2018-04-17
套件
線性迴歸-如何對資料進行迴歸分析
2020-12-21
EVIEWS 簡單線性迴歸 02
2020-11-11
View
一元線性迴歸模型
2020-09-28
模型
機器學習：線性迴歸
2024-11-19
機器學習
numpy梯度回傳線性迴歸
2024-08-17
梯度
線性迴歸基礎程式碼
2021-09-09
《精通資料科學：從線性迴歸到深度學習》
2019-12-17
資料科學深度學習
Python學習筆記-StatsModels 統計迴歸（1）線性迴歸
2021-05-06
Python筆記
機器學習之線性迴歸
2020-02-07
機器學習
線性迴歸 go 語言實現
2020-04-16
Go
簡明線性迴歸演算法
2024-10-10
演算法

從線性迴歸來理解正則化

相關文章