從線性迴歸來理解正則化

ZhiboZhao發表於2021-06-21

本文主要以線性迴歸為切入點,分析了過擬合出現的原因以及正則化的理解,並從MLE和MAP兩個方面重新對線性迴歸進行了求解,揭示了MLE,MAP與正則化之間的關係。

一、最小二乘的簡要回顧

假設輸入空間為:

\(x_{m \times n} = (x_{1}, x_{2},...,x_{i},...,x_{m})^T\)

那麼每個輸入向量的特徵維度為\(n\),相應地,訓練樣本表示為:

\(T=((x_{1}, y_{1}),(x_{2}, y_{2}),...,(x_{m}, y_{m}))\)

我們的目的就是找到一組引數\(w_{n \times 1}=(w_{1}, w_{2},..., w_{n})\),使輸入向量與\(w\)的線性組合能夠儘可能地擬合輸出\(y\),於是模型可以定義為:
\(xw = y\)

於是根據上篇文章定義的\(L_{2}\)損失函式,模型的經驗風險Loss可以定義為:

\(Loss = \dfrac{1}{2} \sum (y_{i}-x_{i}w)^{2} = \dfrac{1}{2} (y-xw)^{2}\)

於是引數的求解就轉化成最小化\(Loss\),因此\(Loss\)\(w\)求導,便可取得極小值。

\(\dfrac{\partial Loss}{\partial w} = \dfrac{\partial (y-xw)^{T}(y-xw)}{\partial w} = 2x^{T}(xw-y) = 0\)

因此,解得\(w = (x^{T}x)^{-1}x^{T}y\)

然而,當\(x^{T}x\)不可逆時,則不存在唯一的解析解,反映到機器學習中就是過擬合。從影像去噪來考慮,輸入的帶噪聲影像可以展開成一個\(hw \times 1\)的向量,通過神經網路來擬合對應清晰影像每一個畫素位置的值,那麼所學到的引數矩陣可以簡單地定義為\(\theta_{1 \times hw}\),以線性迴歸的視角得到引數\(\theta\)的解析解為:

\(\theta_{1 \times hw} = (xx^{T})^{-1}xy^{T}\)

\(xx^{T}\)不為滿秩,則不存在逆。由於深度學習需要大量的外部影像樣本不斷學習引數\(\theta\),相當於網路在求解這\(n\)多個非線性方程組。若方程組的個數小於特徵的維度,那麼得到的解的假設空間也就越多,在\(Loss\)的約束下很容易學到過擬合的解。解決這一問題的根本辦法就是使樣本個數遠大於特徵維度,這樣就可以約束解空間,更容易得到較好的模型。要達到這種效果有很多:

1)增加樣本數(資料增廣等)2)減少特徵個數(dropout,PCA降維等)3)加正則化進行約束

正則化通過使模型中某些引數為0從而降低模型引數複雜度,從廣義上講也屬於第二種降低過擬合的方法。通常,\(L_{1}\)範數會使得模型引數變得稀疏,\(L_{2}\)範數能夠使模型引數集中分佈在0附近,因此都能實現引數\(w\)的降維。

在最小二乘法中加入\(L_{2}\)正則化項對引數\(w\)進行約束後,得到結構風險的表示式:

\(Loss = \dfrac{1}{2} \sum (y_{i}-x_{i}w)^{2} + \lambda w^{T}w= \dfrac{1}{2} (y-xw)^{2} + \lambda w^{T}w\)

同理,可得:

\(\dfrac{\partial Loss}{\partial w} = 2(x^{T}x+\lambda I)-2x^{T}y = 0\)
解得:\(w = (x^{T}x+\lambda I)^{-1}x^{T}y\)

關於矩陣求導的相關知識,請移步下一篇文章。

二、從概率的角度來理解最小二乘估計

統計學習中,擬合的誤差分為可減少誤差(reducible error)與不可減少誤差(irreducible error)。可減少誤差可以通過提出更合適的模型來減少,而由於資料本身存在一定的擾動,會受到其他非客觀因素的影響,導致觀測樣本會有一些波動,這些波動導致所提出的模型無法準確無誤地進行擬合,產生的誤差稱為不可減少誤差。

我們假設不可減少誤差為\(\delta \sim N(0,\sigma^{2})\),那麼估計出來的樣本:

\(y = xw + \delta\),並且:\(y \sim N(xw, \sigma^{2})\)

根據高斯分佈的概率,可以得到:

\(p(y|x,w) = \dfrac{1}{\sigma \sqrt{2\pi}} exp (-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}})\)

目的就是求出\(p(y|x,w)\)最大時,引數\(w\)的取值,因此可以採用最大似然估計(MLE)的角度,來求上式的最大似然估計。

\(MLE = log \prod p(y_{i}|x_{i}, w)=\sum log p(y_{i}|x_{i}, w) = \sum log \dfrac{1}{\sigma \sqrt{2\pi}}-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}}\)

於是:
\(w = argmax(MLE) = argmin(y-xw)^{T}(y-xw)\),與前文定義的經驗風險損失一致。

若給引數\(w\)增加一個先驗資訊,即\(w \sim N(0, \sigma_{w}^{2})\),於是按照最大後驗概率的觀點:

\(w = argmax(MAP) = argmax(p(y|x,w)p(w))\),進一步可得:

\(p(y|x,w)p(w) = \dfrac{1}{\sigma \sqrt{2\pi}} exp (-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}}) \times \dfrac{1}{\sigma_{w} \sqrt{2\pi}} exp (-\dfrac{w^{T}w}{2\sigma_{w}^{2}})\)

整理得:

\(w = argmax(MAP) = argmin((y-xw)^{T}(y-xw)+\dfrac{\sigma^{2}}{\sigma_{w}^{2}}w^{T}w)\)

\(\lambda = \dfrac{\sigma^{2}}{\sigma_{w}^{2}}\),公式與前文定義的結構風險損失一致

相關文章