正則化

Abyss_J發表於2023-04-06

一、正則化
1、正則化的理解
    當模型的複雜度>>資料的複雜度時,會出現過擬合現象,即模型過度擬合了訓練資料,其泛化能力變差。為此,會透過資料增強、降維、正則化等方法防止模型過擬合。
  從數學角度理解,以線性迴歸為例,其損失函式為:

\[\mathcal{L}(\omega) = \sum^{N}_{i=1}||\omega^T -y_i||^2 \]

   可以得到:

\[W = (X^TX)^{-1}X^TY \]

   需要對\(X^TX\)求逆,才能得到解。

   對於$X_{N \times P}$,$x_i \in \mathbb{R}^P$,其中$N$為樣本數,$P$為樣本維度。當$P>>N$時,在數學上的表現為$X^TX$不可逆,在現象上,即為模型過擬合。

   若以\(L2\)正則化方法進行約束,則有:

\[\begin{aligned} J(\omega) &=\sum^{N}_{i=1}||\omega^T -y_i||^2 +\lambda W^TW \\ &=(W^TX^T-Y^T)(XW-Y) + \lambda W^TW \\ &=W^TX^TXW -W^TX^TY-Y^TXW+YY^T+\lambda W^TW \\ &=W^TX^TXW-2W^TX^TY+Y^TY+\lambda W^TW \\ &=W^T(X^TX+\lambda I)W - 2W^TX^TY+Y^TY \end{aligned}\]

   求導:

\[\begin{aligned} \frac{\partial J(\omega)}{\partial \omega} = 2(X^TX+\lambda I)W -2X^TY \end{aligned} \]

   解得:

\[\begin{aligned} W = (X^TX+\lambda I)^{-1}X^TY \end{aligned}\]

    \(X^TX\)為半正定矩陣,\(\lambda I\)為半形矩陣,故\((X^TX+\lambda I)\)一定可逆,這從數學上解釋了正則化的原因。

2、TODO
......

相關文章