一、正則化
1、正則化的理解
當模型的複雜度>>資料的複雜度時,會出現過擬合現象,即模型過度擬合了訓練資料,其泛化能力變差。為此,會透過資料增強、降維、正則化等方法防止模型過擬合。
從數學角度理解,以線性迴歸為例,其損失函式為:
\[\mathcal{L}(\omega) = \sum^{N}_{i=1}||\omega^T -y_i||^2
\]
可以得到:
\[W = (X^TX)^{-1}X^TY
\]
需要對\(X^TX\)求逆,才能得到解。
對於$X_{N \times P}$,$x_i \in \mathbb{R}^P$,其中$N$為樣本數,$P$為樣本維度。當$P>>N$時,在數學上的表現為$X^TX$不可逆,在現象上,即為模型過擬合。若以\(L2\)正則化方法進行約束,則有:
\[\begin{aligned}
J(\omega) &=\sum^{N}_{i=1}||\omega^T -y_i||^2 +\lambda W^TW \\
&=(W^TX^T-Y^T)(XW-Y) + \lambda W^TW \\
&=W^TX^TXW -W^TX^TY-Y^TXW+YY^T+\lambda W^TW \\
&=W^TX^TXW-2W^TX^TY+Y^TY+\lambda W^TW \\
&=W^T(X^TX+\lambda I)W - 2W^TX^TY+Y^TY
\end{aligned}\]
求導:
\[\begin{aligned}
\frac{\partial J(\omega)}{\partial \omega} = 2(X^TX+\lambda I)W -2X^TY
\end{aligned}
\]
解得:
\[\begin{aligned}
W = (X^TX+\lambda I)^{-1}X^TY
\end{aligned}\]
\(X^TX\)為半正定矩陣,\(\lambda I\)為半形矩陣,故\((X^TX+\lambda I)\)一定可逆,這從數學上解釋了正則化的原因。
2、TODO
......