「機器學習速成」正則化：降低模型的複雜度以減少過擬合

dicksonjyl560101發表於2019-06-21

原文網址 : http://blog.itpub.net/29829936/viewspace-2648294/

機器學習模型複雜度

https://www.toutiao.com/a6704509481306292749/

大家好，今天我們學習【機器學習速成】之正則化:降低模型的複雜度以減少過擬合。

我們馬上學三點，

泛化曲線，
降低模型的複雜度
L2 正則化的損失函式

大家可以點選下面的“ 瞭解更多 ”，或搜尋“ 馬上學123 ”，線上觀看PPT講義。

泛化曲線

我們之前已經討論過如何讓訓練損失降至最低，也就是獲取正確的樣本。

今天，我們要討論的是正則化，也就是不要過於信賴樣本，這是確保機器學習效果的一個關鍵因素。

如圖泛化曲線，該曲線顯示的是訓練集和驗證集相對於訓練迭代次數的損失。

泛化曲線

從圖中可以看出，隨著迭代次數的增加，藍色的訓練集損失逐漸減少，最終會在某種程度上收斂於低端。但紅線的測試集損失開始上升。

事實上，紅線才是我們真正要關注的，儘管我們在對訓練樣本進行訓練，但我們想要泛化到新的樣本，也就是我們希望在測試集上的損失控制在較低的範圍。

如何抑制測試集損失上升

那麼如何抑制紅線的測試集損失上升呢？

該圖說明模型與訓練集中的資料過擬合了。我們可以通過正則化來避免過擬合，

正則化有很多不同的策略：

其中一種策略是早停法（Early Stopping），也就是訓練中計算模型在測試集上的表現，當模型在測試集上的表現開始下降的時候，停止訓練，這樣就能避免繼續訓練導致過擬合的問題。
這是一種常用策略，儘量抵達紅色測試集曲線的底端，但實際操作起來可能有些困難。

其他正則化策略包括嘗試新增模型複雜度懲罰項，這就是我們接下來要講的。

降低模型的複雜度

目前，我們訓練僅專注於一個重要方面，也就是輸入正確的訓練樣本，最大程度地最小化損失，也就是經驗風險最小化為目標

經驗風險最小化

現在我們要引入第二項以對模型複雜度進行懲罰。

我們以最小化損失和複雜度為目標，這稱為結構風險最小化。

結構風險最小化

現在，我們的訓練優化演算法是一個由兩項內容組成的函式：

一個是損失項，用於衡量模型與資料的擬合度，
另一個是正則化項，用於衡量模型複雜度。

如何衡量模型複雜度呢？

那麼我們如何衡量模型複雜度呢？

我們可以採用多種方法，一種常見的策略是儘量選擇較小的權重，也就是使引數小到幾乎可以讓我們忽略，同時我們仍能獲取正確的訓練樣本。

這裡將重點探討 L2正則化，模型複雜度= 權重的平方和，在這種正則化策略中，我們會對權重的平方和進行懲罰。

我們用 L2 正則化公式來量化複雜度，該公式將正則化項定義為所有特徵權重的平方和。

L2 正則化公式

在使用L2正則化時，模型的確會關注訓練資料，但會盡量確保最後的權重不會超過所需的大小。

L2 正則化的損失函式

我們再以數學方式總結一下:

L2 正則化的損失函式

目前，我們在訓練優化方面新增了兩項：

第一項是訓練損失。我們希望獲取正確的樣本。可以看出，L損失項取決於訓練資料。
現在，我們在模型複雜度方面引入了第二項。您會注意到，第二項與資料無關，它只是要簡化模型。

您會發現這兩項通過lambda實現了平衡。這是一個係數，代表我們對獲取正確樣本與對簡化模型的關注程度之比。

lambda的選擇和平衡

lambda的選擇其實取決於具體情況：

如果您有大量的訓練資料，訓練資料和測試資料看起來一致，並且統計情況呈現獨立同分布，那麼您可能不需要進行多少正則化。
如果您的訓練資料不多，或者訓練資料與測試資料有所不同，那麼您可能需要進行大量正則化。您可能需要利用交叉驗證，或使用單獨的測試集進行調整。

選擇 lambda 值時，目標是在簡單化和訓練資料擬合之間達到適當的平衡：

如果您的 lambda 值過高，則模型會非常簡單，但是您將面臨資料欠擬合的風險。
如果您的 lambda 值過低，則模型會比較複雜，並且您將面臨資料過擬合的風險。
理想的 lambda 值生成的模型可以很好地泛化到以前未見過的新資料。

總結：

我們要獲取正確的樣本，讓損失降至最低；也要進行正則化，不要過於信賴樣本
經驗風險最小化：旨在減少訓練誤差
結構風險最小化：旨在減少訓練誤差,同時平衡複雜度。
L2 正則化的損失函式：第一項用來訓練損失第二項用來簡化模型

這裡講了三點，關鍵詞有哪幾個？

提問！除了L2可以衡量模型複雜度，還有其它方法嗎？

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/29829936/viewspace-2648294/，如需轉載，請註明出處，否則將追究法律責任。

「機器學習速成」稀疏性正則化：L1正則化
2019-06-24
機器學習
機器學習–過度擬合欠擬合
2018-12-08
機器學習
機器學習筆記——模型選擇與正則化
2020-10-17
機器學習筆記模型
機器學習中的過擬合
2019-02-13
機器學習
機器學習之簡化正則化:L2 正則化
2020-06-20
機器學習
原理解析-過擬合與正則化
2020-12-05
機器學習之稀疏性正則化：L1 正則化
2020-06-28
機器學習
機器學習之簡化正則化：Lambda
2020-06-21
機器學習
什麼是機器學習迴歸演算法？【線性迴歸、正規方程、梯度下降、正則化、欠擬合和過擬合、嶺迴歸】
2022-04-06
機器學習演算法梯度
Pytorch_第八篇_深度學習 (DeepLearning) 基礎 [4]---欠擬合、過擬合與正則化
2020-08-05
PyTorch深度學習
機器學習之過擬合的風險
2020-06-14
機器學習
從模型複雜度角度來理解過擬合現象
2022-04-26
模型複雜度
減小時間複雜度——尤拉的37%法則
2019-02-06
時間複雜度
過擬合與欠擬合-股票投資中的機器學習
2019-01-30
機器學習
降低程式碼圈複雜度最佳化技巧
2023-09-20
複雜度
降低過擬合和欠擬合的方法
2019-03-04
機器學習4-模型的誤差來源以及減少誤差的方法
2020-11-01
機器學習模型
吳恩達機器學習筆記 —— 8 正則化
2018-07-19
吳恩達機器學習筆記
降低程式碼的圈複雜度——複雜程式碼的解決之道
2020-12-30
複雜度
機器學習中的正則化到底是什麼意思？
2018-07-10
機器學習
如何建立複雜的機器學習專案？
2019-02-10
機器學習
機器學習中用來防止過擬合的方法有哪些？
2018-07-12
機器學習
深度學習——正則化
2022-01-25
深度學習
學習筆記：深度學習中的正則化
2020-04-06
筆記深度學習
【機器學習基礎】正則化及多分類問題總結
2021-10-27
機器學習
TensorFlow筆記-08-過擬合,正則化,matplotlib 區分紅藍點
2018-10-31
筆記
正則化為什麼能防止過擬合（重點地方標紅了）
2019-02-22
如何降低空間複雜度陣列本地操作
2020-11-11
複雜度陣列
DDD之理解複雜度、尊重複雜度、掌控複雜度
2024-11-24
複雜度
如何減小ABAP業務程式碼的複雜度
2019-05-16
複雜度
深度學習中的欠擬合和過擬合簡介
2018-10-04
深度學習
機器學習基礎——規則化（Regularization）
2021-01-30
機器學習
防止或減輕過擬合的方法
2020-11-21
【機器學習】--魯棒性調優之L1正則，L2正則
2018-03-31
機器學習
第四正規化聯合周志華團隊等搭建新冠病毒自學習模擬器：較傳染病預測模型誤差降低90% | AI戰疫
2020-03-06
模型AI
正則化與模型選擇
2019-01-25
模型
如何降低軟體的複雜性？
2018-09-10
正則雜談
2024-06-03

「機器學習速成」正則化：降低模型的複雜度以減少過擬合

泛化曲線

如何抑制測試集損失上升

降低模型的複雜度

如何衡量模型複雜度呢？

L2 正則化的損失函式

lambda的選擇和平衡

總結：

相關文章