Salesforce提出SWATS：訓練中自動由Adam切換為SGD而實現更好的泛化效能

思源發表於2017-12-26

在 ICLR 2018 的高分論文中，有研究者表明因為歷史梯度平方的滑動平均值，Adam 等演算法並不能收斂到最優解，因此它在泛化誤差上可能要比 SGD 等方法差。最近 Salesforce 的研究者提出了一種轉換機制，他們試圖讓演算法在訓練過程中自動由 Adam 無縫轉換到 SGD 而保留兩種最佳化演算法的優良屬性。

隨機梯度下降（SGD）已經成為了深度神經網路最常用的訓練演算法之一。儘管它非常簡單，但在各種應用程式中都表現良好，且也有很強的理論基礎。這些理論基礎體現在避免陷入鞍點問題（Lee et al., 2016）、提高泛化效能（Hardt et al., 2015; Wilson et al., 2017）和解釋為貝葉斯推斷（Mandt et al., 2017）等方面。

訓練神經網路等價於解決以下非凸最佳化問題：

其中 f 為損失函式。SGD 的迭代更新公式可以表示為：

Salesforce提出SWATS：訓練中自動由Adam切換為SGD而實現更好的泛化效能

其中 w_k 表示第 k 次迭代，α_k 為控制下降步幅大小的引數序列，它同樣也可以稱為學習率。∇ f(w_k) hat 表示損失函式對 w_k 所求的隨機梯度。SGD 的變體 SGDM 使用迭代的慣性加速訓練過程，該方法已在實踐中表現出十分優秀的效能（Sutskever et al., 2013）。SGDM 的迭代更新表示式可以表示為：

Salesforce提出SWATS：訓練中自動由Adam切換為SGD而實現更好的泛化效能

其中 β ∈ [0, 1) 為動量引數，v_0 初始化為 0。

SGD 的缺點是它在所有方向上一致地縮放梯度而確定下降步長，這對病態問題可能特別有害。因此 SGD 需要依據實際情況頻繁地修正學習率 α。

為了糾正這些缺點，一些適應性方法透過估計函式的曲率而提出瞭解決方案，這些方法包括 Adam（Kingma & Ba, 2015）、Adagrad（Duchi et al., 2011）和 RMSprop（Tieleman & Hinton, 2012）。這些方法可以解釋為使用學習率向量的 SGD，即它們會根據訓練演算法的過程而自適應地修正學習率。此外，對於 SGD 與 SGDM 等方法來說，它們的學習率是一個標量。

然而有趣的是，Adam 雖然在初始部分的訓練和泛化度量都優於 SGD，但在收斂部分的效能卻停滯不前。這令很多研究者開始尋找結合 Adam 和 SGD 的新方法，他們希望新演算法不僅能利用 Adam 的快速初始化過程，同時還利用 SGD 的泛化屬性。

此外，Wilson 等人今年發表研究表明適應性方法因為非均勻的梯度縮放而導致泛化效能的損失，因此我們比較自然的策略是利用 Adam 演算法初始化訓練，然後在適當的時候轉換為 SGD 方法。

為了更進一步研究該問題，近日 Nitish Shirish Keskar 和 Richard Socher 提出了 SWATS 演算法，該演算法使用簡單的策略在訓練中從 Adam 轉換為 SGD 而結合兩種演算法的優點。SWATS 演算法的轉換過程是自動完成的，因此它並不會引入更多的超引數。

在 Nitish 等人的策略中，轉換點和 SGD 學習率都是作為引數而在訓練過程學習的。他們在梯度子空間中監控 Adam 迭代步的投影，並使用它的指數平均作為轉換後 SGD 學習率的估計。

論文：Improving Generalization Performance by Switching from Adam to SGD

Salesforce提出SWATS：訓練中自動由Adam切換為SGD而實現更好的泛化效能

論文連結：https://arxiv.org/abs/1712.07628

摘要：儘管訓練結果十分優秀，Adam、Adagrad 或 RMSprop 等適應性最佳化方法相比於隨機梯度下降（SGD）還是會有較差的泛化效能。這些方法在訓練的初始階段通常表現良好，但在訓練的後期的效能會被 SGD 所超越。我們研究了一種混合最佳化策略，其中初始化部分仍然使用適應性方法，然後在適當的時間點轉換為 SGD。具體來說，我們提出了 SWATS 演算法，一種在觸發條件滿足時由 Adam 轉化為 SGD 的簡單策略。我們提出的轉換條件涉及到梯度子空間中的 Adam 迭代步投影。透過設計，該轉換條件的監控過程只會新增非常少的計算開銷，且並不會增加最佳化器中超引數的數量。我們試驗了多個標準的基準測試，例如在 CIFAR-10 和 CIFAR-100 資料集上的 ResNet、SENet、DenseNet 和 PyramidNet，在 tiny-ImageNet 資料集上的 ResNet，或者是在 PTB、WT2 資料集上使用迴圈神經網路的語言模型。試驗結果表明，我們的策略能令 SGD 與 Adam 演算法之間的泛化差距在大多數任務中都能得到縮小。

如下圖 1 所示，SGD 的期望測試誤差能收斂到約為 5% 左右，而 Adam 的泛化誤差在 7% 左右就開始震盪，因此精調的學習率策略並沒有取得更好的收斂效能。

Salesforce提出SWATS：訓練中自動由Adam切換為SGD而實現更好的泛化效能

圖 1：在 CIFAR-10 資料集上使用四種最佳化器 SGD、Adam、Adam-Clip（1,∞）和 Adam-Clip（0,1）訓練 DenseNet 架構。SGD 在訓練中實現了最佳測試準確率，且與 Adam 的泛化差距大概為 2%。為 Adam 的每個引數設定最小的學習速率可以減小泛化差距。

正如圖 2 所示，在 10 個 epoch 之後切換會導致學習曲線非常類似於 SGD，而在 80 個 epoch 之後切換會導致精度下降約 6.5%。

Salesforce提出SWATS：訓練中自動由Adam切換為SGD而實現更好的泛化效能

圖 2：使用 CIFAR-10 資料集上訓練 DenseNet 架構，使用 Adam，在（10、40、80）epoch 後調整 SGD 學習速率至 0.1，動量為 0.9；切換點在圖中使用 Sw@ 表示。更早切換可以讓模型達到與 SGD 相比的準確率，而如果在訓練過程中切換過晚會導致與 Adam 相同的泛化差距。

Salesforce提出SWATS：訓練中自動由Adam切換為SGD而實現更好的泛化效能

圖 4：在 CIFAR-10 和 CIFAR-100 資料集上訓練 ResNet-32、DenseNet、PyramidNet 和 SENet，並比較 SGD（M）、Adam 和 SWATS 的學習速率。

Salesforce提出SWATS：訓練中自動由Adam切換為SGD而實現更好的泛化效能

圖 5：在 Tiny-ImageNet 資料集上訓練 ResNet-18，並比較 SGD（M）、Adam 和 SWATS 的學習速率。

速度媲美Adam，效能堪比SGD：北大、浙大學霸本科生提出全新優化演算法AdaBound
2019-02-28
優化演算法
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
優化器：SGD ＞ Momentum ＞ AdaGrad ＞ RMSProp ＞ Adam
2020-12-25
優化
Optimizer: SGD, SGD with Momentum, Adagrad, RMSProp, Adam, AdamW
2024-03-18
Dledger是如何實現主從自動切換的
2020-09-28
大幅減少訓練迭代次數，提高泛化能力：IBM提出「新版Dropout」
2019-06-11
IBM
高質量的訓練資料為高效能自動駕駛汽車提供動力
2023-01-31
自動駕駛
通過keepalived實現 MySQL VIP 自動切換
2015-09-28
MySql
如何更好的使用OPcache實現效能優化
2021-09-25
opcache優化
簡單批處理，實現ip地址的自動切換
2008-03-18
jquery中點選切換的實現
2018-11-13
jQuery
實現自動切換主題的 VSCode 擴充套件
2021-08-08
VSCode套件
如何自動實現360瀏覽器渲染核心的切換效果
2017-02-23
瀏覽器
DRBD+Pacemaker實現DRBD主從角色的自動切換薦
2014-05-03
實現隨著滾動條滾動，導航會自動切換的效果
2018-02-28
突破效能瓶頸，實現流程自動化
2022-08-29
Parris：機器學習演算法自動化訓練工具
2018-01-02
機器學習演算法
北京自動化測試實戰訓練課改期到6月
2011-05-11
MIT 提出Network Dissection框架，全自動窺探神經網路訓練的黑箱
2017-07-01
MIT框架神經網路
爬蟲中的TCP請求自動切換ip
2021-09-09
爬蟲TCP
WPF手動實現切換頁面
2024-08-28
基於react-intl實現手動國際化切換
2018-07-14
React
MySQL Orchestrator自動導換+VIP切換
2021-07-27
MySql
Web自動化測試五 ----- selenium的等待和切換
2019-07-21
Web
如何解決自動化切換資料庫的問題
2024-09-02
資料庫
Silverlight4中實現Theme的動態切換
2014-09-03
dephi 程式輸入法中英文自動切換實現的原始碼 (轉)
2007-12-07
原始碼
Ubuntu 16.04 為更好支援容器化而採用 ZFS
2016-03-08
Ubuntu
CSS實現頁面切換時的滑動效果
2021-02-25
CSS
nacos實現對minio的動態版本切換
2024-07-23
如何實現pre標籤中的內容自動換行
2017-02-09
安卓-自動切換APP圖示
2020-12-18
安卓APP
css中實現強制不換行/自動換行/強制換行
2019-02-18
CSS
Auto.JS實現抖音，刷寶等刷視訊app,自動點贊，自動滑屏，自動切換視訊
2020-05-07
JSAPP
Selenium自動化實現web自動化-1
2021-09-12
Web
安卓開發：viewpager + fragment 實現滑動切換
2018-07-31
安卓ViewpagerFragment
MVVM框架下實現左右滑動切換tab
2017-04-22
MVVM框架
vue 實現tab切換動態載入不同的元件
2018-04-05
Vue元件

Salesforce提出SWATS：訓練中自動由Adam切換為SGD而實現更好的泛化效能

相關文章