ICML 全稱是 International Conference on Machine Learning,由國際機器學習學會(IMLS)舉辦,是計算機人工智慧領域的頂級會議。今年的 ICML2019 是第 36 屆的會議,將於 6 月 9 日至 15 日在加州的 Long Beach 的舉辦,此次會議共收錄了 236 篇文章。而在本年的 ICML 網站上,也公佈了下一屆 ICML 將於 7 月 13-18 號在奧地利的維也納舉辦。
本文將分析 3 篇今年 ICML 的文章,重點在優化演算法上。前兩篇是用數學方法證明了隨機演算法的收斂性、在尋找全域性最優解的優勢。而後一篇是對於隨機梯度法在架構搜尋上的應用。
因此,本文所討論的 3 篇論文有:
AdaGrad stepsizes: sharp convergence over nonconvex landscapes, from any initialization
Gradient Descent Finds Global Minima of Deep Neural Networks
Adaptive Stochastic Natural Gradient Method for One-Shot Neural Architecture Search
論文 1:AdaGrad stepsizes: sharp convergence over nonconvex landscapes, from any initialization
作者:Rachel Ward,Xiaoxia Wu,Léon Bottou
1)文章概述:
本文是一篇從數學上證明優化演算法的文章,主要證明了 AdaGrad 演算法在非凸拓撲上能夠很好地收斂。AdaGrad 是自適應的梯度演算法之一,因自動根據之前的梯度計算學習率且不需要手動微調(fine-tuning)學習率而被廣泛應用於神經網路的優化。現有的理論可以證明 Adagrad 演算法在線上優化和凸優化的條件下可以收斂。本文為 AdaGrad 的擴充之一,AdaGrad-Norm,在平滑的非凸拓撲上優化的收斂提供證明。在隨機的設定下,AdaGrad-Norm 以 O(log(N)/√(N)) 的速率收斂至駐點。在批量(非隨機)的設定下,以 O(1/N) 的速率收斂。收斂的精確度極高,且針對不同的超參有很強的魯棒性。對比隨機梯度下降法,其收斂主要取決於如何將步長調整為 Lipschitz 平滑常數和梯度的隨機噪聲水平。在現有的最先進模型中應用 AdaGrad-Norm,此優化演算法顯示出了很好的魯棒性,且並沒有對模型的泛化性造成影響。
2)作者簡介:
本文的作者來自美國 Texas at Autstin 大學和 Facebook AI Research,所有的研究都於 Facebook 完成。Rachel Ward 是 Texas at Austin 大學 Oden 計算工程與科學研究所的數學副教授,主要研究領域有數學訊號處理、應用諧波分析、壓縮感測、理論電腦科學和機器學習。Xiaoxia Wu 也是 Texas at Austin 大學的數學系助教(Google Scholar Profile:https://scholar.google.com/citations?user=Ry0Bdt8AAAAJ&hl=en)。Léon Bottou 是 Facebook 的研究總負責人(research lead),在 2015 年加入 Facebook 前曾在 AT&T 貝爾實驗室,AT&T 實驗室,NEC 美國實驗室和微軟研究院任職。主要研究領域是人工智慧,尤其是深度神經網路和學習系統的因果推斷(causal inference)。
3)文章背景介紹、關鍵詞解析:
Adagrad 演算法是基於隨機梯度下降法(SGD)方法之上,對於學習率的更新方法進行了改變。原本的隨機梯度下降法是目前應用最廣泛的標準優化演算法,其對於權重的更新方式是:
即學習率 α 是固定的,不隨梯度的變化和更新的次數調整。g 是隨機梯度滿足 E[g(t,i)] = ∇F(t,i)。因此在使用 SGD 演算法的時候,選擇一個合適的學習率是非常重要的,直接決定了一個演算法在收斂速度甚至是準確度上是否有好的表現。
文中提到了 Lipschitz 常數(L)。在數學分析中,以魯道夫·利普希茨(Rudolf Lipschitz)命名的 Lipschitz 常數的定義是:存在一個實數,使得對於該函式的圖上的每對點,連線它們的線的斜率的絕對值不大於這個實數,最小的這種界限稱為函式的 Lipschitz 常數。在文中,Lipschitz 常數是代表損失方程拓撲的超參,用來證明 AdaGrad-Norm 在不同損失方程下皆可收斂。
Nesterov 早在 1998 年 [1] 證明,在 SGD 演算法中,當學習率固定時,只有在學習率α≤ 1/L 時,優化的方程可以收斂,反之,即使學習率僅翻一倍,優化的方程極有可能震盪或發散。因此,一個確定的學習率很有可能給優化演算法的有效性帶來挑戰。Robbins/Monro 理論 [2] 可對優化率的選擇範圍提供一些指導,理論認為如果要使方程解出最優解,則學習率 η 符合以下條件:
然而這一範圍並沒有給學習率的選擇提供指導性的作用。手動選擇學習率不僅非常繁瑣耗時,而且沒有強理論的支援,因此,如何選擇學習率是一個非常重要的研究課題。
而 Adagrad 方法在 SGD 演算法的基礎上進行了更新,使學習率不再由手動選擇,而是通過演算法進行構架,新的權重的更新方法是:
其中 G 是對角矩陣,矩陣第(i,i)項為θi 從第 1 輪到第 t 輪梯度的平方和。在無噪聲的情況下,取值梯度值,在有噪聲的情況下,取值梯度的無偏估計 E[G] = ∇F(x)。ϵ取一極小值,為平滑項,作用是防止分母為零。由此可知隨著優化的遞進,學習率將不斷降低,因此不需要手動調節學習率,是一種自適應的梯度演算法。缺點是隨著遍歷次數的增加,學習率趨近於零,權重有可能提前結束更新。
Adagrad 在凸優化中的收斂性質早在 2011 年在 [3] 中有證明。之後,由一系列帶和不帶動量的基於 AdaGrad 的演算法被開發,包括 RMSprop、AdaDelta、Adam、AdaFTRL、SGD-BB、AdaBatch、SC-Adagrad、AMSGRAD、Padam 等。這些演算法是否能證明收斂性是非常有意思的課題。
本文使用的是 AdaGrad 系列裡的一種優化演算法——Adagrad-Norm。演算法的數學表示式在下面列出:
在 [4] 中,AdaGrad-Norm 在凸優化中的收斂已被嚴格地驗證,但在非凸的情況下,關於其收斂性無法通過 SGD 的收斂性推算證明。本文即提供了這一證明。
關於 AdaGrad—Norm 的虛擬碼可以從下圖看到:
圖 1:AdaGrad-Norm 的虛擬碼
4)文章詳解:
文章針對 AdaGrad-Norm 演算法的自適應學習率進行了討論,目標是在機器學習模型的中使用此優化演算法,使其在不同的超參(例噪聲等級以及 Lipschitz 常數)中皆能收斂,而收斂速度非本文的討論重心。
證明的假設包括以下幾點:
Eξk [G(xk,ξk)] = ∇F(xk) 是∇F (xj )^2 的無偏估計
隨機向量ξk, k = 0, 1, 2, . . .,是互相獨立的且對 xk 獨立
Eξk[∥G(xk,ξk)−∇F(xk)∥^2]≤σ^2
∥∇F(x)∥^2 ≤ γ^2
在此基礎上催生出以下定理:
結果顯示 AdaGrad-Norm 在任何學習率大於零且 b0>0 的情況下收斂。由此派生出新的定理。
證明顯示,SGD 演算法的常數學習率在大於 2/L 的情況下無法收斂,但 AdaGrad-Norm 可在任何值的 b0 和 η 下收斂。
作者接著對證明出收斂性的演算法進行了一系列的實操實驗,在使用合成資料的線性迴歸中得到了如下的結果:
圖 1:高斯資料在隨機設定下優化器的表現。
由圖 1 所示,AdaGrad-Norm 和 AdaGrad-Coordinate 自動調整學習率來逼近 Lipschitz 常數,且在大範圍的 b0 值中收斂,較 SGD 方法有更好的收斂性。即使在 b0 值初始過小的情況下,AdaGrad-Norm 和 AdaGrad-Coordinate 也會收斂且速度很快。當 b0 的初始值過大的情況下,AdaGrad-Norm 和 AdaGrad-Coordinate 會以 SGD-Constant 相同的速度收斂。
圖 2:MNIST 資料集,豎軸是 AdaGrad-Norm 在訓練資料集和測試資料集上的準確度。
圖 2 是在 MNIST 資料集上的使用效果,由圖 2 所示,為了使之前的假設成立,網路沒有使用正則化、歸一化,AdaGrad-Norm 自動找到學習率,其測試的準確率一直高於其他被測試的演算法。
圖 3:左上 6 圖為 MNIST 資料集使用兩層全連線神經網路所生成的結果,右上為使用 CNN 在 MNIST 上面跑的結果,左下為使用 ResNet-18 在 CIFAR10 上跑的結果且不使用可學習引數,右下為 ResNet-18 在 CIFAR10 使用預設的批量梯度下降法。
如圖 3 所示,AdaGrad-Norm 的收斂具有很強的魯棒性,尤其是針對與 b0 的選擇上。當 b0 以很大範圍的數值初始化時,AdaGrad-Norm 的收斂性達到 SGD 的收斂性。在 CNN 和 ResNet 的表現上,AdaGrad-Norm 表現也十分出色,在圖 3 的右上角,AdaGrad 的非收斂性可以解釋為梯度規範的無邊界性。而 18 層和 50 層的 ResNet 都針對 b0 的值有很好的魯棒性。
圖 4:ImageNet 使用 ResNet-50 進行訓練,y-軸是平均的訓練和測試準確度。訓練增加了動量。
在文章的最後,作者給 SGD 演算法加入了動量來證明自適應方法在有動量的情況下的魯棒性。文中使用了動量為 0.9 的預設值,結果顯示 AdaGrad-Norm 在有動量的情況下對 SGD 初始化有著很強的魯棒性。當 b0 比 Lipschitz 常數更大的時候,帶動量的 SGD 比 AdaGrad-Norm 表現更好。當 b0 小於 Lipschitz 常數時,AdaGrad-Norm 的表現比 SGD 好。
5)文章亮點:
文章帶領我們再次回顧了隨機優化中使用自適應學習率的演算法,焦點在於 AdaGrad-Norm 演算法的收斂性證明。
文章出色地證明出了 AdaGrad-Norm 的收斂性優於 SGD,即使在初始值過大或過小的情況下,收斂性依然很好。
證明出的收斂率在真實和虛構的資料集上均有很好的表現,針對與 b0 不同的初始化值有極強的魯棒性。
6)分析師見解:
文章的數學論證嚴謹,很好地證明了 AdaGrad-Norm 演算法的收斂性及魯棒性。
文章的立意是非常有價值的,通過證明一個常用的自適應學習優化演算法數學上的收斂性以及在資料集上的收斂性,很好的推廣至帶動量 SGD 自適應演算法的收斂性。
文章的考慮十分周到,從理論的證明到例項的應用,從模擬資料集到真實的 MNIST 和 ImageNet 資料集,都有很嚴謹的實驗和論證,給優化演算法的證明型別的論文提供了很好的模版。
7)引用:
[1] Y. Nesterov. Introductory lectures on convex programming volume i: Basic course. 1998.
[2] H. Robbins and S. Monro. A stochastic approximation method. In The Annals of Mathe- matical Statistics, volume 22, pages 400–407, 1951.
[3] J. Duchi, E. Hazan, and Y. Singer. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 12(Jul):2121–2159, 2011.
[4]K. Levy. Online to offline conversions, universality and adaptive minibatch sizes. In Advances in Neural Information Processing Systems, pages 1612–1621, 2017.
論文 2:Gradient Descent Finds Global Minima of Deep Neural Networks
作者:Simon S. Du,Jason D. Lee,Haochuan Li,Liwei Wang,Xiyu Zhai
1)文章概述:
梯度下降法可以在非凸拓撲上找到全域性最優點。本文主要證明了梯度下降法可以在過擬合的 ResNet 上以多項式時間找到最優點,使損失方程值達到零。全域性最優點由格拉姆矩陣(Gram matrix)的穩定性證明。在深度殘餘卷積神經網路(deep residual CNN)的應用上,梯度下降依然可以優化至全域性最優解,且損失函式為零。
2)作者簡介:
文章的作者依次來自卡耐基梅隆大學的機器學習系、南加州大學的資料科學和運籌學系、北京大學物理系、北京大學資料科學中心北京大學的機器感知實驗室、以及麻省理工大學的電子和計算機系。第一作者 Simon S. Du 是卡耐基梅隆大學的博士生,擁有諸多 ICLR、ICML 及 NIPS 上的文章,曾在微軟和臉譜網的實驗室工作過,目前師從 Aarti Singh 和 Barnabás Póczos。
3)文章背景、關鍵詞介紹:
在對深度神經網路進行優化的時候,經常會出現損失函式為零的情況,在大多數情況下,有一種說法認為是過擬合的原因,因為一般情況下只有在神經網路容量很大的時候,才有可能擬合所有的訓練資料。同時也有一種說法,更深的神經網路更難訓練,於是便催生出了 ResNet,使更深的神經網路可以被優化。本文將針對這兩種說法進行探究,證明隨機初始化的梯度下降可以收斂至損失函式為零。
在此之前,已有一些文獻已經描述了梯度下降法的優點,例如,針對所有 1)區域性最優點即為全域性最優點的,2)每一個鞍點都有負曲率的方程,梯度下降法可以成功找到全域性最優解 [1][2][3][4]。然而,即使是三層的神經網路都有不含負曲率的鞍點,因此此方法無法證明梯度下降法的普適性。而針對某種神經網路結構證明收斂性,即本文所使用的方法,是一種更好的證明方法。
3.1)格拉姆矩陣(Gram matrix):
文中涉及對格拉姆矩陣的討論。在線性代數中,內積空間中一族向量 v1, ..., vn 的格拉姆矩陣(Gramian matrix 或 Gram matrix, Gramian)是內積的對稱矩陣,其元素由 Gij=(vj|vi) 給出。一個重要的應用是計算線性無關:一族向量線性無關當且僅當格拉姆行列式(Gram determinant)不等於零。
3.2)ResNet:
殘餘神經網路(Residual neural network)是一種人工神經網路,由大腦皮層的錐體細胞傳導方式衍生而來。在殘餘神經網路中,有一些神經網路的層是被以更快捷的方式跳過的。典型的殘餘神經網路通過雙層或三層跳過實現,在調層中仍包含啟用函式和間隔歸一化。ResNet 的結構由圖一可見。
圖 1:殘餘神經網路 ResNet 的結構(摘自 wikipedia)
在數值的計算上,ResNet 通過以下等式實現,即將前一層的神經元的值通過一定權重直接跳過後一或兩層,疊加至神經元的值上。其中 a 為啟用函式的輸出值,W 為權重,g 為啟用函式,Z 為線性變換後的輸出值,即 Z=Wa+b。
3.3)梯度下降:
在使用梯度下降的時候,所有的引數均初始化為正態分佈的隨機值,且使用梯度下降法進行優化,公式為:
4)文章詳解:
4.1)全連線神經網路:
文章先介紹了幾種神經網路結構的定義,其中,全連線神經網路的定義為:
其中,啟用函式 σ 前的引數為歸一化時所使用的常數。在文中,全連線神經網路的 Gram matrix 的定義如下:
關於收斂率的論證如定理 5.1 所示。收斂速度和過擬合的量取決於該 Gram 矩陣的最小特徵值。我們只要輸入訓練資料不是簡併的,那麼λminK(H)就是嚴格正的。則證明收斂率的方法如下。該定理表明,如果寬度 m 足夠大,並且有合適的步長值,則梯度下降可以以線性速率收斂到全域性最小值,隨時函式值為零。該定理的主要假設是我們需要每層的足夠大的寬度。寬度 m 取決於 n,H 和 1/λmin Kˆ(H),對 n 的依賴也是多項式級的,因此 m 也是多項式級別的。對於層數 H 的依賴性是指數級的,這種指數來自全連線架構的不穩定性。
4.2)ResNet
文中使用了一種每層都有跳層的連線(skip-connections)的 ResNet 結構,定義為:
Gram matrix 在 ResNet 結構中定義為:
則關於收斂率的論證如定理 6.1 所示。與定理 5.1 形成鮮明對比的是,因為神經元的數量和收斂速度在 n 和 H 中都是多項式級的,所以這個定理是多項式級的。過擬合的數量取決於λmin Kˆ(H) 矩陣。這裡沒有任何指數因子的主要原因是,ResNet 的結構中跳過連線層,使得整個架構在初始化階段和訓練階段都更加穩定。
4.3)Residual CNN
最後,Residual CNN 被定義為:
其中 Φ 的定義為:
則 Gram matrix 的定義為:
關於收斂率的證明為定理 7.1 所證。這個定理的證明類似於 ResNet。每層所需的神經元數量是深度的多項式級的,資料點和步長的數量級也是多項式級的。在 m 和η的要求中唯一的額外項是 poly(p),其分析方法也和 ResNet 類似。
5)文章亮點:
文章主要的貢獻有以下幾點:
在全連線神經網路中,文章證明了如果達到一定數量的網路寬度,則隨機初始化的梯度下降可以以線性速度收斂至損失函式為零。
當使用帶有跳躍連線的全連神經網路時,在指數級更小的寬度上,隨機初始化的梯度下降可以以線性速度收斂至損失函式為零。和第一個結果相比較,優化對於寬度的依賴大大降低。
當使用卷積的 ResNet 時,在更小級別的寬度上,隨機初始化的梯度下降可以收斂至損失函式為零
6)分析師見解:
本文破解了神經網路優化中的迷思,即在過擬合的情況下神經網路是否可以優化至損失函式值為零。文章從多個網路結構證明了梯度下降法是可以在過擬合的網路中將損失函式的值收斂至零,在數學上收斂為零是成立的。文章的作者在最後提出了幾個未來發展的方向,包括探索測試資料集的準確率、繼續證明更低寬度的 ResNet 的收斂性、證明隨機梯度下降法是否是線性收斂、以及如何繼續降低收斂率等,這些發展方向都很好地貼切了現在訓練所遇到的問題,以及為此文所證明的內容的重要性進行了證實。證明在過擬合的情況下神經網路能夠收斂於 0 損失函式,是對梯度下降法的實用性有了很好的說明。
7)引用:
[1] Jin, C., Ge, R., Netrapalli, P., Kakade, S. M., and Jordan, M. I. How to escape saddle points efficiently. In Proceed- ings of the 34th International Conference on Machine Learning, pp. 1724–1732, 2017
[2] Ge, R., Huang, F., Jin, C., and Yuan, Y. Escaping from saddle points − online stochastic gradient for tensor de- composition. In Proceedings of The 28th Conference on Learning Theory, pp. 797–842, 2015.
[3] Lee, J. D., Simchowitz, M., Jordan, M. I., and Recht, B. Gradient descent only converges to minimizers. In Con- ference on Learning Theory, pp. 1246–1257, 2016.
[4] Du, S. S., Jin, C., Lee, J. D., Jordan, M. I., Singh, A., and Poczos, B. Gradient descent can take exponential time to escape saddle points. In Advances in Neural Information Processing Systems, pp. 1067–1077, 2017.
論文 3:Adaptive Stochastic Natural Gradient Method for One-Shot Neural Architecture Search
作者:Youhei Akimoto,Shinichi Shirakawa,Nozomu Yoshinari,Kento Uchida,Shota Saito,Kouhei Nishida
1)文章概述:
神經網路結構搜尋(NAS)方法針對於學習率和搜尋空間有很強的敏感性,以至於使用者很難將之運用於某一特殊的問題,儘管搜尋方法的目的是將引數調整自動化。文章為生產出快速、強大、廣泛適用的神經網路結構搜尋方法提供了框架。文章通過隨機鬆弛將連線權重和神經結構的耦合優化轉化為可微分優化,其廣泛適用性在於它接受任意搜尋空間,其速度在於能夠同步優化梯度的權重和架構,其魯棒性在於自適應的學習率有強大的理論支援。文中的方法簡單且泛化性很好,在影像分類和修復任務方面表現出接近最先進的技術的效能並使用極低的計算預算。
2)作者簡介:
文章的作者均來自日本,來自大學的包括筑波大學、橫濱國立大學、信州大學,來自企業的包括 SkillUp AI 有限公司。
3)文章背景介紹:
2017 年以前的神經網路結構搜尋多是調整超參的方式在一個固定的結構下執行神經網路並得出驗證資料的錯誤率,但現有的較為前沿的研究同步優化權重和結構並將所有可能的結構視為超圖的子圖,這種方法被稱作一次性結構搜尋(one-shot architecture search),這種方法的好處是較低的結構評估計算成本,即可在一臺標準的個人電腦上運營,可以大大擴充套件其應用面。
NAS 的研究主要有三個大方向:1)如何估計架構的表現,2)如何定義搜尋空間,3)如何優化結構。在結構的優化上可以通過連續鬆弛或隨機鬆弛將權重和架構的耦合優化轉化為可微分目標的優化,採用梯度下降或自然梯度下降策略,採用現有的自適應步長機制或恆定步長,可以同時優化網路權重和結構。但是,優化效能對其輸入是非常敏感的,例如學習速率和搜尋空間,因此,本文將針對這些問題進行改進。
4)文章詳解:
本文基於隨機自然梯度法 [1] 通過隨機鬆弛開發了統一的優化框架 ASNG。文章的理論研究得出了一個關於步長的條件,使目標函式的值可以在每次迭代中單調改進。我們提出了一個步長適應機制,以近似滿足此條件。它顯著降低了架構對輸入的敏感性,使整個框架更加靈活。其虛擬碼如下所示:
ASNG 的魯棒性首先在一些測試方程上進行驗證,方程的形式為:
其中,c 是分類變數,h(c)是單熱向量(one-hot vector)。方程用來模擬神經網路的優化,使方程使用 z 值逼近期望值。優化使用了帶動量的隨機梯度下降法,動量值為 0.9。
圖 2 顯示了對比 ASNG(Adaptive Stochastic Natural Gradient),SNG(stochastic natural gradient with constant step-size)以及 Adam 在同一深度網路上的優化表現,圖中可以看出,ASNG 表現突出,SNG 以及 Adam 在使用上需要微調步長,不然就會無法優化至最優解,而 ASNG 針對與步長的靈敏度已降低,所以有更加出色的表現。
圖 2:執行 ASNG 在ε=0.05 與 0.0005 值下的成果圖,圖中為跑 100 次程式的平均值,空缺的資料代表引數不能跑出結果。
ASGN 在文中還被應用於圖片的分類問題。分類使用了 CIFAR-10 資料集並進行預處理。最終結果如表 1 所示。最下面的 5 種方法採取了相似的搜尋空間,因此結果的不同是由於不同的搜尋演算法,表中可以清楚地看到搜尋成本和最終結果之間的平衡,越高的精度越需要較長時間的搜尋。在相對較快的幾種演算法中,ASGN 是最快的,且錯誤率與其他演算法相近。
表 1:不同的使用於 CIFAR-10 資料集的結構搜尋方法的對比,其中搜尋成本指 GPU 天數幷包括再訓練的成本。
ASGN 還被運用於影像修復,文中使用了 CelebFaces Attributes 資料集,作者使用了 3 種不同的面具進行預處理,是圖片的部分缺失,面具包括:中心正方形面具、80% 畫素隨機消失面具、圖片一半消失面具(橫或豎)。修復完成的圖片用兩種指標衡量,峰值訊雜比(PSNR)和結構相似性指數(SSIM),越高的值代表越好的結果。修復的結果如表 2 所示,ASNG-NAS 的表現在所有面具上優於 CE,SII,BASE,並近似於 E-CAE。而 E-CAE 需要的訓練時間是 12 個 GPU 日,ASNG-NAS 僅需要不到 1 個 GPU 日。這代表 ASNG-NAS 帶來了速度上的飛躍且不影響最終的結果。
表 2:圖片修復的結果:ASNG-NAS(Cat)將所有結構引數編碼為分類變數,ASNG-NAS(Int)將結構引數編碼為整型變數。
5)文章亮點:
文章的主要貢獻包括以下幾點:
提供了一個幾乎可以處理任意型別結構變數的架構,只要可以在其上定義一個引數組的概率分佈
文章提出了針對於隨機自然梯度上升法制定了步長自適應的機制,提高了優化速度和超參調整的魯棒性,併為所有引入的超引數準備了預設值,即使架構搜尋空間發生變化也無需改變它們
所提出的方法可以並行運算,它與現有方法的速度相當甚至更快,即使是在序列實現上也是如此
提出的策略非常簡單,所以可以很好的開發步長自適應機制
6)分析師見解:
本文提供了一個很好的使用隨機自然梯度法的方式進行神經網路的結構優化,不僅在數學上有嚴謹的推論,也最終在演算法表現的對比上取得了較好的成果。值的一提的是,ASGN-NAS 方法在速度上有極大的優勢,在精確度上也有較好的表現,因使用了隨機鬆弛而可以使用簡單的梯度方法對引數進行優化,所以在方法的操作上有一定的優勢。自適應的步長機制極大地簡化了超參調整,使得模型有了更多的靈活性,因此,這篇文章在神經網路的結構優化上有很好的突破創新。
7)引用:
[1] Amari, S. Natural Gradient Works Efficiently in Learning.Neural Computation, 10(2):251–276, 1998
分析師簡介:
Sushen Zhang,劍橋大學人工智慧領域在讀博士生,主要攻克方向為人工智慧的優化演算法。是一位在人工智慧領域的探索者,希望永遠保持小隊長的心態,對世界好奇,對人工智慧樂觀,帶領大家一起探索人工智慧這個蓬勃發展的領域。