NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

騰訊技術工程發表於2018-12-12

導讀:AI領域頂會NeurIPS正在加拿大蒙特利爾舉辦。本文針對實驗室關注的幾個研究熱點,模型壓縮、自動機器學習機器學習與最優化演算法,選取23篇會議上入選的重點論文進行分析解讀,與大家分享。Enjoy!

NeurIPS (Conference on Neural Information Processing Systems,神經資訊處理系統進展大會)與ICML並稱為神經計算和機器學習領域兩大頂級學術會議。今年為第32屆會議,將於 12月3日至8日在加拿大蒙特利爾舉辦。騰訊AI Lab第三次參加NeurIPS,共20篇論文入選,位居國內企業前列。

騰訊AI Lab對會議的三大熱點——模型壓縮、自動機器學習機器學習及最優化演算法相關的23篇論文進行了解讀。

模型壓縮

Model Compression

模型壓縮是近期深度學習領域中一個較為熱門的研究方向,通過對模型的網路結構或者權重表示方式進行簡化,在精度損失可控的前提下,降低模型的計算複雜度和引數規模,以解決深度學習模型計算效率較低的問題。粗略統計,本屆NIPS有15-20篇模型壓縮相關論文,涵蓋了網路剪枝權重量化、知識蒸餾、精簡網路結構設計等多個方面。

這次會議的研究中體現出四大特點:一、多種權重量化演算法被提出,同時相應的訓練演算法與理論分析也有較多討論;二、遷移學習知識蒸餾的結合;三、新型精簡網路結構的不斷湧現;四、模型壓縮的應用推廣至目標檢測、自然語言理解等領域。另外,“精簡深度神經網路及其產業界應用”研討會(Workshop)環節集中探討了近期模型壓縮方向的研究成果以及在實際場景中的應用。我們重點關注了以下文章:

1. 基於敏感度正則化的稀疏神經網路訓練

Learning Sparse Neural Networks via Sensitivity-Driven Regularization

https://nips.cc/Conferences/2018/Schedule?showEvent=11386

本文由都靈理工大學、Nuance Communications公司、巴黎高等電信學院和義大利電信集團合作完成。深度神經網路中的海量引數使得其難以應用到記憶體有限的場景中,而正則化剪枝的訓練方式可以使得網路權重變得稀疏,以解決這一問題。本文對網路最終輸出相對於網路權重的敏感度進行量化分析,並引入了一個正則化項,以逐步減小低敏感度的網路權重的絕對值。基於該演算法,大量的網路權重會逐步收斂為零,從而可以被安全地從網路模型中刪去。 實驗結果表明,該演算法在權重稀疏度和模型預測精度方面都超過了現有演算法;在部分資料集上,當模型預測精度相同時,該演算法可以將權重稀疏度提升至現有演算法的兩倍。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

2. 一種高可擴充套件性的8位元神經網路訓練演算法

Scalable Methods for 8-bit Training of Neural Networks

https://nips.cc/Conferences/2018/Schedule?showEvent=11503

本文由Intel和以色列理工學院合作完成。對訓練完畢的網路模型進行定點量化可以提升模型在推理過程中的計算效率,但是對於如何確定最優的量化位元數以及量化方案尚無定論。本文首先通過理論分析指出,在網路訓練過程中,除部分特定的操作外,大部分操作對於模型權重精度的下降並不敏感。基於這一結論,本文提出對模型權重、各層特徵圖以及梯度訊號進行量化,並且維護了兩個量化精度不同的梯度訊號,在不損失精度的情況下最大程度地提升計算效率。同時,由於batch normalization層對於量化精度要求更高,本文提出了Range BN層以提升對量化誤差的容忍度。實驗結果表明,在ImageNet-1K資料集上,本文對模型權重、各層特徵圖以及梯度訊號進行8位元量化,量化後模型達到了目前最好的預測精度。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

3. 判別力最大化的通道剪枝演算法在深度神經網路中的應用

Discrimination-aware Channel Pruning for Deep Neural Networks

https://nips.cc/Conferences/2018/Schedule?showEvent=11109

本文由華南理工大學、阿德萊德大學、德州大學阿靈頓分校和騰訊AI Lab合作完成。現有的通道剪枝演算法大多基於稀疏約束進行重新訓練,或者基於預訓練模型進行剪枝後模型的重構誤差最小化,存在訓練困難,忽視模型判別力等問題。本文提出了一種判別力最大化的通道剪枝演算法,以篩選和保留模型中真正對判別力有貢獻的通道。為實現這一目標,作者引入了額外的判別力損失項,以提高網路中間各層的判別力,再基於判別力損失項和重構誤差項進行各層的通道選擇。實驗表明,在ILSVRC-12資料集上,基於該演算法剪枝後的ResNet-50模型可以在刪去30%通道的情況下,top-1分類精度比基準模型高0.39%。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

4. 釋義複雜模型:基於因子遷移學習的網路壓縮

Paraphrasing Complex Network:Network Compression via Factor Transfer

https://nips.cc/Conferences/2018/Schedule?showEvent=11283

本文由國立首爾大學完成。本文提出了一種新的知識蒸餾訓練演算法,通過引入額外的卷積層,對參考模型的資訊進行解釋與重新組織,從而更好地指導目標模型的訓練。這一過程由兩個卷積模組共同完成,分別被稱為釋義器(paraphraser)和翻譯器(translator)。釋義器以無監督的方式進行訓練,以提取參考模型中的有效資訊;翻譯器則位於目標模型中,用於將目標模型中的對應資訊進行變換,以擬合參考模型的釋義器所輸出的資訊。實驗結果表明,基於該演算法訓練得到的目標模型,在多個資料集上的影象分類和目標檢測任務上,都取得了超過已有知識蒸餾演算法的訓練效果。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

5. Moonshine:基於精簡卷積操作的知識蒸餾

Moonshine:Distilling with Cheap Convolutions

https://nips.cc/Conferences/2018/Schedule?showEvent=11295

本文由愛丁堡大學完成。本文提出了一種結構化的模型蒸餾演算法以降低模型執行過程中的記憶體開銷。具體地,基於預定義的參考模型的網路結構,經過簡單的結構變換,可以得到目標模型的網路結構,從而避免了重新設計目標模型的網路結構,同時也可以直接複用參考模型的超引數設定。以殘差模型為例,通過對殘差單元中的兩個3x3卷積層進行變換,以分組卷積+跨組混合卷積的結構作為替代,可以顯著降低模型的計算複雜度。變換後得到的目標模型可以基於知識蒸餾和注意力遷移學習演算法進行訓練。實驗結果表明,該演算法可以以極低的精度損失,大幅度降低記憶體開銷;同時,相比於直接訓練目標模型,知識蒸餾訓練機制的引入可以明顯提升目標模型的預測精度。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

6. 基於線上自我整合的知識蒸餾

Knowledge Distillation by On-the-Fly Native Ensemble

https://nips.cc/Conferences/2018/Schedule?showEvent=11723

本文由倫敦瑪麗女王大學和Vision Semantics公司合作完成。知識蒸餾常被用於訓練低複雜度、高泛化能力的模型,但是離線知識蒸餾演算法往往需要一個高精度的預訓練模型作為參考,並且訓練過程需要分為兩個階段進行,而線上知識蒸餾演算法不能有效地構造一個高精度的參考模型。本文提出了一種線上自我整合的知識蒸餾演算法,以實現單階段的線上蒸餾。具體地,該演算法訓練了一個多分支的網路,線上地構造參考模型以提升目標模型的預測精度。實驗結果表明,該演算法在多個資料集上,對於各種網路結構均取得了一致的效能提升,同時訓練效率更高。

7. ChannelNet:基於逐通道卷積的高效卷積神經網路

ChannelNets:Compact and Efficient Convolutional Neural Networks via Channel-Wise Convolutions

https://nips.cc/Conferences/2018/Schedule?showEvent=11508

本文由德克薩斯A&M大學完成。本文提出了一種逐通道卷積操作,以取代CNN模型中特徵圖之間的稠密連線關係。基於這一逐通道卷積操作,作者提出了ChannelNet這一輕量級的網路結構。ChannelNet中採用了三個型別的逐通道卷積操作,分別是:分組逐通道卷積、深度可分逐通道卷積以及全卷積分類層。與之前常用於移動端的CNN模型(包括SqueezeNet、MobileNet和ShuffleNet)相比,ChannelNet在效能無損的前提下顯著降低了模型的引數量與計算開銷。下圖中,(a)是深度可分卷積,(b)是將深度可分卷積中的1x1卷積替換為分組1x1卷積,(c)是本文提出的分組逐通道卷積(以融合各組資訊),(d)是本文提出的深度可分逐通道卷積。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

8. Pelee:一種基於移動端裝置的實時目標檢測系統

Pelee:A Real-Time Object Detection System on Mobile Devices

https://nips.cc/Conferences/2018/Schedule?showEvent=11208

本文由西安大略大學完成。為實現深度學習模型在移動端裝置上的部署,研究者們提出了一系列精簡網路結構,包括MobileNet、ShuffleNet和NASNet-A等,但是此類模型嚴重依賴於深度可分卷積,而這一卷積操作在大多數深度學習框架中沒有較好的高效實現。針對這一問題,本文基於傳統的卷積操作,構建了PeleeNet這一高效網路結構。PeleeNet可以看作是DenseNet的一個變種,採用了類似的連線模型和設計思想。具體地,PeleeNet中採用了雙卷積通道和名為stem block的初始卷積單元,同時動態地調整瓶頸層中的通道數量以節省計算開銷,並對SSD模型的網路結構進行優化,與PeleeNet結合,實現了在移動端裝置上的實時目標檢測。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

自動機器學習

Auto Machine Learning

自動機器學習(AutoML)是機器學習中最近興起的重要分支。它主要是指,把機器學習在現實問題上的應用過程自動化的技術。在一個典型的機器學習應用中,實踐者必須人工去做特徵預處理、演算法選擇、網路結構設計(如果選擇了深度學習演算法)、超參調節,以求最大化模型效能。這其中的很多步驟都超出了非演算法專家的能力,所以自動機器學習被提出來將這些步驟自動化。自動機器學習,使得機器學習在實際問題的應用中變得更為容易,也更容易得到一些可以超越手工設計模型效能的新模型。初略統計本屆NIPS有20餘篇自動機器學習相關論文,涵蓋貝葉斯優化、網路結構搜尋、以及遷移學習等多個方面。

這次會議的研究中體現了三大特點:一、研究上開始解決更為複雜的任務(例如,語義分割)的網路結構搜尋;二、小領域之間開始了融合,比如出現了用貝葉斯優化(傳統上用於超參優化)來解決網路結構搜尋的技術研究;三、其他非自動機器學習領域的技術開始被更多地應用過來,例如遷移學習

1. 為稠密影象預測搜尋高效多規模結構

Searching for Efficient Multi-Scale Architectures for Dense Image Prediction

https://nips.cc/Conferences/2018/Schedule?showEvent=11831

神經網路結構設計是許多機器學習系統在很多工上最先進效能的關鍵元件。許多工作都致力於通過將巧妙構建的搜尋空間和簡單的學習演算法結合來自動設計和構建神經網路結構。最近的進展表明,這種元學習方法在影象分類問題上可以取得超出人類設計的神經網路的效能。一個懸而未決的問題是這些方法在其他領域中能夠取得什麼樣的效能。在這項工作中,我們關注密集影象預測的元學習技術的構建,重點是場景解析,人體分割和語義影象分割的任務。由於視覺資訊的多尺度性以及影象的高解析度,在密集影象預測任務上進行合適的網路結構搜尋是十分具有挑戰性的。基於對密集影象預測技術的調查,我們構建了一個遞迴搜尋空間,並證明即使使用有效的隨機搜尋,我們也可以找出出優於人類設計的網路結構,並在三個密集預測上實現最先進的效能任務:其中包括在Cityscapes(街景解析)資料集上取得82.7%的準確度,在PASCAL-Person-Part(人體分割)上71.3%的準確度,以及在PASCAL VOC 2012(語義影象分割)87.9%的準確度。另外,我們模型得到的網路結構在計算上更有效,跟現有的技術相比僅需要一半的引數和一半的計算力。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

2. 神經結構優化

Neural Architecture Optimization

https://nips.cc/Conferences/2018/Schedule?showEvent=11750

自動神經網路結構設計已經顯示出其在發現強大的神經網路架構方面的潛力。無論是基於強化學習還是進化演算法(EA)的現有技術都是在離散空間中進行搜尋。這是非常低效的。在本文中,我們提出了一種簡單有效的基於連續優化的自動神經網路結構設計方法。我們將這種新方法稱為神經結構優化(NAO)。我們提出的方法有三個關鍵組成部分:(1)編碼器將神經網路架構對映到連續空間中(2)預測器將網路的連續表示作為輸入並預測其準確性(3)解碼器將網路的連續表示對映回其架構。效能預測器和編碼器使我們能夠在連續空間中執行基於梯度優化,以找到具有更高精度的新架構的表達。然後,解碼器將這種更好的嵌入解碼到網路。實驗表明,我們的方法發現的體系結構對於CIFAR-10上的影象分類任務和PTB上的語言建模任務具有很強的競爭力,優於或者與先前的網路結構搜尋方法的最佳結果相當,並且計算資源顯著減少。具體來說,我們在CIFAR-10影象分類任務的測試集上的錯誤率為2.07%和在PTB語言建模任務測試集perplexity為55.9。在上述兩個任務上發現的最佳體系結構可以被遷移到其他諸如CIFAR-100和WikiText-2等資料集合。此外,通過使用最近人們提出的權重共享機制,我們的模型可以在有限計算資源條件下(單一GPU訓練10小時)在CIFAR-10(錯誤率為3.53%)和PTB(測試集perplexity為56.3)上取得不錯的結果。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

3. 利用貝葉斯優化和最優運輸做神經結構搜尋

Neural Architecture Search with Bayesian Optimisation and Optimal Transport

https://nips.cc/Conferences/2018/Schedule?showEvent=11214

貝葉斯優化是指一類用於對黑盒函式f進行全域性優化的方法,其中對於f我們只能得到其在某些點處的評估值。這種方法通常應用於f的評估代價非常昂貴時,在機器學習中的一個應用情形是模型選擇。由於模型的泛化效能是很難分析的,所以我們一般利用帶噪音和高昂的訓練、驗證程式去選擇最好的模型。傳統的貝葉斯優化方法集中在歐式和類別資料的領域,所以它在模型選擇中只能用來對機器學習模型調節超參。但是,隨著對深度學習的興趣的激增,調節網路結構的需求也在快速增長。在本文中,我們設計了一個名為NASBOT的演算法,一個基於高斯過程來做網路結構搜尋的貝葉斯優化框架。為了實現這個目標,我們針對神經網路結構空間設計了一個可以通過最優運輸程式高效計算的度量。這個度量對於深度學習社群可能還有在貝葉斯優化之外的其他用處。我們在幾個基於交叉驗證的多層感知器和卷積神經網路模型選擇問題上,展示了NASBOT可以超越其他網路結構搜尋的替代方案。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

4. 利用傅立葉特徵的高效高維貝葉斯優化

Efficient High Dimensional Bayesian Optimization with Additivity and Quadrature Fourier Features

https://nips.cc/Conferences/2018/Schedule?showEvent=11859

我們針對高維的黑盒函式優化設計了一個高效的貝葉斯優化演算法。我們假設了一個可重疊變數組的廣義可加模型。當變數組之間不重疊時,我們可以為高維貝葉斯優化提供第一個可以證明的多項式時間演算法。為了使得優化高效和可行,我們引入一個新的基於數值積分的確定性的傅立葉特徵逼近,併為平方指數核提供了詳細的分析。這個逼近的錯誤隨著特徵的個數指數衰減,並且可以對後驗均值和方差給出精確逼近。另外,核矩陣的逆的計算複雜度從資料點個數的立方減少到線性。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

5. 帶有一個未知高斯過程先驗的元貝葉斯優化的後悔上界

Regret bounds for meta Bayesian optimization with an unknown Gaussian process prior

https://nips.cc/Conferences/2018/Schedule?showEvent=11991

貝葉斯優化通常假設一個貝葉斯先驗是提前給定的。但是,由於先驗裡未知的引數,在貝葉斯優化裡的強理論保證經常是在實踐裡是達不到的。在這篇文章中,我們採用了一個經驗貝葉斯的變體並且展示了,通過用相同先驗裡抽取的離線資料來估計高斯過程先驗並構造後驗的無偏估計,基於置信上界和提升概率的變體都可以達到一個接近零的後悔上界。該後悔上界隨著離線資料個數和線上評估個數的增加,可以衰減到一個與觀察噪音成比例的常數。實驗上,我們在很有挑戰的模擬機器人問題處理和運動規劃上成功驗證了所提的方法。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

6. 為貝葉斯優化最大化獲得函式

Maximizing acquisition functions for Bayesian optimization

https://nips.cc/Conferences/2018/Schedule?showEvent=11938

貝葉斯優化是一個主要依賴於獲得函式來引導搜尋過程的,用於全域性優化的高效抽樣方法。對獲得函式進行完全最大化就產生了貝葉斯決策規則,但是由於這些獲得函式通常都是很難優化的,所以這個理想很難實現。尤其當並行評估幾個詢問時,由於獲得函式是非凸、高維和棘手的,最大化獲得函式就更加難以實現了。為此,我們利用了蒙特卡洛積分的可微性和並行詢問的子模性,提出兩個新的用於最大化獲得函式的方法。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

7. 用於自動化機器學習概率矩陣分解

Probabilistic Matrix Factorization for Automated Machine Learning

https://nips.cc/Conferences/2018/Schedule?showEvent=11337

為了達到頂尖的效能,現代機器學習技術需要仔細的資料預處理和超參調節。此外,由於研發的機器學習模型的個數的增長,模型選擇也變得越來越重要。自動化機器學習的選擇和調節,一直以來都是機器學習社群的研究目標之一。在本文中,我們提出通過組合協同過濾和貝葉斯優化的想法來解決這個元學習的任務。具體來說,我們通過概率矩陣分解利用在數百個不同資料上的實驗,然後利用獲得函式來指導對可能的機器學習流程空間的探索。在我們的實驗裡,我們展示了我們的方法可以在很多資料上快速確認高效能的流程,並可以顯著地超越目前的頂尖方法。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

8. 可擴充套件的超參遷移學習

Scalable Hyperparameter Transfer Learning

https://nips.cc/Conferences/2018/Schedule?showEvent=11660

貝葉斯優化(BO)是一種針對例如超參優化等無梯度黑盒函式優化問題的基於模型的方法。通常來說,貝葉斯優化依賴於傳統的高斯過程迴歸,然而傳統的高斯過程的演算法複雜度是評價測試數目的立方級。因此,基於高斯過程的貝葉斯優化不能夠利用大量過去評價測試的經驗作為熱啟動。在本文中,我們提出了一種多工的自適應的貝葉斯線性迴歸模型來解決該問題。值得注意的是,該模型僅是評價測試數目的線性複雜度。在該模型中,每個黑盒函式優化問題(任務)都以一個貝葉斯線性迴歸模型來建模,同時多個模型通過共享一個深度神經網路進行耦合,從而實現遷移學習。實驗表明該神經網路可以學到一個適合熱啟動黑盒優化問題的特徵表示,並且當目標黑盒函式和其他相關訊號(比如訓練損失)一起學習的時候,貝葉斯優化可以變快。該模型被證明至少比最近發表的相關黑盒優化文獻快了至少一個數量級。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

9. 利用神經自動機器學習遷移學習

Transfer Learning with Neural AutoML

https://nips.cc/Conferences/2018/Schedule?showEvent=11799

在本文中,我們通過遷移學習減小神經網路AutoML的計算代價。AutoML通過自動化機器學習演算法以減少人的干預。儘管神經網路AutoML因可以自動設計深度學習網路的結構最近非常流行,但是其計算成本巨大。為了解決該問題,我們提出了基於遷移學習神經網路AutoML,以充分利用之前任務上學習到的知識來加快網路結構設計。我們擴充套件了基於增強學習的網路結構搜尋方法以支援多個任務上的並行訓練,並將得到的搜尋策略遷移到新的任務上。在自然語言及影象分類的任務上,該方法將單任務訓練的收斂時間減少了至少一個數量級。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

機器學習與最優化演算法

 Optimization For Learning

眾所周知,機器學習與最優化演算法之間的關係密不可分。在機器學習建模的過程中,會出現各式的極小值優化模型。在學習引數的過程中,會使用到各種各樣的最優化演算法。機器學習演算法和最優化演算法以及它們的交叉,歷年都是研究的熱點。在本次nips收錄的文章中,同樣出現了大量的機器學習的模型建立以及模型訓練演算法設計的工作。

1. Adaptive Methods for Nonconvex Optimization

https://papers.nips.cc/paper/8186-adaptive-methods-for-nonconvex-optimization.pdf

本文由google research 和 卡內基梅隆大學合作完成。 本文證明,通過增加batch-size,ADAM和RMSProp可以保證全域性收斂性質。基於此,文中也提出了一類新的訓練深度神經網路的自適應隨機梯度演算法YOGI。通過增加batch-size,同樣證明了YOGI的全域性收斂性並且通過實驗驗證了YOGI比ADAM具有更快的訓練速度和更高的測試精度。 注意到,本文的作者曾從理論層面指出了ADAM和RMSProp是發散的,並因此獲得ICLR2018 Best Paper Award。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

Figure1. ADAM和YOGI的演算法框架對比

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

Figure2. ResNet在CIFAR10資料集上的測試精度對比

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

Figure3. 在深度自動編解碼模型上, YOGI和ADAM訓練損失和測試損失對比圖

2. Spider: Near-Optimal Non-Convex Optimization via Stochastic Path Integrated Differential Estimator

https://papers.nips.cc/paper/7349-spider-near-optimal-non-convex-optimization-via-stochastic-path-integrated-differential-estimator.pdf

本文由北京大學和騰訊AI Lab合作完成。本文的主要貢獻主要在理論層面,文中提出了尋找非凸隨機優化的一階和二階穩定點的演算法SPIDER。 文中證明SPIDER演算法的計算複雜度在當前求解非凸隨機優化演算法中是最優的。 另外文中採用的一種全新的計算複雜度的分析技巧,該技巧具有很強的可移植性,可以應用到其他很多的隨機優化演算法的分析中。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

Figure1. SPIDER演算法框架

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

Figure2. 不同演算法的計算複雜度對比圖

3. Escaping Saddle Points in Constrained Optimization

https://papers.nips.cc/paper/7621-escaping-saddle-points-in-constrained-optimization.pdf

本文由麻省理工學院獨立完成。針對帶約束的非凸光滑優化問題 , 本文提出了一類通用的求解演算法框架,並且首次證明了該演算法框架可以逃離約束非凸優化問題的鞍點。值得說明的是,本文是第一個提出能求夠逃離約束非凸優化問題鞍點的演算法。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法
NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

4. Online Adaptive Methods, Universality and Acceleration

https://papers.nips.cc/paper/7885-online-adaptive-methods-universality-and-acceleration.pdf

本文由蘇黎世聯邦理工學院和洛桑聯邦理工學院合作完成。本文提出一類新的自適應隨機梯度演算法來AcceleGrad求解無約束隨機凸優化問題。AcceleGrad演算法中採用了新穎的加權自適應學習率估計策略和Nesterov加速策略來提高效率。作者理論上證明了該演算法能夠達到最優的計算複雜度。另外,作者從實驗上說明了AcceleGrad演算法的優越性。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

Figure 1. AcceleGrad 演算法框架

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

Figure2. AcceleGrad 演算法與SGD和AdaGrad的效果對比圖。

5. Multi-Task Learning as Multi-Objective Optimization

https://papers.nips.cc/paper/7334-multi-task-learning-as-multi-objective-optimization.pdf

本文由Intel實驗室獨立完成。多工學習問題通常建模成為一個極小化問題,其中這個優化問題的損失函式為多個任務的損失函式的線性組合。在本文中,作者創造性的將多工學習直接建模成為一個多目標優化問題,

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

並且提出了一類求解上述多目標優化問題的梯度型演算法。最後,作者通過實驗上說明了基於多目標優化的多工學習演算法的優越性。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

Figure1. 多目標優化問題的梯度型演算法框架

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

Figure2. 不同演算法的效果對比圖(越小越好)

6. Semidefinite relaxations for certifying robustness to adversarial examples

https://papers.nips.cc/paper/8285-semidefinite-relaxations-for-certifying-robustness-to-adversarial-examples.pdf

本文由史丹佛大學獨立完成。神經網路的攻防是近年的研究熱點。本文基於最優化中的半正定鬆弛技巧來確定神經網路對攻擊樣本的防禦能力。文中提出的半正定鬆弛技術驗證任意的ReLU神經網路的防禦魯棒性,並且從理論上說明了文中採取的半正定鬆弛技術比線性規劃鬆弛技術更加精準,從而得到更好的魯棒性估計。

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

Figurre1. 不同的鬆弛技巧的鬆弛效果對比圖

NeurIPS 2018 | 騰訊AI Lab詳解3大熱點:模型壓縮、機器學習及最優化演算法

相關文章