大會 | 親歷NIPS 2017:收穫與思考

微軟研究院AI頭條發表於2017-12-19

mmbizgif?wxfrom=5&wx_lazy=1


編者按:今年的NIPS大會就在本月剛剛落下帷幕,微軟亞洲研究院機器學習組實習生汪躍親身參與了本次大會,併為我們帶來了參加本次大會的見聞和感受。想知道大會上到底發生了什麼,那就跟我們一起來看看吧。


機器學習領域的頂會NIPS 2017於12月3日至9日在美麗的加州長灘(Long Beach)舉辦,長灘的好天氣也帶給了我一個好心情,讓我精神飽滿地去迎接來自前沿知識的洗禮。

?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


今年共有超過8000名來自世界各地的研究人員註冊並參加了會議,相比去年,參與人數大幅度增長。在致開幕辭的時候,組織者開了個玩笑,如果會議的增長速度一直保持,那麼會議的註冊人數將在2035年超過世界人口的數量。這個讓人忍俊不禁的玩笑就是NIPS 2017在我記憶中留下的絢爛畫面的起筆。


?wx_fmt=png

?wx_fmt=jpeg


本次大會的內容涵蓋了機器學習、神經科學、認知科學、心理學、計算機視覺、統計語言學和資訊理論等156個領域。在今年提交的3240篇論文中,679篇被接受,接受比例只有21%,入選論文中有527篇posters,112篇spotlights和40篇orals。

?wx_fmt=png


本次NIPS大會共評選出三篇最佳論文(Best paper awards)和一篇Test of time award,分別是:


Best paper awards

  • Noam Brown, Tuomas Sandholm. Safe and Nested Subgame Solving for Imperfect-Information Games.

    這篇文章解決了不完美資訊博弈的問題,基於這項技術的Libratus專案,打敗了德州撲克的幾位人類頂級玩家。

  • Hongseok Namkoong, John Duchi. Variance-based Regularization with Convex Objectives.

    這篇文章研究了隨機優化風險最小化問題,給出了一個方差項的凸的替代項使得能在計算複雜度和計算誤差精度之間實現權衡。

  • Wittawat Jitkrittum, Wenkai Xu, Zoltan Szabo, Kenji Fukumizu, Arthur Gretton. A Linear-Time Kernel Goodness-of-Fit Test.

    這篇文章提出了一個全新的擬合優度(goodness-of-fit)的演算法,新演算法的樣本複雜度隨著樣本量的增長線性增長。


Test of time award:

  • Ali Rahimi, Benjamen Recht. Random Features for Large-Scale Kernel Machines. NIPS  2007. Test of time award

    獎勵給十年前的一篇經典的文章。這篇文章通過利用隨機特徵對映來加速大規模核方法訓練。


在參加NIPS 2017的過程中,我比較關注的是強化學習這一領域,其中有很多有意思的tutorial,poster和invited talk。從總體趨勢來看,今年的NIPS 上不光有很多工作在做強化學習的應用,也有很多的目光被投向了對強化學習演算法更深刻的理解以及基於這種理解所做的基礎演算法上的改進。這種對於基礎演算法本身的探討和理解往往會告訴我們很多問題的本質,想法和結論也都讓人感覺大受啟發。

 

舉幾個例子來說,Zap Q-Learning通過分析Q-learning的方差,提出了名為zap Q-learning 的演算法,使得新演算法的漸進方差達到最優。具體來說,傳統Q-learning演算法的收斂慢、不穩定等問題一直困擾著大家。而這篇文章證明了一個定理:說明傳統的Q-learning演算法在一些假設下,漸進方差會趨於無窮,從而解釋了Q-learning演算法不穩定、難收斂的原因。進一步,作者根據matrix gain技術,提出了Zap Q-learning演算法,使得新演算法的方差達到最小,並且證明了演算法的收斂性。


?wx_fmt=png


?wx_fmt=png


?wx_fmt=png


在Shallow Updates for Deep Reinforcement Learning中,作者將linear RL 和deep RL 結合起來,取長補短。具體來說,深度強化學習(DRL),例如DQN等方法,在最近一段時間取得了非常多的前沿的成就,但是有非常多的非常敏感的超參需要手動去調整。對於淺層強化學習來說,例如線性函式近似的方法,演算法更加穩定,並且沒有那麼多的超引數需要去調整,但是往往需要精心設計過的特徵提取。在這個工作中,作者提出了LS-DQN 的演算法,結合了深度強化學習演算法中的特徵提取和淺層強化學習演算法。具體做法是先訓練深度強化學習網路,然後將神經網路的最後一層看成是淺層線性模型,將最後一層的引數利用傳統淺層強化學習演算法進行重新調整。最後作者在5個Atari遊戲上做了實驗,實驗結果也是表現出來這一簡單的idea非常的有效。

?wx_fmt=png

?wx_fmt=png


除了poster,NIPS上也有很多令人印象深刻的tutorial,invited talk 等,例如:卡耐基•梅隆大學的Emma Brunskill 做了題為Reinforcement Learning with People的tutorial。從強化學習幫助人(強化學習在生活中的應用)和人幫助強化學習(人蔘與到強化學習的學習中)兩個角度,全面的介紹了強化學習最近一段時間的發展。其中提到的很多概念,也在poster環節看到了很多的paper做了具體的工作。比如Exploration-Expectation trade-off、multiagent reinforcement learning、Policy evaluation等。


具體來說,tutorial 先是介紹了強化學習的相關背景和最近大家關注的一些題目。例如最基礎的MDP 的定義,強化學習通常的setting,常用的解決強化學習問題的三個方法論:value function based、policy based、model based,以及它們之間的一些關係。

?wx_fmt=png

在介紹強化學習幫助人的環節,tutorial 主要集中在如何高效準確魯棒地做policy evaluation的問題, 特別介紹了很對在off-policy setting下的batch RL演算法的分析和改進。

?wx_fmt=png

在介紹人幫助強化學習的環節,tutorial主要從人在強化學習演算法學習過程中所起的作用的角度,介紹了相關的工作。例如如何設計reward,如何給RL agent 做演示從而進行模仿學習,如何讓人幫助RL agent 做好Exploration-Exploitation trade-off等等。

?wx_fmt=png

來自加拿大麥吉爾大學Joelle Pineau 做了題為Reproducibility in Deep Reinforcement Learning and Beyond invited talk。內容是最近大家特別關注的強化學習中實驗結果可重複性的相關內容,相信也引起了大部分強化學習領域的研究者的共鳴,引發了大家對於實驗結論可靠性的思考和質疑。來自史丹佛大學的Ben Van Roy 做了題為Deep Exploration Via Randomized Value Functionsinvited talk,帶著大家一起探討了deep exploration在強化學習問題中的重要性以及解決辦法, 表明了更魯棒的AI需要一個更有效的deep exploration策略的觀點。


0?wx_fmt=jpeg

今年微軟亞洲研究院機器學習組共有4篇文章發表在NIPS上,分別是關於機器翻譯、GBDT、和強化學習的。其中有關機器翻譯的兩項工作著眼於把decoder做得更精細,分別引入了價值網路和“推敲”的思想;GBDT的利器LightGBM已經開源了幾個月並在GitHub上積累了4371多顆星;有關強化學習的工作解決了在non-iid的情況下進行policy evaluation的重要理論問題。下面我來給大家展示一下我們的研究成果。


這四篇論文分別是:


  • Xia, Yingce, etal. "Deliberation networks:Sequence generation beyond one-passdecoding." Advances in Neural Information Processing Systems.2017.

  • He, Di, et al. "Decoding with value networks for neural machine translation." Advancesin Neural Information Processing Systems. 2017.

  • Wang, Yue, et al. "Finite sample analysis of the GTD Policy Evaluation Algorithms in MarkovSetting." Advances in Neural Information Processing Systems.2017.

  • Ke, Guolin, et al. "A Highly Efficient Gradient Boosting Decision Tree." Advances in Neural Information Processing Systems. 2017.


其中前兩篇論文已經由我們組其他兩位聯合培養博士生做過詳細講解,有興趣的同學可以點選下面連結:


 乾貨 | NIPS 2017:用於序列生成的推敲網路

 乾貨 | NIPS 2017線上分享:利用價值網路改進神經機器翻譯


接下來,我對另外兩篇論文做一個簡單的介紹。


A Highly Efficient Gradient Boosting Decision Tree


這篇論文提出了一個名為LightGBM的工具,解決了非常常用的梯度提升決策樹Gradient Boosting Decision Tree (GBDT) 在大規模訓練時非常耗時的問題。LightGBM 的設計的思路主要有兩點:1. 單個機器在不犧牲速度的情況下,儘可能多地用上更多的資料;2.多機並行的時候,通訊的代價儘可能地低,並且在計算上可以做到線性加速。


Gradient-based One-Side Sampling (GOSS) 和 Exclusive Feature Bundling (EFB)這兩項技術分別減小了樣本數和特徵數,從而極大地加快了GBDT訓練速度,並且提高了結果精度,從實驗結果來看當然是又快又好。這個專案在GitHub上已經有4000+ 個星和1000+個fork,並且我們還提供了python, R等的介面,感興趣的同學可以去試著用一用哦。


GitHub專案主頁地址:https://github.com/Microsoft/LightGBM

?wx_fmt=jpeg

?wx_fmt=jpeg

?wx_fmt=png


Finite sample analysis of the GTD Policy Evaluation Algorithms in Markov Setting


這是一篇強化學習方面的理論性論文,解決的是在 強化學習中一個重要問題——策略評估 (Policy Evaluation)在更貼近實際的假定下的收斂性分析。策略評估的目標是估計給定策略的價 值函式(從任一狀態出發,依照給定的策略時,期望意義下未來的累計回報)。 當狀態空間特別 大或者是連續空間的時候,線性函式近似下的 GTD 策略評估演算法非常常用。考慮到收集資料的過 程非常耗費時間和代價,清楚地的理解 GTD演算法在有限樣本情況下的表現就顯得非常重要。之前 的工作將 GTD 演算法與鞍點問題建立了聯絡,並且在樣本獨立同分布和步長為定值的情況下給出了 GTD 演算法的有限樣本誤差分析。但是,我們都知道,在實際的強化學習問題中,資料都是由馬氏 決策過程產生的,並不是獨立同分布的。並且在實際中,步長往往也不一定是一個定值。因此在我 們的工作中,我們首先證明了在資料來自於馬爾科夫鏈的情況下,鞍點問題的期望意義下和高概率 意義下的有限樣本誤差,進而得到了更接近於實際情形下的 GTD 的演算法的有限樣本誤差分析。


?wx_fmt=png

?wx_fmt=png

?wx_fmt=png

從我們的結果中可以看到, 在實際中的馬爾科夫的情形下,(1)GTD演算法確實依然收斂;(2) 收斂的速率依賴於步長的設定和馬爾科夫鏈的混合時間這一屬性;(3)通過混合時間的角度解釋 了經驗回放這一技巧的有效性,其有效性可以理解成縮短了馬爾科夫鏈的混合時間。就我們所知, 我們的工作首次給出了 GTD 演算法在馬爾科夫情形下的有限樣本誤差分析。 


短短几天的NIPS之行收穫滿滿,也希望能和眾多研究者一起繼續探索科學的前沿。


作者介紹



?wx_fmt=jpeg

汪躍,北京交通大學在讀博士生,專業是概率論與數理統計,目前在微軟亞洲研究院機器學習組做實習生,導師是陳薇研究員。感興趣的研究方向是在強化學習中的演算法理論分析和演算法設計等方面,以及優化演算法相關方向。



你也許還想


 乾貨 | NIPS 2017:用於序列生成的推敲網路

 乾貨 | NIPS 2017線上分享:利用價值網路改進神經機器翻譯

 大會|NIPS 2016:機器學習的盛典


640.png?

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。


640.jpeg?


相關文章