大會 | 親歷NIPS 2017:收穫與思考
編者按:今年的NIPS大會就在本月剛剛落下帷幕,微軟亞洲研究院機器學習組實習生汪躍親身參與了本次大會,併為我們帶來了參加本次大會的見聞和感受。想知道大會上到底發生了什麼,那就跟我們一起來看看吧。
機器學習領域的頂會NIPS 2017於12月3日至9日在美麗的加州長灘(Long Beach)舉辦,長灘的好天氣也帶給了我一個好心情,讓我精神飽滿地去迎接來自前沿知識的洗禮。
今年共有超過8000名來自世界各地的研究人員註冊並參加了會議,相比去年,參與人數大幅度增長。在致開幕辭的時候,組織者開了個玩笑,如果會議的增長速度一直保持,那麼會議的註冊人數將在2035年超過世界人口的數量。這個讓人忍俊不禁的玩笑就是NIPS 2017在我記憶中留下的絢爛畫面的起筆。
本次大會的內容涵蓋了機器學習、神經科學、認知科學、心理學、計算機視覺、統計語言學和資訊理論等156個領域。在今年提交的3240篇論文中,679篇被接受,接受比例只有21%,入選論文中有527篇posters,112篇spotlights和40篇orals。
本次NIPS大會共評選出三篇最佳論文(Best paper awards)和一篇Test of time award,分別是:
Best paper awards:
Noam Brown, Tuomas Sandholm. Safe and Nested Subgame Solving for Imperfect-Information Games.
這篇文章解決了不完美資訊博弈的問題,基於這項技術的Libratus專案,打敗了德州撲克的幾位人類頂級玩家。
Hongseok Namkoong, John Duchi. Variance-based Regularization with Convex Objectives.
這篇文章研究了隨機優化風險最小化問題,給出了一個方差項的凸的替代項使得能在計算複雜度和計算誤差精度之間實現權衡。
Wittawat Jitkrittum, Wenkai Xu, Zoltan Szabo, Kenji Fukumizu, Arthur Gretton. A Linear-Time Kernel Goodness-of-Fit Test.
這篇文章提出了一個全新的擬合優度(goodness-of-fit)的演算法,新演算法的樣本複雜度隨著樣本量的增長線性增長。
Test of time award:
Ali Rahimi, Benjamen Recht. Random Features for Large-Scale Kernel Machines. NIPS 2007. Test of time award
獎勵給十年前的一篇經典的文章。這篇文章通過利用隨機特徵對映來加速大規模核方法訓練。
在參加NIPS 2017的過程中,我比較關注的是強化學習這一領域,其中有很多有意思的tutorial,poster和invited talk。從總體趨勢來看,今年的NIPS 上不光有很多工作在做強化學習的應用,也有很多的目光被投向了對強化學習演算法更深刻的理解以及基於這種理解所做的基礎演算法上的改進。這種對於基礎演算法本身的探討和理解往往會告訴我們很多問題的本質,想法和結論也都讓人感覺大受啟發。
舉幾個例子來說,Zap Q-Learning通過分析Q-learning的方差,提出了名為zap Q-learning 的演算法,使得新演算法的漸進方差達到最優。具體來說,傳統Q-learning演算法的收斂慢、不穩定等問題一直困擾著大家。而這篇文章證明了一個定理:說明傳統的Q-learning演算法在一些假設下,漸進方差會趨於無窮,從而解釋了Q-learning演算法不穩定、難收斂的原因。進一步,作者根據matrix gain技術,提出了Zap Q-learning演算法,使得新演算法的方差達到最小,並且證明了演算法的收斂性。
在Shallow Updates for Deep Reinforcement Learning中,作者將linear RL 和deep RL 結合起來,取長補短。具體來說,深度強化學習(DRL),例如DQN等方法,在最近一段時間取得了非常多的前沿的成就,但是有非常多的非常敏感的超參需要手動去調整。對於淺層強化學習來說,例如線性函式近似的方法,演算法更加穩定,並且沒有那麼多的超引數需要去調整,但是往往需要精心設計過的特徵提取。在這個工作中,作者提出了LS-DQN 的演算法,結合了深度強化學習演算法中的特徵提取和淺層強化學習演算法。具體做法是先訓練深度強化學習網路,然後將神經網路的最後一層看成是淺層線性模型,將最後一層的引數利用傳統淺層強化學習演算法進行重新調整。最後作者在5個Atari遊戲上做了實驗,實驗結果也是表現出來這一簡單的idea非常的有效。
除了poster,NIPS上也有很多令人印象深刻的tutorial,invited talk 等,例如:卡耐基•梅隆大學的Emma Brunskill 做了題為Reinforcement Learning with People的tutorial。從強化學習幫助人(強化學習在生活中的應用)和人幫助強化學習(人蔘與到強化學習的學習中)兩個角度,全面的介紹了強化學習最近一段時間的發展。其中提到的很多概念,也在poster環節看到了很多的paper做了具體的工作。比如Exploration-Expectation trade-off、multiagent reinforcement learning、Policy evaluation等。
具體來說,tutorial 先是介紹了強化學習的相關背景和最近大家關注的一些題目。例如最基礎的MDP 的定義,強化學習通常的setting,常用的解決強化學習問題的三個方法論:value function based、policy based、model based,以及它們之間的一些關係。
在介紹強化學習幫助人的環節,tutorial 主要集中在如何高效準確魯棒地做policy evaluation的問題, 特別介紹了很對在off-policy setting下的batch RL演算法的分析和改進。
在介紹人幫助強化學習的環節,tutorial主要從人在強化學習演算法學習過程中所起的作用的角度,介紹了相關的工作。例如如何設計reward,如何給RL agent 做演示從而進行模仿學習,如何讓人幫助RL agent 做好Exploration-Exploitation trade-off等等。
來自加拿大麥吉爾大學的Joelle Pineau 做了題為Reproducibility in Deep Reinforcement Learning and Beyond 的invited talk。內容是最近大家特別關注的強化學習中實驗結果可重複性的相關內容,相信也引起了大部分強化學習領域的研究者的共鳴,引發了大家對於實驗結論可靠性的思考和質疑。來自史丹佛大學的Ben Van Roy 做了題為Deep Exploration Via Randomized Value Functions的invited talk,帶著大家一起探討了deep exploration在強化學習問題中的重要性以及解決辦法, 表明了更魯棒的AI需要一個更有效的deep exploration策略的觀點。
今年微軟亞洲研究院機器學習組共有4篇文章發表在NIPS上,分別是關於機器翻譯、GBDT、和強化學習的。其中有關機器翻譯的兩項工作著眼於把decoder做得更精細,分別引入了價值網路和“推敲”的思想;GBDT的利器LightGBM已經開源了幾個月並在GitHub上積累了4371多顆星;有關強化學習的工作解決了在non-iid的情況下進行policy evaluation的重要理論問題。下面我來給大家展示一下我們的研究成果。
這四篇論文分別是:
Xia, Yingce, etal. "Deliberation networks:Sequence generation beyond one-passdecoding." Advances in Neural Information Processing Systems.2017.
He, Di, et al. "Decoding with value networks for neural machine translation." Advancesin Neural Information Processing Systems. 2017.
Wang, Yue, et al. "Finite sample analysis of the GTD Policy Evaluation Algorithms in MarkovSetting." Advances in Neural Information Processing Systems.2017.
Ke, Guolin, et al. "A Highly Efficient Gradient Boosting Decision Tree." Advances in Neural Information Processing Systems. 2017.
其中前兩篇論文已經由我們組其他兩位聯合培養博士生做過詳細講解,有興趣的同學可以點選下面連結:
● 乾貨 | NIPS 2017線上分享:利用價值網路改進神經機器翻譯
接下來,我對另外兩篇論文做一個簡單的介紹。
A Highly Efficient Gradient Boosting Decision Tree
這篇論文提出了一個名為LightGBM的工具,解決了非常常用的梯度提升決策樹Gradient Boosting Decision Tree (GBDT) 在大規模訓練時非常耗時的問題。LightGBM 的設計的思路主要有兩點:1. 單個機器在不犧牲速度的情況下,儘可能多地用上更多的資料;2.多機並行的時候,通訊的代價儘可能地低,並且在計算上可以做到線性加速。
Gradient-based One-Side Sampling (GOSS) 和 Exclusive Feature Bundling (EFB)這兩項技術分別減小了樣本數和特徵數,從而極大地加快了GBDT訓練速度,並且提高了結果精度,從實驗結果來看當然是又快又好。這個專案在GitHub上已經有4000+ 個星和1000+個fork,並且我們還提供了python, R等的介面,感興趣的同學可以去試著用一用哦。
GitHub專案主頁地址:https://github.com/Microsoft/LightGBM
Finite sample analysis of the GTD Policy Evaluation Algorithms in Markov Setting
這是一篇強化學習方面的理論性論文,解決的是在 強化學習中一個重要問題——策略評估 (Policy Evaluation)在更貼近實際的假定下的收斂性分析。策略評估的目標是估計給定策略的價 值函式(從任一狀態出發,依照給定的策略時,期望意義下未來的累計回報)。 當狀態空間特別 大或者是連續空間的時候,線性函式近似下的 GTD 策略評估演算法非常常用。考慮到收集資料的過 程非常耗費時間和代價,清楚地的理解 GTD演算法在有限樣本情況下的表現就顯得非常重要。之前 的工作將 GTD 演算法與鞍點問題建立了聯絡,並且在樣本獨立同分布和步長為定值的情況下給出了 GTD 演算法的有限樣本誤差分析。但是,我們都知道,在實際的強化學習問題中,資料都是由馬氏 決策過程產生的,並不是獨立同分布的。並且在實際中,步長往往也不一定是一個定值。因此在我 們的工作中,我們首先證明了在資料來自於馬爾科夫鏈的情況下,鞍點問題的期望意義下和高概率 意義下的有限樣本誤差,進而得到了更接近於實際情形下的 GTD 的演算法的有限樣本誤差分析。
從我們的結果中可以看到, 在實際中的馬爾科夫的情形下,(1)GTD演算法確實依然收斂;(2) 收斂的速率依賴於步長的設定和馬爾科夫鏈的混合時間這一屬性;(3)通過混合時間的角度解釋 了經驗回放這一技巧的有效性,其有效性可以理解成縮短了馬爾科夫鏈的混合時間。就我們所知, 我們的工作首次給出了 GTD 演算法在馬爾科夫情形下的有限樣本誤差分析。
短短几天的NIPS之行收穫滿滿,也希望能和眾多研究者一起繼續探索科學的前沿。
作者介紹
汪躍,北京交通大學在讀博士生,專業是概率論與數理統計,目前在微軟亞洲研究院機器學習組做實習生,導師是陳薇研究員。感興趣的研究方向是在強化學習中的演算法理論分析和演算法設計等方面,以及優化演算法相關方向。
你也許還想看:
● 乾貨 | NIPS 2017線上分享:利用價值網路改進神經機器翻譯
感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。
相關文章
- 第五屆中國雲端計算大會學習收穫(大資料)大資料
- 關於2021年的一些收穫和思考
- 2017-07-13今天研究jquery原始碼的收穫jQuery原始碼
- 談談WhatsApp一年設計經歷和收穫APP
- eMarketer:收穫大資料的果實很難大資料
- 科技與疊加式進步-吳軍上海新書籤售會收穫新書
- 【DTCC】DTCC 2011資料庫盛會參會收穫資料庫
- 做小遊戲要趟那些坑?手遊團隊轉型一年來的收穫與思考遊戲
- 開發者總結AAA遊戲開發經歷的5點收穫遊戲開發
- Event Loop事件迴圈,看完你總會有點收穫!OOP事件
- 2017前端技術總結:收穫非淺,但仍需進步前端
- 《鬼泣 5》開發團隊訪談:四年創作歷程的收穫與總結
- 近三年的工作積累,收穫非常大
- 昨晚的收穫DB2DB2
- 【分享】NIPS 2015大會上的新洞察
- 28歲大齡青年相親記——2021年總結與思考
- 一個碼農6年技術成長經歷的總結和收穫
- 軟體工程之四則運算開發感悟與收穫軟體工程
- 如何讓網站收穫好的排名?網站
- FP專案技術收穫總結
- Linux:成熟收穫或泡沫破裂(轉)Linux
- 使用 ClojureScript 開發瀏覽器外掛的過程與收穫瀏覽器
- 如何做好遊戲產品留存?看完這個也許你會有所收穫遊戲
- 價值不菲的短影片本地生活運營經驗,看了會很有收穫!
- 搶先看:筆者親歷的2020年中國.NET開發者大會活動紀實
- 我親歷的資料安全To B格局大變化
- NIPS 2017 騰訊AI Lab論文導讀AI
- EntityFramework Core不得不注意的效能優化意外收穫,你會用錯?Framework優化
- 前端專案重構的些許收穫前端
- 在創業型軟體公司的收穫創業
- 在alter database mount時的一點收穫Database
- icml和nips等會議論文地址
- 大牛手把手教你做日曆(建議你看看,你會有收穫的)
- 醫療行業應用3DEXPERIENCE Works 和 Simulation後的5大收穫行業3D
- 國產作業系統收穫大單 共創開源簽約中聯部(轉)作業系統
- 做遊戲伺服器端開發的一些收穫與總結遊戲伺服器
- 雜談自己做過的與資料庫相關的蠢事和收穫資料庫
- 全價值全收穫:洞察未來系統