未來一週,AI 頂會 NeurIPS 2018 將於當地時間 12 月 2 日-8 日在加拿大蒙特利爾舉行。2016 年有 5000 人註冊參加該會議,2017 年參會人數飆升至 8000,今年則出現了 11 分鐘大會門票被搶光的盛況。近年來,很多科技巨頭在 NeurIPS 會議期間舉行一些 party 來招攬人才,如英特爾、亞馬遜、IBM、英偉達、谷歌、蘋果、特斯拉、Uber 等。
今年,NeurIPS 增加了 EXPO,當地時間 12 月 8 日眾多來自國內的公司將進行展示。如下為一個 Room 的討論主題,Expo 是給工業界組織的活動,它主要會關注各種前沿技術在產業中的應用與部署。
9 月,NeurIPS 2018 接收論文結果公佈。據悉,NeurIPS 2018 共收到 4856 篇投稿,創歷史最高記錄,最終錄取了 1011 篇論文,其中 Spotlight 168 篇 (3.5%),oral 論文 30 篇 (0.6%)。
Oral 論文
機器之心在梳理接收論文列表時,重點關注 30 篇 Oral 論文,很可能今年的最佳論文就從裡面選出。在今年的 30 篇 Oral 論文中,可以看到總體上有幾個比較突出的方面,首先對於神經網路、模組及損失函式的理論分析會比較多,此外對反向傳播及最優化過程的研究也比較多,最後從策略到結構對強化學習的整體研究就更多了。這裡主要介紹這三方面的研究,完整列表可看後文。
理論分析
近來模型或方法的理論分析越來越多,很多「技巧」的底層機制正在逐步揭開。在今年的 NIPS 論文中,很多研究者也希望瞭解我們曾忽視的原理,例如在 Oral 論文 On Neuronal Capacity 中,Pierre Baldi 等研究者定義學習機器的能力(capacity)可以是函式量的對數。他們分析了一些神經模型的能力,包括線性和多項式閾值門控單元、權重受限的閾值門控單元和 ReLU 神經元。更重要的是,他們分析了完整迴圈神經網路和前饋神經網路的大概能力。
論文:Neuronal Capacity
論文地址:http://papers.nips.cc/paper/7999-on-neuronal-capacity.pdf
這樣的理論基礎對於實踐來說非常有借鑑作用,但是理解已有的「技巧」可能就是實在的實踐指引了。在今年的 Oral 論文中,Shibani Santurkar 等研究者更關注批量歸一化(BN)如何幫助模型的最優化過程。在他們的研究工作中,研究者表示儘管我們常常以為批量歸一化主要在於修正輸入的分佈,並在訓練過程中減少所謂的「internal covariate shift」。但實際上他們發現層級輸入的分佈穩定性與 BN 的成功沒啥關係。
Santurkar 表示他們發現 BN 在訓練過程中有更基礎的影響,即 BN 會令損失函式表面更平滑一些,也令最優化過程更加容易一些。這種平滑使得梯度流更加穩定,並允許更快速的訓練。
論文:How Does Batch Normalization Help Optimization?
論文地址:https://papers.nips.cc/paper/7515-how-does-batch-normalization-help-optimization.pdf
機器之心相關文章:MIT新研究參透批歸一化原理
除了這兩篇外,理論分析在整體 Oral 論文都非常突出,包括如何從理論上理解詞嵌入及其維度、一種新型神經網路模型神經常微分方程、半正定規劃中低秩方法的平滑分析等。其中詞嵌入的理解提出了一種新的損失函式(Pairwise Inner Product/PIP),並藉此揭示了詞嵌入向量中維度選擇的偏差-方差權衡。
最優化與學習
最優化與學習過程一直是研究重點,且自從 Adam 最優化演算法提出以來也有很多相關研究。其實學習過程其實是一個很廣的研究領域,它可以包括最優化方法、訓練過程或方法、最大似然估計或其它構建損失函式的方法以及泛化問題與黑箱問題等話題。這一次的 Oral 論文比較受關注的是 Bengio 等人提出的一種反向傳播近似方法,以及其它非凸優化問題。
Bengio 等研究者介紹了一種由簡化的樹突元素組成的多層神經網路模型,它同樣以誤差驅動的突觸可塑性來調整神經網路而得到全域性期望的輸出。這一篇論文有非常濃厚的神經科學色彩,研究者表示這種模型在分類和迴歸任務中都有很好的效果,且分析表明它可以近似誤差反向傳播演算法。
論文:Dendritic cortical microcircuits approximate the backpropagation algorithm
論文地址:http://papers.nips.cc/paper/8089-dendritic-cortical-microcircuits-approximate-the-backpropagation-algorithm.pdf
其它最優化演算法就跟理論了,基本上都在嘗試解決神經網路模型下的非凸優化問題,當然基本上還是採用一階梯度,但也有分析二階梯度的。例如在論文 Optimal Algorithms for Non-Smooth Distributed Optimization in Networks 中,研究者提出了一種一階去中心化的演算法,即 multi-step primal-dual /MSPD。
強化學習
強化學習在整個 Oral 論文中可能是接受量最多的,不論是通過重要取樣的策略優化,還是「Non-delusional」Q 學習和價值迭代,強化學習的研究非常多。在這些研究中,比較有意思的是 Jurgen Schmidhuber 的「世界模型」,它可以讓人工智慧在「夢境」中對外部環境的未來狀態進行預測,大幅提高完成任務的效率。
在 Jurgen 等研究者的論文中,他們表示「世界模型」抽取的特徵可以饋送到緊緻且簡單的策略中,這些策略是由進化策略訓練得出。這樣的模型能在多種環境中實現最佳的結果,並且智慧體能自己生成內部的「世界模型」。
論文:Recurrent World Models Facilitate Policy Evolution
論文地址:https://papers.nips.cc/paper/7512-recurrent-world-models-facilitate-policy-evolution.pdf
最後,30 篇 Oral 論文的完整列表如下所示,讀者可根據標題搜尋具體的論文:
列表地址:https://nips.cc/Conferences/2018/Schedule?type=Oral
至於論文地址,讀者可以在論文集頁面中按照論文標題搜尋。
NeurIPS 2018論文集:https://papers.nips.cc/book/advances-in-neural-information-processing-systems-31-2018