NIPS 2017 騰訊AI Lab論文導讀

騰訊AI實驗室發表於2017-10-06

機 器 學 習 未 來 研 究 的 一 點 思 考

NIPS的內容涵蓋認知科學、心理學、計算機視覺、統計語言學和資訊理論等領域,可由此窺見機器學習最為前沿和備受關注的研究領域。而在思考未來方向時,我們認為研究者們可追本溯源,沉下心來關注一些本質問題。

 

比如機器學習研究方向之一,是探索如何在特定知識表達體系下有效利用不同資源,這裡的資源包括計算資源(時間複雜性)和資料資源(樣本複雜性)。這個方向上的主流思路是使用基於深度網路的模型,但近幾年的研究更較偏heuristic和empirical,未來則更可能會是在深度模型的知識表達體系下進行探索。深度模型帶來的最大挑戰是非凸性,這從本質上有別於傳統的計算與統計理論,也值得研究者們產生一些全新的思考。

 

深度學習是目前毋庸置疑的大趨勢,近幾年來此類研究空前火熱,如果我們回到初心,將部分不真實的內容逐步澄清,能促進研究走上良性發展之路。

 

騰 訊 AI Lab 八 篇 入 選 論 文 詳 解

*論文按標題英文首字母排序

Oral 論文1. 去中心化演算法能否比中心化演算法效果更佳-一個關於去中心化的隨機梯度方法研究

Can Decentralized Algorithms Outperform Centralized Algorithms? A Case Study for Decentralized Parallel Stochastic Gradient Descent

本論文與蘇黎世聯邦理工學院、加州大學戴維斯分校和IBM合作完成。並行優化和計算效率是從大資料發掘智慧的核心競爭力。為了提高效率,大多數的並行優化演算法和平臺集中在研究中心化的演算法,比如Tensorflow、CNTK及MXNET。中心化的演算法的主要瓶頸是上百個計算結點與(多個)中心節點之間的通訊代價和擁堵,嚴重的受制於網路的頻寬和延遲。而這篇文章裡則考慮去中心化的思路以減少通訊的代價。

 

儘管在去中心化的方法在控制領域已經有所應用和研究,但是考慮的是在特殊的去中心的拓撲結構的情況下,如何交換融合資訊。而且已有的研究都沒有表明如果二者都能用的情況下去中心的演算法相對對於中心化的演算法會有任何優勢。這篇文章的主要貢獻在於研究了一個去中心化的隨機梯度方法,並且第一次從理論上證明了去中心化的演算法可以比對應的中心化演算法更加高效。同時本文通過大量的在深度學習上的實驗和比較驗證了作者理論。

 

這個發現將會開啟未來大家對並行演算法的思路,給並行系統帶來更多的靈活性和自由度。我們相信將會對未來的機器學習平臺和演算法開發產生較大影響。

* 本文入選NIPS 2017 口頭報告(Oral),論文佔比為40/3248。

2. 線性動態系統上的高效優化及其在聚類和稀疏編碼問題上的應用

Efficient Optimization for Linear Dynamical Systems with Applications to Clustering and Sparse Coding


本論文與清華大學和澳大利亞國立大學合作完成,其中的線性動態系統模型(LDS)是用於時空資料建模的一種重要的工具。儘管已有的理論方法非常豐富,但利用LDS進行時空資料的分析並不簡單,這主要是因為LDS的引數並不是在歐氏空間,故傳統的機器學習方法不能直接採用。

在這篇論文中,作者提出了一種高效的投影梯度下降法去極小化一個泛化的損失函式,並利用該方法同時解決了LDS空間上的聚類和稀疏編碼問題。為此,作者首先給出LDS引數的一種新型的典範表示,然後巧妙地將目標函式梯度投影到LDS空間來實現梯度回傳。與以往的方法相比,這篇文章中的方法不需要對LDS模型和優化過程加入任何的近似。充分的實驗結果證明了這篇文章中的方法在收斂性和最終分類精度上優於目前最好同類方法。

3. 通過斯坦因引理估計高維非高斯多指數模型

Estimating High-dimensional Non-Gaussian Multiple Index Models via Stein’s Lemma

本論文與普林斯頓大學和喬治亞理工大學合作完成,作者探討了在高維非高斯設定中估計半引數多指數模型的引數化組分的方法。文中的估計器使用了基於二階斯坦因引理的分數函式,而且不需要文獻中做出的高斯或橢圓對稱性假設。內部機構的研究表明:即使分數函式或響應變數是重尾(heavy-tailed)分佈的,文中的估計器也能實現接近最優的統計收斂率。最後,作者利用了一個資料驅動的截斷引數,並基於該引數確定了所需的集中度(concentration)結果。作者通過模擬實驗對該理論進行了驗證,對這篇文章中的理論結果進行了補充。

4. 基於幾何梯度下降方法的複合凸函式最小化

Geometric Descent Method for Convex Composite Minimization

本論文與香港中文大學和加利福尼亞大學戴維斯分校合作完成,主要擴充套件了Bubeck, Lee和Singh近期提出的處理非光滑複合強凸函式優化問題的幾何梯度下降方法。文中提出“幾何鄰近梯度下降法”演算法——能夠以線性速率收斂,因此能相比其他一階優化方法達到最優的收斂速率。最後,在帶有彈性網路正則化的線性迴歸和邏輯迴歸上的數值實驗結果表明,新提出的幾何鄰近梯度下降法優於Nesterov's加速的鄰近梯度下降法,尤其面對病態問題時優勢更大。

5. 基於混合秩矩陣近似的協同過濾

Mixture-Rank Matrix Approximation for Collaborative Filtering

本論文與復旦大學和IBM中國合作完成,關於低秩矩陣近似方法(LRMA)現今在協同過濾問題上取得了優異的精確度。在現有的低秩矩陣近似方法中,使用者或物品特徵矩陣的秩通常是固定的,即所有的使用者或物品都用同樣的秩來近似刻畫。但本文研究表明,秩不相同的子矩陣能同時存在於同一個使用者-物品評分矩陣中,這樣用固定秩的矩陣近似方法無法完美地刻畫評分矩陣的內部結構,因此會導致較差的推薦精確度。

這篇論文中提出了一種混合秩矩陣近似方法(MRMA),用不同低秩矩陣近似的混合模型來刻畫使用者-物品評分矩陣。同時,這篇文章還提出了一種利用迭代條件模式的領先演算法用於處理MRMA中的非凸優化問題。最後,在MovieLens系統和Netflix資料集上的推薦實驗表明,MRMA能夠在推薦精確度上超過六種代表性的基於LRMA的協同過濾方法。

6. 凸差近似牛頓演算法在非凸稀疏學習中的二次收斂

On Quadratic Convergence of DC Proximal Newton Algorithm in Nonconvex Sparse Learning

為求解高維的非凸正則化稀疏學習問題,我們提出了一種凸差(difference of convex/DC)近似牛頓演算法。我們提出的演算法將近似牛頓演算法與基於凸差規劃的多階段凸鬆弛法(multi-stage convex relaxation)結合到了一起,從而在實現了強計算能力的同時保證了統計性。具體來說,具體來說,通過利用稀疏建模結構/假設的複雜特徵(即區域性受限的強凸性和 Hessian 平滑度),我們證明在凸鬆弛的每個階段內,我們提出的演算法都能實現(區域性)二次收斂,並最終能在僅少數幾次凸鬆弛之後得到具有最優統計特性的稀疏近似區域性最優解。我們也提供了支援我們的理論的數值實驗。

 

7. 用於稀疏學習的同倫引數單純形方法

Parametric Simplex Method for Sparse Learning

本論文與普林斯頓大學、喬治亞理工大學和騰訊AI實驗室合作完成,作者關注了一種可形式化為線性規劃問題的廣義類別的稀疏學習——這類線性規劃問題可以使用一個正則化因子進行引數化,且作者也通過引數單純形方法(parametric simplex method/PSM)解決了這個問題。相對於其它相競爭的方法,這篇文章中的引數單純形方法具有顯著的優勢:(1)PSM 可以自然地為正則化引數的所有值獲取完整的解決路徑;(2)PSM 提供了一種高精度的對偶證書停止(dual certificate stopping )標準;(3)PSM 只需非常少的迭代次數就能得到稀疏解,而且該解的稀疏效能顯著降低每次迭代的計算成本。

特別需要指出,這篇文章展示了 PSM 相對於多種稀疏學習方法的優越性,其中包括用於稀疏線性迴歸的 Dantzig 選擇器、用於稀疏穩健線性迴歸的 LAD-Lasso、用於稀疏精度矩陣估計的 CLIME、稀疏差分網路估計和稀疏線性規劃判別(LPD )分析。然後作者提供了能保證 PSM 總是輸出稀疏解的充分條件,使其計算效能可以得到顯著的提升。作者也提供了嚴密充分的數值實驗,演示證明了 PSM 方法的突出表現。

 

8. 預測未來的場景分割和物體運動

Predicting Scene Parsing and Motion Dynamics in the Future

 

本論文與新加坡國立大學、Adobe研究室和360人工智慧研究院合作完成。無人車和機器人這樣的對智慧系統中,預期未來對提前計劃及決策非常重要。文中預測未來的場景分割和物體運動幫助智慧系統更好地理解視覺環境,因為場景分割能提供畫素級語義分割 (即何種物體在何處會出現),物體運動資訊能提供畫素級運動狀態(即物體未來會如何移動)。本文提出了一種全新的方法來預測未來的未觀測到的視訊場景分割和物體運動。用歷史資訊(過去的視訊幀以及對應的場景分割結果)作為輸入,文章中的新模型能夠預測未來任意幀的場景分割和物體運動。

更重要的是,這篇文章中的模型優於其他分開預測分割和運動的方法,因為文中聯合處理這兩個預測問題以及充分利用了它們的互補關係。據內部統計,文中的方法是第一個學習同時預測未來場景分割和物體運動的方法。在大規模Cityscape資料集上的實驗表明,本文的模型相比精心設計的基線方法,能獲得顯著更好的分割和運動預測結果。另外,這篇論文也展示瞭如何用機構內部的模型預測汽車轉向角,獲得的優秀結果進一步證實了該新模型學習隱含變數的能力。

原文連結:https://mp.weixin.qq.com/s/nfSH9k8nORUMy9sHIWw6vw

相關文章