NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

騰訊技術工程發表於2019-12-11

第 33 屆神經資訊處理系統大會(NeurIPS 2019)將於當地時間 12 月 8 – 14 日在加拿大溫哥華舉辦。該會議的目標是促進有關神經資訊處理系統的生物學、技術、數學和理論方面的研究交流。伴隨著人工智慧與機器學習領域的飛速發展,作為領域頂級學術會議之一的 NeurIPS 今年會議的論文投稿數量又創造了新的記錄:本屆會議共收到有效提交論文 6743 篇(相比去年增長近 39%),其中 1428 篇被接收,接受率為 21.17%。

騰訊公司今年共有 18 篇論文入選,引領國內產業界;其中來自騰訊 AI Lab 的論文共 14 篇,涉及強化學習、模仿學習、網路結構優化、計算機視覺和語義分割等多個研究主題。本文將彙總介紹騰訊 AI Lab 入選 NeurIPS 2019 的論文。

一、模仿學習

模仿學習是指通過演示的範例進行學習的方法。今年騰訊 AI Lab有一篇與模仿學習相關的論文入選,提出了一種基於觀察進行模仿學習的新方法。

1.  通過最小化逆動力學分歧來實現從觀察中模仿學習

Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement

論文:

https://papers.nips.cc/paper/8317-imitation-learning-from-observations-by-minimizing-inverse-dynamics-disagreement

本文由騰訊 AI Lab、清華大學以及 MIT-IBM Watson AI Lab 合作完成,是 NeurIPS 2019 的 Spotlight 論文之一。

本文主要討論瞭如何在只提供專家狀態演示(缺乏專家動作演示)下的模仿學習,即從觀測中學習(LfO:Learning from Observations)。不同於從完備專家演示中學習(LfD:Learning from Demonstration),LfO 在利用更多形式的資料(比如視訊,以往方法是無法使用這些資料)方面更具有實用性。同時,因為專家演示資訊的不完備,所以實現 LfO 更加具有挑戰性。這篇文章從理論和實踐的角度討論了 LfD 和 LfO 的不同。研究者從數學上證明:在 GAIL 的建模下,LfD 和 LfO 的差別實際上就是智慧體和專家的逆運動模型的不一致性。更重要的是,這個差別的一個上界可以通過無模型的最大化熵來實現。作者將這種方法稱為「逆動力學分歧最小化(IDDM)」,通過最小化 LfO 與 LfD 的區別來增強 LfO 的效能。大量實驗表明,這種新方法相比傳統 LfO 方法更有優勢。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

IDDM演算法

二、強化學習

強化學習是近年來大放異彩的機器學習技術之一,基於這種技術開發的人工智慧模型已經在圍棋、撲克、視訊遊戲和機器人等領域取得了非常多的里程碑式的進步。騰訊 AI Lab的 NeurIPS 2019 入選論文中有三篇與強化學習有關,這三篇論文針對不同方向的任務分別提出了兩種不同的新的演算法以及一種新的多智慧體學習策略。

1.基於課程引導的後驗經驗回放演算法

Curriculum-guided Hindsight Experience Replay

論文:

https://papers.nips.cc/paper/9425-curriculum-guided-hindsight-experience-replay

本文由騰訊AI Lab/Robotics X主導,與華盛頓大學合作完成。在存在稀疏獎勵的強化學習中,後驗經驗回放(HER)能夠通過將失敗經驗的實現狀態視為偽目標來從失敗中學習。但是並非所有失敗的經歷對於學習都同樣有用,因此使用所有失敗經驗的效率不高。

因此,本文提議:1)根據與真實目標的接近程度和對各種偽目標的探索好奇心,自適應地選擇失敗經驗;2)逐漸改變選擇指標中目標臨近度和多樣性的比例:本文采用類似人的學習的策略,即在早期階段提高好奇心,之後又將重心轉向臨近度。這種「目標和好奇心驅動的課程學習」就引出了「課程指導的後驗經驗回放(CHER)」。該演算法可以在強化學習過程中通過對失敗經驗選擇而實現自適應,動態地控制探索與開發的權衡。實驗結果表明,在具有挑戰性的機器人環境(比如機器手轉球等)中,CHER可以進一步提升當前最佳表現。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

CHER演算法

2.LIIR:多智慧體學習中實現對個體即時內在獎勵值的學習

LIIR: Learning Individual Intrinsic Reward in Multi-Agent Reinforcement Learning.

論文:

https://papers.nips.cc/paper/8691-liir-learning-individual-intrinsic-reward-in-multi-agent-reinforcement-learning

本文由騰訊AI Lab/Robotics X主導,與倫敦大學學院和羅徹斯特大學合作完成。在協作式多智慧體強化學習(MARL)的場景中,環境的獎勵值通常是回饋給整個多智慧體團隊的,這就產生了一個難題:如何通過整體團隊的獎勵值對每一個不同的智慧體進行差異化和多樣性的鼓勵。

針對這一問題,本文提出了一種元學習的方法,即對每一個智慧體學習一個虛擬的內在獎勵值,但同時整體的學習目標仍然是優化團隊的總體獎勵。每一個智慧體的虛擬即時獎勵值都不相同,從而可以激勵不同的智慧體採取多樣的有利於團隊的行為。

具體來說,每一個特定的智慧體的即時內在獎勵涉及到為該智慧體計算一個明確的代理評估函式,從而為其個體策略更新提供指示。同時,引數化的即時獎勵函式也會得到更新,以最大化團隊在環境中的預期累積獎勵,因此這種方法的目標與原始 MARL問題的目標是一致的。這種新方法稱為 LIIR。在《星際爭霸 2》上的實驗結果表明,通過學習多智慧體的即時獎勵可以激勵多智慧體產生有效並且多樣的行為。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

多智慧體強化學習設定中的 LIIR 方法概況

3.  散度增強的策略優化演算法

Divergence-Augmented Policy Optimization

論文: 

https://papers.nips.cc/paper/8842-divergence-augmented-policy-optimization

本文由騰訊AI Lab與虎牙AI、香港中文大學、香港科技大學合作完成。在深度強化學習問題中,策略優化方法需要處理函式近似以及離線資料的使用問題。常用的策略梯度演算法不能很好地處理離線資料,導致過早收斂和不穩定等問題。這篇論文介紹了在重複使用離線資料時能穩定策略優化訓練的方法。主要思想是引入現有的策略和產生離線資料的行為策略之間的Bregman散度來保證安全的策略更新。本文的Bregman散度不只是加在兩個策略的動作分佈上,同時還考慮了兩者狀態分佈上的散度,從而匯出了本文的散度增強公式。在 Atari遊戲上的實驗說明在資料不足情況下,重複利用離線資料很有必要,而本文提出的方法可以比其它深度強化學習SOTA演算法取得更好的效果。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

散度增強的策略優化演算法


三、自動機器學習與網路優化

騰訊 AI Lab 也在機器學習的基礎方法上努力探索。今年入選 NeurIPS 的論文中有 5 篇與自動機器學習和網路優化有關,其中包括對網路架構和超引數的優化方法以及用於複合優化問題的新方法,另外還有一篇論文提出了用於分散式環境的通訊優化方案——文中提出了 3 個針對不同方面的用以實現高效通訊的分散式優化演算法。

1.  用於複合優化問題的隨機方差下降原始-對偶演算法

Stochastic Variance Reduced Primal Dual Algorithms for Empirical Composition Optimization

論文:

https://papers.nips.cc/paper/9180-stochastic-variance-reduced-primal-dual-algorithms-for-empirical-composition-optimization

程式碼:

https://github.com/adidevraj/SVRPDA

本文由騰訊AI Lab主導,與佛羅里達大學合作完成。研究了通用的複合優化問題,在這個問題中樣本平均不僅出現在非線性損失函式的裡面和外面。很多機器學習問題均可以表述成這一類通用複合優化問題,因此高效求解這類問題具有很重要的實際應用意義。然而這類問題無法直接用隨機梯度下降演算法直接求解。

為了解決這個問題,本文現將原始的最小化問題等價表述成一個最小-最大化問題,這一等價變換可以將非線性損失函式裡面的樣本平均交換到外面去。充分挖掘了問題內在的結構之後,本文提出了一種隨機原始-對偶演算法SVRPDA-I來高效求解這個問題。同時本文對演算法進行了全面的理論分析,推導了收斂速度、計算複雜度和儲存複雜度,並證明了演算法的線性收斂速度。

此外,本文還提出了一個近似演算法SVRPDA-II,可以極大降低演算法的儲存複雜度(極大降低記憶體使用量),同時僅有很小的效能損失。在實際任務上的實驗結果表明新提出的演算法在效能上顯著超過了現有的其他演算法。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

SVRPDA-I

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

SVRPDA-II

2.  通過分佈遷移進行超引數優化

Hyperparameter Learning via Distributional Transfer

論文:

https://papers.nips.cc/paper/8905-hyperparameter-learning-via-distributional-transfer

本文由騰訊AI Lab主導,與牛津大學合作完成。貝葉斯優化是一種用於超引數優化的流行技術。但是即使在先前所解決任務與當前任務類似的情況下,貝葉斯優化通常也需要進行昂貴的初始探索。不同於傳統的貝葉斯優化,本文提議了一種新的改進思路:基於這些任務的訓練資料集所學到的分佈表示而跨任務地遷移超引數對模型效能影響的知識。具體來說,該方法引入了一個超引數和資料表示的聯合高斯過程來遷移歷史任務超引數優化的知識,進而對新任務上的超引數優化起到熱啟動的效果。與現有基準相比,新提出的方法具有更快的收斂速度。在某些情況下,新演算法僅需要迭代幾次即可。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

基於分佈的貝葉斯優化演算法

3.  NAT:用於獲得精確且緊湊型架構的神經網路架構變形器

NAT: Neural Architecture Transformer for Accurate and Compact Architectures

論文:

https://nips.cc/Conferences/2019/Schedule?showEvent=13305

本文由騰訊AI Lab主導,與華南理工大學合作完成。現有的神經網路架構基本都是手動設計的或者通過某些神經網路架構搜尋方法得到的。但是,即使是精心設計的架構也仍然可能包含許多不重要的或冗餘的計算模組或計算操作。這不僅會導致大量的記憶體消耗和計算成本,而且會使模型效能降低。因此,有必要在不引入額外計算成本的情況下優化已有神經網路架構內部的操作以提高效能。不幸的是,這樣的約束優化問題是NP難的。

所以,本文將該問題簡化為一個利用馬爾可夫決策過程來自動優化神經網路架構的問題。針對該問題,本文提出一個名為神經網路架構變形器的演算法。它可以將冗餘操作替換為計算效率更高的操作。所研發的演算法適用於對多種人工設計的以及網路架構自動搜尋方法得到的網路架構的優化,並在兩個標準資料集(即CIFAR-10和ImageNet)上進行了廣泛實驗。結果表明通過所提方法變形所得的架構顯著優於其原始形式和通過其他現有方法優化所得的架構。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

NAT的訓練方法

4.  基於雙重量化高效通訊的分散式優化方法

Double Quantization for Communication-Efficient Distributed Optimization

論文:

https://papers.nips.cc/paper/8694-double-quantization-for-communication-efficient-distributed-optimization

本文由騰訊AI Lab與清華大學交叉資訊研究院合作完成。在大規模分散式優化過程中,模型引數與梯度的同步通訊往往是限制其訓練效率的效能瓶頸。本文提出了一種雙重量化的通訊機制,同時對模型引數與梯度進行壓縮以提升訓練效率。具體的,本文從非同步通訊、梯度稀疏化以及基於動量項的加速策略三個方面,分別設計了高效通訊的分散式優化演算法:低精度的 AsyLPG、Sparse-AsyLPG、Accelerated AsyLPG。本文也給出了嚴格的理論保證。實驗結果表明,本文提出的演算法可以在精度無損的前提下,有效降低資料傳輸量,顯著優於其它僅進行模型引數或者梯度量化的分散式優化方法。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

AsyLPG演算法

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

Sparse-AsyLPG演算法

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

Accelerated AsyLPG演算法

5.  基於隨機遞迴梯度下降的有效率的光滑非凸隨機複合優化

Efficient Smooth Non-Convex Stochastic Compositional Optimization via Stochastic Recursive Gradient Descent.

論文:

https://papers.nips.cc/paper/8916-efficient-smooth-non-convex-stochastic-compositional-optimization-via-stochastic-recursive-gradient-descent

本文由騰訊AI Lab與密蘇里科技大學、羅切斯特大學、北京大學合作完成。在很多重要的機器學習任務如強化學習、投資組合管理等,隨機複合優化有廣泛的使用場景。隨機複合優化問題的目標函式常態為兩個隨機函式的數學期望之合,其比vanilla隨機優化問題更具有挑戰性。

在本論文中,作者研究一般光滑非凸設定下的隨機複合優化。作者使用一個最近提出的思想-隨機遞迴梯度下降,設計出一個稱為SARAH-Compositional的新演算法。作者也為隨機複合優化證明了一個銳利的IFO複雜度上界:在有限合情況下,該上界為$O((n+m)^{1/2}\varepsilon^{-2})$;在線上學習情況下,該上界為$\varepsilon^{-3}$。作為一項重要的理論性的結果,該複雜度為非凸隨機複合優化的所有存在的IFO複雜度之最優。數值實驗證明了論文中所提演算法與其相關理論的優越效能。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

SARAH-Compositional演算法

四、語義分割

騰訊 AI Lab 還有 3 篇論文與語義分割相關,其中一篇研究的是使用圖卷積網路的點雲語義分割;另一篇為影像語義分割提出了一種新的非監督式域自適應方法。


1.  基於上下文資訊的點表示挖掘區域性和全域性結構資訊的點雲語義分割

Exploiting Local and Global Structure for Point Cloud Semantic Segmentation with Contextual Point Representations

論文:

https://papers.nips.cc/paper/8706-exploiting-local-and-global-structure-for-point-cloud-semantic-segmentation-with-contextual-point-representations

程式碼:

https://github.com/fly519/ELGS

本文由騰訊AI Lab與深圳大學合作完成。本文提出了一種新型的點雲語義分割模型。該模型基於上下文點雲表示,可同時挖掘點雲中的區域性和全域性結構。具體來說,本文通過對點本身及其上下文點資訊設計了一種新穎的門控融合來豐富每個點的表示。然後,基於豐富點的表示,我們提出了一個新穎的圖點雲網模組(GPM),依靠圖注意力模型動態地組成和更新區域性點雲結構內的每個點表示。最後,利用空間和通道的注意力模型,挖掘點雲的全域性結構資訊,從而為每個點生成最終的語義標籤。在公共點雲資料庫(即S3DIS和ScanNet資料集)上的大量結果證明了新提出的模型的有效性,並且結果也優於最先進的方法。相關研究程式碼已釋出。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

新提出的用於點雲分割的模型,該模型由三個完全耦合的元件構成。其中 Point Enrichment元件不僅會考慮點本身,而且還會考慮其上下文的點資訊,以便豐富其語義表示。Feature Representation元件使用了的傳統的編碼器-解碼器架構,為每個點學習特徵表示。具體來說,新提出的 GPM可通過一個 GAB模組動態地組成和更新每個點表示。Prediction 元件則同時使用通道和空間的注意力模型,進而融合全域性結構資訊預測每個點的語義標籤。

2.  用於語義分割的基於類別錨點引導的非監督式域自適應

Category Anchor-Guided Unsupervised Domain Adaptation for Semantic Segmentation

論文:

https://papers.nips.cc/paper/8335-category-anchor-guided-unsupervised-domain-adaptation-for-semantic-segmentation

程式碼:

https://github.com/RogerZhangzz/CAG_UDA

本文由騰訊AI Lab與優必選悉尼大學人工智慧中心合作完成。非監督的域自適應(UDA)之目的是提升一個特定學習模型從一個源域運用到一個目標域的推廣能力。使用者一般沒有額外的精力去標註目標域的樣本,因此UDA將顯得非常有意義。然而,資料分佈的差異或者域遷移/差異將不可避免地損害UDA的效能。雖然在匹配兩個不同域的邊際分佈上有一些研究進展,但由於執行了類別未知的特徵對齊,訓練出的分類器會傾向於源域的特徵,而對目標域的樣本做出錯誤預測。

在本論文中,作者為影像語義分割提出一個新的類別錨點引導的UDA模型(CAG-UDA)。該模型可顯式地執行類別可知的特徵對齊,進而同步學習出共享的鑑別性強的特徵與分類器。具體而言,源域特徵的類別質心首先被用做引導的錨點,用來確定目標域的活躍特徵並賦予它們偽標籤。然後,作者使用一個基於錨點的畫素級的距離損失和一個鑑別性損失分別推動類別內特徵更近和類別間特徵更遠。最後,作者設計了一個階段性的訓練機制,用以降低累積的預測誤差和逐步使模型更加適應目標域。在兩個影像語義遷移分割的任務上,作者驗證了所提出的CAG-UDA方法,結果表明新方法的效能超過當前業內最先進的方法。相關研究程式碼已釋出。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

CAG-UDA 模式示意圖

五、其他研究

以上研究之外,騰訊 AI Lab 還有 3 篇論文對其他(但並非不重要)的研究主題進行了探索。其中一篇提出了一種動態時間規整網路,可幫助更好地提取時間序列資料中的特徵;另一篇則探索了通過使用對抗樣本來提升跨模態雜湊神經網路的魯棒性。最後一篇則是視覺和語言結合方面的研究,提出了通過自然語言定位視訊中語義上相關的片段的新機制

1.DTWNet:一種動態時間規整網路

DTWNet: A DynamicTime Wrapping Network

論文:

https://papers.nips.cc/paper/9338-dtwnet-a-dynamic-time-warping-network.pdf

本文由騰訊AI Lab主導,與康涅狄格大學合作完成。深度神經網路在處理時間序列資料時,傳統的閔可夫斯基距離不適合作為反應序列相似度的損失函式,而動態時間規整演算法(DTW)可以更好地計算序列距離,因此可以用作深度網路中的損失函式和特徵提取運算元。

本文提出了一種新的估計方法,使得DTW在作為運算元時可以估計輸入的梯度,從而實現神經網路中的反向傳播。該方法首次分析了DTW作為損失函式的函式形態和應用梯度下降法的收斂性,並且首次提出了基於部分序列匹配的DTW梯度更新演算法。實驗結果表明,該方法作為一種新的特徵抽取手段,可以更好地提取時間序列資料中的特徵。此外,本文提出的梯度估算方法在實驗中展現了良好的收斂性。本文也創造性地提出了該方法在資料分解上的擴充性應用。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

針對一個分類任務的 DTWNet訓練過程

2.  使用對抗樣本的跨模態學習

Cross-Modal Learning with Adversarial Samples.

論文:

https://papers.nips.cc/paper/9262-cross-modal-learning-with-adversarial-samples

本文由騰訊AI Lab主導,與西安電子科技大學、匹茲堡大學合作完成。隨著深度神經網路的快速發展,已經誕生了大量的深度跨模態分析方法,而且這些方法也在醫療AI等領域得到了廣泛的應用。但是,最近關於深度神經網路的魯棒和穩定性研究發現:樣本的一個微小更改(即對抗樣本,甚至人類肉眼完全無法察覺)就能輕易騙過一個主流的深度神經網路而造成效能的巨大下降。因此,對抗樣本是當前跨模態分析研究探索的一大障礙。

在本論文中,作者提出了一種新的跨模態學習方法,稱為CMLA,該方法是首個構造並學習出了多模態資料中的對抗樣本的方法。。在基於跨模態雜湊的檢索任務上,新提出的CMLA方法表現出了很好的效能。在兩個跨模態基準資料集上的實驗論證表明:CMLA創造的對抗樣本能快速地騙過一個目標跨模態雜湊網路,另一方面也能通過繼續的對抗訓練提升該目標跨模態雜湊網路的魯棒性。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

用於跨模態雜湊學習的 CMLA的流程圖

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

CMLA演算法

3.  用於視訊自然語言定位的語義條件動態調製機制

Semantic Conditioned Dynamtic Modulation for Temporal Sentence Grounding in Videos

論文:

https://papers.nips.cc/paper/8344-semantic-conditioned-dynamic-modulation-for-temporal-sentence-grounding-in-videos

程式碼:

https://github.com/yytzsy/SCDM

本文由騰訊AI Lab主導,與清華大學合作完成。視訊中自然語句定位任務的目標是檢測和定位一個目標視訊片段,使得該片段在語義上與給定的句子語義相對應。現有方法主要通過在句子和候選視訊片段之間匹配和對齊語義來解決該任務,而忽略了句子資訊在時間上的關聯和組成視訊內容中起到的重要作用。

本文提出了一種新穎的語義條件動態調製(SCDM)機制,該機制依賴於句子語義來調製時間域卷積運算,以便隨著時間的推移更好地關聯和組成與句子相關的視訊內容。更重要的是,提出的SCDM針對各種視訊內容動態地執行,從而在句子和視訊之間建立更精確的匹配關係,進而提高了時間上的定位精度。在三個公共資料集上進行的大量實驗表明,新提出的模型優於已有的方法,說明了SCDM能夠更好地關聯和定位相關視訊內容以進行時間域文字定位。相關研究程式碼已釋出。

NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題

該模型由三個完全耦合的元件構成。Multimodal Fusion 元件會以細粒度的方式融合整個句子和每個視訊片段。基於融合後的表示,Semantic Modulated Temporal Convolution 元件會在時間卷積過程中將與句子相關的視訊內容相關聯,其中新提出的 SCDM會根據句子來動態地調製時間特徵圖。最後,Position Prediction 元件會基於已調製的特徵輸出候選視訊片段的位置偏移量和重疊分數。

相關文章