史丹佛大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略

路雪發表於2018-03-19
近期深度強化學習在多個領域取得了很好的表現,如視訊遊戲 [29] 和圍棋 [46]。對於機器人,RL 結合強大的函式逼近器(如神經網路)可提供設計複雜控制器的通用框架,而這種控制器很難靠人力搭建。基於強化學習的方法在機器人控制領域歷史很久,但通常與低維動作表示結合使用 [4, 20]。近年來,使用 model-based 和 model-free 技術的深度強化學習在機器人控制方面取得了大量成功案例,包括模擬和在硬體上執行兩方面。然而,使用 model-free 技術端到端地學習視覺運動控制器來執行長跨度、多階段控制任務仍然存在很大難度。

開發 RL 機器人智慧體需要克服多項挑戰。機器人策略必須將從帶噪感測器中得到的多模態、部分觀測資料改變為具備一定自由度的協作活動。同時,現實任務通常具備富接觸動態,並且隨著多個維度發生變化(視覺外觀、位置、形狀等),給泛化帶來了很大挑戰。

本論文中,研究者提出一種 model-free 的深度 RL 方法,直接從畫素輸入入手解決大量機器人控制任務。本論文關鍵洞察有:1)利用少量人類演示資料減少在連續域執行探索(exploration)的難度;2)在訓練過程中使用多種新技術(這些技術利用(exploit)了私有和任務特定的資訊),以加速和穩定視覺運動策略在多階段任務中的學習;3)通過增加訓練條件的多樣性來改善泛化效能。因此,這些策略在系統動態、目標外觀、任務長度等發生顯著變化的情況下仍然執行良好。

此外,研究者還展示了該方法在兩項任務上的初步結果,模擬訓練出的策略達到了向真實機器人的 zero-shot 遷移。

為了解決這些挑戰,本論文研究者提出的方法將模仿學習和強化學習結合起來,構建一個統一訓練框架。該方法以兩種方式利用演示資料:使用混合獎勵,基於生成對抗模仿學習將任務獎勵與模仿獎勵結合起來;使用演示軌跡構建狀態的課程(curriculum),以在訓練中初始化 episode。因此,該方法解決了全部六個任務,這些任務單憑強化學習或模仿學習都無法解決。

史丹佛大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略

圖 1. 研究者提出的機器人學習流程。研究者使用 3D 運動控制器收集某項任務的人類演示。本論文提出的強化學習和模仿學習模型利用這些演示促使模擬物理引擎的學習。然後執行 sim2real 遷移,將習得的視覺運動策略遷移至真正的機器人。

3. 模型

本研究旨在為機器人控制任務學習深度視覺運動策略。該策略使用 RGB 攝像頭觀測結果和本體特徵(proprioceptive feature)向量描述關節位置和角速度。這兩種感官模態在真實機器人上同樣可用,因此研究者進行模擬訓練,並將習得的策略在不修改的情況下遷移至機器人。圖 2 是模型概覽。深度視覺運動策略使用卷積神經網路編碼觀測畫素,使用多層感知機編碼本體特徵。這兩種模組中的特徵被級聯並傳輸至迴圈 LSTM 層,然後輸出關節速度(控制)。整個網路以端到端的方式進行訓練。研究者首先簡要介紹了生成對抗模仿學習(GAIL)和近端策略優化(PPO)的基礎知識。該模型基於這兩種方法擴充套件而來,提升視覺運動技能。

史丹佛大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略

圖 2. 模型概覽。模型核心是深度視覺運動策略,其採用攝像頭觀測結果和本體特徵作為輸入,並輸出下一個關節速度。

4. 實驗

本節展示了該方法可向視覺運動策略學習提供靈活的框架。研究者在六個控制任務中對該方法的效能進行了評估(詳見圖 3)。視訊包含了定性結果。

史丹佛大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略

圖 3. 實驗中六項控制任務的視覺化。左邊三列展示了六項任務在模擬環境中的 RGB 影像。這些影像對應輸入視覺運動策略的實際畫素觀測。右側一列展示了真實機器人執行兩項色塊任務的表現。

研究者將 episode 平均返回值表示為訓練迭代次數的函式,如圖 4 所示。完整模型在六項任務中達到了最高的返回值。

史丹佛大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略

圖 4. 論文提出的強化與模仿學習模型和基線學習效率的對比。該圖展示的是 5 次不同隨機種子執行的平均值。所有策略使用同樣的網路架構和超引數(λ 除外)。

在圖 5a 中,研究者用多種配置訓練智慧體,從單個修改到修改整個模型。研究者發現這些缺失可分為兩類:學習堆疊的智慧體(平均返回值大於 400)和僅學會提升的智慧體(平均返回值在 200 和 300 之間)。結果表明從狀態中學習價值函式的混合 RL/IL 獎勵和以目標為中心的鑑別器特徵在學習優良策略的過程中發揮了重要作用。

圖 5b 展示了該模型在 λ 值在 0.3 到 0.7 之間的執行效果,λ 值的大幅變化提供了 RL 和 GAIL 獎勵的平衡混合。

史丹佛大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略

圖 5. 堆疊任務中的模型分析。左圖展示了從完整模型中移除每個單獨元件對效能的影響。右圖展示了模型對超引數 λ 的敏感度,λ 調節強化學習和模仿學習的貢獻。

論文:Reinforcement and Imitation Learning for Diverse Visuomotor Skills

史丹佛大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略

論文地址:https://arxiv.org/pdf/1802.09564.pdf

摘要:我們提出了一種 model-free 的深度強化學習方法,該方法利用少量人類演示資料幫助實現強化學習智慧體。我們將該方法應用於機器人控制任務中,並訓練端到端的視覺運動策略,使 RGB 攝像頭輸入可直接對映至關節速度。我們展示了該方法可解決大量視覺運動任務,而工程實現一個指令碼控制器非常耗時費力。我們的實驗表明強化學習和模仿學習智慧體效能顯著優於僅使用強化學習或模仿學習訓練出的智慧體。我們還介紹了這些策略,它們在視覺和動態條件變動較大的情況下進行訓練,在 sim2real 遷移中取得了初步成功。本研究相關視訊介紹:https://www.youtube.com/watch?v=EDl8SQUNjj0&feature=youtu.be。史丹佛大學&DeepMind聯合提出機器人控制新方法,RL+IL端到端地學習視覺運動策略

相關文章