讓機器人看一眼就能模仿:One-Shot模仿學習發展情況

wujiy發表於2019-09-23

在機器人的動作學習,傳統的方法基於任務訓練強化學習(reinforcement learning)的策略,即針對每一個成功完成的任務的動作序列,訓練得到一條策略。或者在該基礎上,當獎勵訊號稀疏出現時,利用各種技術完成各項模仿學習 (imitation learning)。但模仿學習的問題是,它的各種任務是獨立的。例如,通過訓練一個模仿學習演算法(神經網路)能夠得到一個關於如何將塊堆疊到高度為 3 的塔中的策略。但當希望機器人完成將塊堆疊到高度為 2 的塔中的動作時,則需要重新訓練神經網路,從而得到另外一個策略。

單樣本模仿學習(One-Shot Imitation Learning)最先是伯克利大學著名的 Pieter Abbeel 教授以及他的學生在 2017 年提出來的 [1]。是指通過一次演示(可能包含一個或多個任務),告訴機器人當前有哪些任務以及如何完成這項任務。此時,不再是基於特定任務的神經網路學習,而是一種「演示模仿」學習。從有監督學習的角度討論,給定包含幾個訓練任務的演示,單樣本模仿學習能夠根據當前樣本推廣到未知但相關聯的任務中,從而做到一眼就能模仿。至於如何制定「相關聯」,就是各位研究者所要探討的內容。

單樣本模仿學習的經典方法是元學習(Meta-Learning)。在訓練階段,通過給定已知域中的一組任務及對應的動作完成模型學習;測試階段,利用模型通過一段演示推廣並具備完成未知任務的能力。基於元學習的單樣本模仿學習方法存在的主要問題是需要大量的資料(演示視訊)完成模型訓練。最近,李飛飛組提出將單樣本模仿學習定義為一個符號規劃問題(Symbolic Planning),利用符號域定義的結構將策略執行與任務間的泛化處理分離開來,從而大大減少元學習方法在訓練階段所需的任務數量,提高了方法的效率。

元學習和符號規劃問題的方法思路都是以第一人的角度觀看並學習演示(視訊),因此演示的情況直接影響方法的效果。Leo Pauly 等提出了觀察學習(Observation Learning)的概念,即從第三人的角度觀看演示,同時利用深度網路將演示視訊片段轉化為活動的抽象表示(活動特徵)。基於活動特徵的不可變性,該方法可以在不同的觀察視角、物件屬性、場景背景和機械手形態下,跟隨演示中學習任務。

本文主要介紹了 3 篇有關 one-shot imitation learning 的代表作,分別針對元學習、符號規劃問題和觀察學習的單樣本模仿學習進行分析:

  1. Yu, Tianhe, et al. "One-shot hierarchical imitation learning of compound visuomotor tasks." arXiv preprint arXiv:1810.11043(2018). https://arxiv.org/pdf/1810.11043.pdf,基於元學習的單樣本模仿學習。

  2. De-An Huang, et al.「Continuous Relaxation of Symbolic Planner for One-Shot Imitation Learning.」arXiv preprint arXiv:1908.06769 (https://arxiv.org/abs/1908.06769) (2019). https://arxiv.org/pdf/1908.06769.pdf,利用符號規劃問題的單樣本模仿學習。

  3. Leo Pauly, et al.「One-Shot Observation Learning Using Visual Activity Features .」arXiv:1810.07483(V2. 2019). https://arxiv.org/pdf/1810.07483.pdf,基於視覺活動特徵的單樣本觀察學習。

One-shot hierarchical imitation learning of compound visuomotor tasks

讓機器人看一眼就能模仿:One-Shot模仿學習發展情況

本文是 Abbeel 和他的老搭檔 Sergey Levine 教授利用他們學生 Finn 提出的 MAML 添了自己的坑。相比起 One-shot imitation learning 的開山之作的概念性模型 [1],這裡實際中利用了視覺畫素輸入,解決了單樣本模仿學習中處理多階段複雜視覺任務的問題。即針對一條原始演示視訊(沒有經過任何預標記處理的執行整個任務的未剪輯原始視訊),通過有效利用子任務的演示資料和其他物件資訊等,完成模仿學習。本文使用元學習方法,同時為了解決原始視訊中存在的未標記、多工問題,本文提出的方法同時完成動作學習和動作合成兩項任務。本文的主要貢獻是提出了一種沒有預標註的人類演示動態學習和組合策略序列的方法。由實驗分析可知,這種方法可以用來動態地學習和排序使用者在測試時提供的單個視訊演示的技巧。

方法分析

文章首先解決教會機器人通過模仿人類演示來學習原始動作技能的問題。本文使用領域自適應元學習(Domain-adaptive meta learning,DAML)方法從單個演示推斷策略。DAML 是模型不可知元學習演算法(Model-agnostic meta-learning algorithm,MAML)的擴充套件。Finn 中首次提出了 MAML 的概念 [2],其目標是通過二重迴圈 1. 分別學習不同任務的深度網路的引數 ($\theta_1,\theta_2,\theta_3$),2. 找到不同任務間的共同次優解($\theta$),從而通過一步或幾步梯度下降實現有效的泛化處理。圖 1 中給出 MAML 原理示意圖,找到這樣的模型引數,對於任一任務產生的引數微小變化,能夠使得損失函式具有很大的改進,因此通過優化表示$\theta$,能夠快速完成新任務的適應性學習。

讓機器人看一眼就能模仿:One-Shot模仿學習發展情況

Fig. 1. Diagram of MAML, which optimizes for a representation θ that can quickly adapt to new tasks.

相關文章