強化學習新方法,讓後空翻迴旋踢再也難不倒機器人 | 伯克利論文

量子位發表於2018-04-18
夏乙 發自 凹非寺
量子位 出品 | 公眾號 QbitAI

波士頓動力人形機器人的後空翻技能亮相時,驚豔了全球群眾。

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

這麼複雜的動作,不用說現實世界中的機器人,就算是在模擬器裡,學起來也非常的難。

現在,加州大學伯克利分校和英屬哥倫比亞大學最新研究的一種新方法,能教生活在模擬器中的機器人通過模仿人類,學會武打、跑酷、雜技等複雜技能。

後空翻迴旋踢什麼的,輕輕鬆鬆搞定~

(下文還會提到很多次“機器人”,基本都是生活在模擬器裡的這種)


讓機器人、動畫和遊戲角色能靈活流暢地運動,是計算機圖形學、強化學習、機器人等等領域的研究者都在追求的目標。

不同方法各有所長,當然也各有所短。

用強化學習方法教機器人(模擬器裡的智慧體),能學會的動作花樣繁多,細緻到拿東西、豪放到奔跑都能搞定,還可以給機器人設定一個明確的目的。但是,總難免上演一些羞恥或驚喜play。

而動作捕捉技術,能讓機器人做出和真人一模一樣,自然流暢毫無違和感的動作。但是,活學活用是不能指望的,每個動作、每個形態的機器人,都是需要單獨訓練的。

伯克利的科學家們取這兩個領域所長,創造了一種新方法DeepMimic。這種方法既有深度學習模型的通用性,可以覆蓋更多的動作型別和機器人形態,動作的自然流暢程度也可以媲美動作捕捉。

用這種新方法,機器人究竟是怎麼學習新動作的呢?

簡單來說是通過看動作片段來學習,人類的動作捕捉資料就是個很好的學習資料。給機器人展示一個動作樣本,比如說下圖這個側空翻,右側就是供機器人學習的示範樣本。

640?wx_fmt=gif

參與這項研究的科學家們將示範動作分解成一個q^0,q^1,…,q^T的序列,q^T表示的是在機器人在t時間步的目標動作。而這個機器人學習的目標,就是要儘可能消滅t時間步的實際動作qT和目標動作q^T的差距。

機器人勤勞地不停練習練習練習,直到自己的動作不再羞恥,靈活性和模擬度能夠媲美演示視訊,像上圖左側那樣。

指導這個練習過程的,是這樣一個獎勵函式:

640?wx_fmt=png

除了空翻,用這種方法教出來的機器人還能學到中西舞蹈、南拳北腿、跑步打把勢甚至鯉魚打挺:

640?wx_fmt=png

640?wx_fmt=gif640?wx_fmt=gif

對著完美的動作捕捉樣本,再copy一遍,有什麼意思?這項研究當然不止於模仿。DeepMimic能讓機器人通過模仿學會動作之後,再活學活用起來。

比如當一個機器人學會了投球,就可以去執行一個演示樣本中沒有的任務。我們可以在模擬器中,指定一個目標讓它來投:

640?wx_fmt=gif

訓練的機器人,也可以長得和演示樣本不太一樣。比如說還是用前邊的後空翻樣本,可以訓練一個模擬波士頓動力Altas的機器人:

640?wx_fmt=gif

甚至不是人形的機器人,也可以用人形樣本來訓練。比如說這頭霸王龍,就是跟人形樣本學習的走路。在論文的主頁上,他們還展示了更多的例子,甚至還有獅子和龍~

要更深入地瞭解DeepMimic,請看論文:

DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills

作者:Xue Bin Peng, Pieter Abbeel, Sergey Levine, Michiel van de Panne

PDF:https://arxiv.org/abs/1804.02717

   https://arxiv.org/pdf/1804.02717.pdf

作者系網易新聞·網易號“各有態度”簽約作者


活動報名

640?wx_fmt=jpeg

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


相關文章