強化學習新方法,讓後空翻迴旋踢再也難不倒機器人 | 伯克利論文
夏乙 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
波士頓動力人形機器人的後空翻技能亮相時,驚豔了全球群眾。
這麼複雜的動作,不用說現實世界中的機器人,就算是在模擬器裡,學起來也非常的難。
現在,加州大學伯克利分校和英屬哥倫比亞大學最新研究的一種新方法,能教生活在模擬器中的機器人通過模仿人類,學會武打、跑酷、雜技等複雜技能。
後空翻迴旋踢什麼的,輕輕鬆鬆搞定~
(下文還會提到很多次“機器人”,基本都是生活在模擬器裡的這種)
讓機器人、動畫和遊戲角色能靈活流暢地運動,是計算機圖形學、強化學習、機器人等等領域的研究者都在追求的目標。
不同方法各有所長,當然也各有所短。
用強化學習方法教機器人(模擬器裡的智慧體),能學會的動作花樣繁多,細緻到拿東西、豪放到奔跑都能搞定,還可以給機器人設定一個明確的目的。但是,總難免上演一些羞恥或驚喜play。
而動作捕捉技術,能讓機器人做出和真人一模一樣,自然流暢毫無違和感的動作。但是,活學活用是不能指望的,每個動作、每個形態的機器人,都是需要單獨訓練的。
伯克利的科學家們取這兩個領域所長,創造了一種新方法DeepMimic。這種方法既有深度學習模型的通用性,可以覆蓋更多的動作型別和機器人形態,動作的自然流暢程度也可以媲美動作捕捉。
用這種新方法,機器人究竟是怎麼學習新動作的呢?
簡單來說是通過看動作片段來學習,人類的動作捕捉資料就是個很好的學習資料。給機器人展示一個動作樣本,比如說下圖這個側空翻,右側就是供機器人學習的示範樣本。
參與這項研究的科學家們將示範動作分解成一個q^0,q^1,…,q^T的序列,q^T表示的是在機器人在t時間步的目標動作。而這個機器人學習的目標,就是要儘可能消滅t時間步的實際動作qT和目標動作q^T的差距。
機器人勤勞地不停練習練習練習,直到自己的動作不再羞恥,靈活性和模擬度能夠媲美演示視訊,像上圖左側那樣。
指導這個練習過程的,是這樣一個獎勵函式:
除了空翻,用這種方法教出來的機器人還能學到中西舞蹈、南拳北腿、跑步打把勢甚至鯉魚打挺:
對著完美的動作捕捉樣本,再copy一遍,有什麼意思?這項研究當然不止於模仿。DeepMimic能讓機器人通過模仿學會動作之後,再活學活用起來。
比如當一個機器人學會了投球,就可以去執行一個演示樣本中沒有的任務。我們可以在模擬器中,指定一個目標讓它來投:
訓練的機器人,也可以長得和演示樣本不太一樣。比如說還是用前邊的後空翻樣本,可以訓練一個模擬波士頓動力Altas的機器人:
甚至不是人形的機器人,也可以用人形樣本來訓練。比如說這頭霸王龍,就是跟人形樣本學習的走路。在論文的主頁上,他們還展示了更多的例子,甚至還有獅子和龍~
要更深入地瞭解DeepMimic,請看論文:
DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills
作者:Xue Bin Peng, Pieter Abbeel, Sergey Levine, Michiel van de Panne
PDF:https://arxiv.org/abs/1804.02717
https://arxiv.org/pdf/1804.02717.pdf
作者系網易新聞·網易號“各有態度”簽約作者
— 完 —
活動報名
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 伯克利提出時序差分模型TDM:讓深度強化學習更像人類模型強化學習
- 機器學習強化下,機器人將掌握工具的使用機器學習機器人
- 機器人策略學習的Game Changer?伯克利提出Body Transformer機器人GAMORM
- 備戰世界盃!先用深度學習與強化學習踢場 FIFA 18深度學習強化學習
- NeurIPS 2019|騰訊AI Lab詳解入選論文,含模仿學習、強化學習、自動機器學習等主題AI強化學習機器學習
- 谷歌論文:使用深度強化學習的晶片佈局谷歌強化學習晶片
- ICLR 2020 多智慧體強化學習論文總結ICLR智慧體強化學習
- 機器學習入門(二) — 迴歸模型 (理論)機器學習模型
- AAAI 2020 | 52篇深度強化學習accept論文彙總AI強化學習
- NeurIPS 2018值得一讀的強化學習論文清單強化學習
- 一文讀懂人工智慧、機器學習、深度學習、強化學習的關係(必看)人工智慧機器學習深度學習強化學習
- 當AI開始“踢髒球”,你還敢信任強化學習嗎?AI強化學習
- 7 Papers | 深度強化學習綜述、圖靈71年前未發表的智慧機器論文強化學習圖靈
- 機器人學前班助力機器人簡單快速學習,給予強化學習的自動駕駛策略 | 一週AI學術機器人強化學習自動駕駛AI
- 機器學習緒論機器學習
- 解讀NeurIPS2019最好的機器學習論文機器學習
- 機器學習-樹迴歸機器學習
- 機器學習、深度學習、強化學習課程超級大列表!機器學習深度學習強化學習
- 強化學習與其他機器學習方法有什麼不同?強化學習機器學習
- 圖學習論文快訊 | 很多新方法提出,研究活躍度高!
- 論文學習
- TPAMI | 安全強化學習方法、理論與應用綜述,慕工大、同濟、伯克利等深度解析強化學習
- 機器學習入門學習筆記:(2.1)線性迴歸理論推導機器學習筆記
- 機器學習為什麼難以產品化? - kdnuggests機器學習
- 當博弈論遇上機器學習:一文讀懂相關理論機器學習
- 【機器學習】--迴歸問題的數值優化機器學習優化
- 【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習強化學習演算法機器人
- 機器學習:邏輯迴歸機器學習邏輯迴歸
- 機器學習:線性迴歸機器學習
- 機器學習:迴歸問題機器學習
- 機器學習之Logistic迴歸機器學習
- 谷歌DeepMind—運用深度強化學習為雙足機器人學習敏捷足球技能 Movies谷歌強化學習機器人敏捷
- ZGC論文學習GC
- “機器學習還是很難用!機器學習
- 緒論 初識機器學習機器學習
- 從強化學習到生成模型:ICML 2018 40篇值得一讀的論文強化學習模型
- 機器學習:線性迴歸(下)機器學習
- 機器學習之迴歸指標機器學習指標