強化學習新方法,讓後空翻迴旋踢再也難不倒機器人 | 伯克利論文
夏乙 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
波士頓動力人形機器人的後空翻技能亮相時,驚豔了全球群眾。
這麼複雜的動作,不用說現實世界中的機器人,就算是在模擬器裡,學起來也非常的難。
現在,加州大學伯克利分校和英屬哥倫比亞大學最新研究的一種新方法,能教生活在模擬器中的機器人通過模仿人類,學會武打、跑酷、雜技等複雜技能。
後空翻迴旋踢什麼的,輕輕鬆鬆搞定~
(下文還會提到很多次“機器人”,基本都是生活在模擬器裡的這種)
讓機器人、動畫和遊戲角色能靈活流暢地運動,是計算機圖形學、強化學習、機器人等等領域的研究者都在追求的目標。
不同方法各有所長,當然也各有所短。
用強化學習方法教機器人(模擬器裡的智慧體),能學會的動作花樣繁多,細緻到拿東西、豪放到奔跑都能搞定,還可以給機器人設定一個明確的目的。但是,總難免上演一些羞恥或驚喜play。
而動作捕捉技術,能讓機器人做出和真人一模一樣,自然流暢毫無違和感的動作。但是,活學活用是不能指望的,每個動作、每個形態的機器人,都是需要單獨訓練的。
伯克利的科學家們取這兩個領域所長,創造了一種新方法DeepMimic。這種方法既有深度學習模型的通用性,可以覆蓋更多的動作型別和機器人形態,動作的自然流暢程度也可以媲美動作捕捉。
用這種新方法,機器人究竟是怎麼學習新動作的呢?
簡單來說是通過看動作片段來學習,人類的動作捕捉資料就是個很好的學習資料。給機器人展示一個動作樣本,比如說下圖這個側空翻,右側就是供機器人學習的示範樣本。
參與這項研究的科學家們將示範動作分解成一個q^0,q^1,…,q^T的序列,q^T表示的是在機器人在t時間步的目標動作。而這個機器人學習的目標,就是要儘可能消滅t時間步的實際動作qT和目標動作q^T的差距。
機器人勤勞地不停練習練習練習,直到自己的動作不再羞恥,靈活性和模擬度能夠媲美演示視訊,像上圖左側那樣。
指導這個練習過程的,是這樣一個獎勵函式:
除了空翻,用這種方法教出來的機器人還能學到中西舞蹈、南拳北腿、跑步打把勢甚至鯉魚打挺:
對著完美的動作捕捉樣本,再copy一遍,有什麼意思?這項研究當然不止於模仿。DeepMimic能讓機器人通過模仿學會動作之後,再活學活用起來。
比如當一個機器人學會了投球,就可以去執行一個演示樣本中沒有的任務。我們可以在模擬器中,指定一個目標讓它來投:
訓練的機器人,也可以長得和演示樣本不太一樣。比如說還是用前邊的後空翻樣本,可以訓練一個模擬波士頓動力Altas的機器人:
甚至不是人形的機器人,也可以用人形樣本來訓練。比如說這頭霸王龍,就是跟人形樣本學習的走路。在論文的主頁上,他們還展示了更多的例子,甚至還有獅子和龍~
要更深入地瞭解DeepMimic,請看論文:
DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills
作者:Xue Bin Peng, Pieter Abbeel, Sergey Levine, Michiel van de Panne
PDF:https://arxiv.org/abs/1804.02717
https://arxiv.org/pdf/1804.02717.pdf
作者系網易新聞·網易號“各有態度”簽約作者
— 完 —
活動報名
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 伯克利提出強化學習新方法,可讓智慧體同時學習多個解決方案強化學習智慧體
- 伯克利提出時序差分模型TDM:讓深度強化學習更像人類模型強化學習
- 論文結果難復現?教你實現深度強化學習演算法DQN強化學習演算法
- 機器人策略學習的Game Changer?伯克利提出Body Transformer機器人GAMORM
- 備戰世界盃!先用深度學習與強化學習踢場 FIFA 18深度學習強化學習
- 谷歌論文:使用深度強化學習的晶片佈局谷歌強化學習晶片
- 機器人學前班助力機器人簡單快速學習,給予強化學習的自動駕駛策略 | 一週AI學術機器人強化學習自動駕駛AI
- 論文結果難復現?本文教你完美實現深度強化學習演算法DQN強化學習演算法
- 當AI開始“踢髒球”,你還敢信任強化學習嗎?AI強化學習
- 7 Papers | 深度強化學習綜述、圖靈71年前未發表的智慧機器論文強化學習圖靈
- 圖學習論文快訊 | 很多新方法提出,研究活躍度高!
- 論文學習
- OpenAI公佈強化學習新演算法,可控制複雜機器人OpenAI強化學習演算法機器人
- 【強化學習】使用off-policy演算法機器人抓取任務基準;生成對抗網路 GAN 就是強化學習強化學習演算法機器人
- AAAI 2020 | 52篇深度強化學習accept論文彙總AI強化學習
- ZGC論文學習GC
- 【強化學習】強化學習/增強學習/再勵學習介紹強化學習
- NeurIPS 2018值得一讀的強化學習論文清單強化學習
- 如何破解終端算力困局?PRCV這篇論文讓機器人“算有餘力”機器人
- 谷歌“學習機器人”:機器像人腦一樣思考谷歌機器人
- 想輕鬆復現深度強化學習論文?看這篇經驗之談強化學習
- 強化學習強化學習
- 強化學習-學習筆記13 | 多智慧體強化學習強化學習筆記智慧體
- 深度強化學習day01初探強化學習強化學習
- 【強化學習】強化學習術語表(A-Z)強化學習
- 【強化學習篇】--強化學習案例詳解一強化學習
- 機器人能力再進化,組裝宜家椅子只需20分鐘! | Science Robotics論文機器人
- 機器人也在踢世界盃?中國團隊還奪冠了?!機器人
- 應該讓機器人幫助人類,還是讓人類幫助機器人?機器人
- 聊天機器人資源合集:專案,語聊,論文,教程。機器人
- 《牛津經濟論文》:研究表明學習真的使人快樂
- 深度學習相關論文深度學習
- 【論文學習】FastText總結AST
- 機器學習強化下,機器人將掌握工具的使用機器學習機器人
- 不懼困難,阿特拉斯機器人展示超強平衡能力機器人
- MIT打造模組化機器人 幫助增強人類力量MIT機器人
- 強化學習10——迭代學習強化學習
- 島國人民又大開腦洞,讓機器人來演災難片機器人