谷歌大腦QT-Opt演算法,機器人探囊取物成功率96%,Jeff Dean大讚

小高robot發表於2018-07-03
郭一璞 發自 凹非寺 

量子位 報導 | 公眾號 QbitAI

原創 | 關注前沿科技 量子位

用於工業生產中的普通機器人,往往只會“給雞抓雞,給狗抓狗”,像一個對生活失去了嚮往的流水線工人,重複著日復一日不用動腦的苦勞力。

但,谷歌大腦昨天發了一個新的演算法,讓這些窮苦的機械臂開始從事“腦力勞動”:

從一群物品中,抓起需要的東西

比如從拼好的積木組合裡,抓單個積木:

所使用的方法是深度強化學習,將大規模分散式優化和新型擬合深度Q學習演算法——QT-Opt相結合,來讓機器人從過去的每一次訓練中學習,獲取經驗。

7個葫蘆娃的4個月修煉

這次訓練的參與“隊員”有7名,他們用10個GPU開始訓練:


每個機器人由一個帶雙指夾具的機械臂和一個RGB攝像頭組成:


為了讓機器人儘快get新的探囊取物技能,谷歌大腦的工作人員準備了1000樣不同的物品用來訓練:


仔細看一眼,其中包括各種形狀、大小、材質不一的物體:



訓練的過程首先從工作人員手動設計的策略開始,逐步切換到深度強化學習模型。

從論文上發現,原理大概是這樣的:



學有所成

經過4個月的訓練後,7位機器人迎來了他們的“考試”:成績不錯,在700次試驗中,機器人找東西抓起來的成功率高達96%,比此前監督學習方法78%的成功率提升了很多。

Jeff Dean覺得它們棒棒的:

除了提升準確率之外,經過QT-Opt演算法訓練過的機器人還主動get了4個新技能:

會破除阻礙

如果目標物體和其他東西連在一起,機器人會主動把它分開然後抓取。

比如前面示範的抓積木,機器人可以把影響自己發力的其他積木推開,再抓自己需要的那塊積木。

“筷功”強

如果碰到難抓的東西,比如外形奇特或是外表光滑的物品,機器人會分析角度,重新定位,然後牢牢抓住不鬆手。


隨手抓也要分析挑選

如果機器人一下子抓住了一堆東西,它可以自己選出需要的物品,在舉起手臂之前牢牢的抓住它。

搶我的一定搶回來

如果人為的把機器人已經抓起來的物體拿掉,它還會鍥而不捨的再抓一遍:


重要的是,以上這些技能都不是人為設定的,均是在訓練過程中,機器人自行get到的。

最後,谷歌還提供了一個視訊,來講述7位機器人盆友的心路歷程...


最後,附論文傳送門~

QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation

作者:Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent Vanhoucke, Sergey Levine

谷歌部落格地址:

https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html

arXiv:

https://arxiv.org/abs/1806.10293


相關文章