谷歌大腦QT-Opt演算法，機器人探囊取物成功率96%，Jeff Dean大讚

郭一璞發自凹非寺

量子位報導 | 公眾號 QbitAI

原創 | 關注前沿科技量子位

用於工業生產中的普通機器人，往往只會“給雞抓雞，給狗抓狗”，像一個對生活失去了嚮往的流水線工人，重複著日復一日不用動腦的苦勞力。

但，谷歌大腦昨天發了一個新的演算法，讓這些窮苦的機械臂開始從事“腦力勞動”：

從一群物品中，抓起需要的東西。

比如從拼好的積木組合裡，抓單個積木：

所使用的方法是深度強化學習，將大規模分散式優化和新型擬合深度Q學習演算法——QT-Opt相結合，來讓機器人從過去的每一次訓練中學習，獲取經驗。

7個葫蘆娃的4個月修煉

這次訓練的參與“隊員”有7名，他們用10個GPU開始訓練：

每個機器人由一個帶雙指夾具的機械臂和一個RGB攝像頭組成：

為了讓機器人儘快get新的探囊取物技能，谷歌大腦的工作人員準備了1000樣不同的物品用來訓練：

仔細看一眼，其中包括各種形狀、大小、材質不一的物體：

訓練的過程首先從工作人員手動設計的策略開始，逐步切換到深度強化學習模型。

從論文上發現，原理大概是這樣的：

學有所成

經過4個月的訓練後，7位機器人迎來了他們的“考試”：成績不錯，在700次試驗中，機器人找東西抓起來的成功率高達96%，比此前監督學習方法78%的成功率提升了很多。

Jeff Dean覺得它們棒棒的：

除了提升準確率之外，經過QT-Opt演算法訓練過的機器人還主動get了4個新技能：

會破除阻礙

如果目標物體和其他東西連在一起，機器人會主動把它分開然後抓取。

比如前面示範的抓積木，機器人可以把影響自己發力的其他積木推開，再抓自己需要的那塊積木。

“筷功”強

如果碰到難抓的東西，比如外形奇特或是外表光滑的物品，機器人會分析角度，重新定位，然後牢牢抓住不鬆手。

隨手抓也要分析挑選

如果機器人一下子抓住了一堆東西，它可以自己選出需要的物品，在舉起手臂之前牢牢的抓住它。

搶我的一定搶回來

如果人為的把機器人已經抓起來的物體拿掉，它還會鍥而不捨的再抓一遍：

重要的是，以上這些技能都不是人為設定的，均是在訓練過程中，機器人自行get到的。

最後，谷歌還提供了一個視訊，來講述7位機器人盆友的心路歷程...

最後，附論文傳送門~

QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation

作者：Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent Vanhoucke, Sergey Levine

谷歌部落格地址：

https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html

arXiv：

https://arxiv.org/abs/1806.10293

谷歌大腦QT-Opt演算法，機器人探囊取物成功率96%，Jeff Dean大讚

會破除阻礙

“筷功”強

隨手抓也要分析挑選

搶我的一定搶回來

相關文章