推陳出新！突破機器人玩魔方「老套路」，OpenAI研究更具現實意義

药明康德AI發表於2019-10-18

原文網址 : https://www.jiqizhixin.com/articles/2019-10-18-2

人類為熟練掌握棋類技藝已經為此練習上千年，千年的智慧沉澱，在今天卻能被經過幾天的人工智慧輕易打敗。有時候人們認為，即使在智慧上一定程度敗給了AI，但是靈活度方面人類還是更勝一籌、擁有無比的靈活性的。事實證明，人們再一次錯了，OpenAI的人工智慧機器手Dactyl不僅學會了單手玩魔方，而且只花了4分鐘就將一個三階魔方解開。其靈活程度著實令人大開眼界。

推陳出新！突破機器人玩魔方「老套路」，OpenAI研究更具現實意義圖片來源：OpenAI官網OpenAI這家公司大家已經再熟悉不過了，這一次因為玩魔方，他們又站在了機器人和人工智慧的風口浪尖。其實AI玩魔方不是什麼新鮮事兒。

去年，MIT工程學和電腦科學的兩名學生開發的一個機器人雖在0.38秒內解決了魔方問題。但OpenAI所取得的突破與此前的研究更具突破性！過去的一些研究團隊使用量身定製的機器手快速操縱魔方，究其根本OpenAI研究的亮點則是使用AI模型指導的五指人形手通過魔方實現“自學習”以及更廣泛的現實應用。

OpenAI的研究人員使用強化學習（Reinforcement Learning）演算法來制定控制策略，這樣機器手就可以根據立方體及其手指的狀態做出正確的移動。他們使用64臺NVIDIA V100 GPU和920臺帶有32個CPU核心的機器來訓練Dactyl，換言之，這就相當於13000年工作量級的AI模型訓練經驗累積。研究團隊報告表示，基於模型和無模型的計劃與操作的結合，在1,400個試驗過程中Dactyl的平均成功率為90.3％，而對AI元件再培訓30,000次，則成功率高達95.2％。

推陳出新！突破機器人玩魔方「老套路」，OpenAI研究更具現實意義

圖片來源：OpenAI官網

該系統的訓練則是在完全模擬的環境中訓練的，它一開始甚至不知道什麼是魔方、也不知道如何將機器手與魔方進行物理互動，更不知道最終的結果。唯一“激勵”和引導該系統不斷翻轉魔方的便是，研究人員給予的獎勵！當演算法能成功旋轉魔方表面或對其進行翻轉時，研究人員便會給出一定程度的獎勵，這樣系統才通過“自學習”學會了正確移動魔方。

相關推薦：能獨當一面的家用機器人，什麼時候才會出現？

為了使Dactyl機械手的“感知”能力可捕捉到魔方的狀態，研究人員訓練了一個卷積神經網路（Convolutional Neural Networks）用於魔方狀態預測，並從三個不同角度呈現攝像機所抓取的影像。

於人類而言，破解魔方主要是一項智力挑戰；但對於人工智慧系統來說，魔方可以歸結為不同顏色模組的調整，通常來說調整顏色對於機器人來說則是小兒科。那麼這項研究真正的難點/障礙是什麼呢？便是AI瞭解機械手硬體的複雜性，以及如何正確協調手指和關節力度。為了使Dactyl能夠處理真實世界的複雜性，研究人員必須確保每一次“握物”模擬都儘可能覆蓋更多的現實場景。

推陳出新！突破機器人玩魔方「老套路」，OpenAI研究更具現實意義圖片來源：OpenAI官網

隨機化訓練

於是，研究人員便開發了一種全新的方法，稱之為自動域隨機化（Automatic Domain Randomization, ADR）。該方法可以無休止地在仿生環境中生成實現愈發複雜困難的環境。概括來說就是一個“你追我趕，互相激勵”的模式。

具體來說，ADR從單一的非隨機環境開始，在該環境中，卷積神經網路學習瞭如何解開三階魔方；隨著神經網路在任務中效能變得更好時，ADR的數量便會自動增加；這時候神經網路也會不斷學習新的環境預測魔方狀態，直到再次效能超過前次，然後再進行更多隨機化。這樣的過程迴圈往復，AI模型便會不斷衝破真實世界準確模型的束縛，自然而然，它會變得十分靈巧。

穩定性測試

Dactyl在隨機環境中接受了不斷增長的分佈的訓練，並使用了記憶體增強策略，這使得它在不熟悉的場景中也可以保持優良效能。不過，研究人員為了測試該系統的侷限性，他們在Dactyl單手解魔方的時候加入了一些人為干擾因素。

例如，研究人員通過綁住機械手的單個或幾個手指或將其套在橡膠手套中；

推陳出新！突破機器人玩魔方「老套路」，OpenAI研究更具現實意義圖片來源：OpenAI官網

推陳出新！突破機器人玩魔方「老套路」，OpenAI研究更具現實意義圖片來源：OpenAI官網又例如，不斷用其他物體戳它，並用氣泡和像五彩紙屑一樣的紙片不斷干擾它等。

推陳出新！突破機器人玩魔方「老套路」，OpenAI研究更具現實意義圖片來源：OpenAI官網在這種突發的環境情況下，機器人雖然未經歷干擾訓練，但它仍然頑強堅持，設法解決魔方。這也就印證了該新系統的控制策略的穩定性，同時也很好地測試了視覺網路的效能。

不過，雖然Dactyl的靈巧令人印象深刻，但它目前仍在與速度作鬥爭。與棋類遊戲等不同的是，它無需直面對手，只需沉浸在自己的世界，調整完魔方的速度即可。Dactyl目前還不會對魔方頂級高手構成威脅。它破解一個三階魔方平均需要4-7分鐘，跟以秒計算的世界紀錄比起來不算什麼。openAI的研究人員也強調錶示，他們的目標不是打造一個魔方冠軍，而是發掘能在多大程度上提高AI機械手的靈活性，從而最終制造出更通用的機器人。

Dactyl已朝著未來機器人邁出了一小步，未來它會獨立承擔一些體力勞動或家務活，甚至與人類協同工作，而不僅是待在封閉的環境中、人們也不用對它進行任何事先程式設計。出於美好的願景，一個同時擁有靈活性、穩定性、適應性的人工智慧機器人開始出現在大眾視野時，未來機器人便是處理現實世界所有複雜混亂問題的最佳解決方案之一。

不過美好的希望是人們對OpenAI最好的“祝福”，現實是，目前的人類生活還不太可能用上科幻電影中的酷炫機器人，無論是批量製造生產是否能帶來預期的經濟效益，還是距離造出功能強大的機器人所存在技術障礙與壁壘，這些都是擺在科學家面前的“大難題”。但我們相信，頑強的研究人員不會就此放棄，最好的科學成果定會在一次次產業累積中最終呈現出來。短期內期望機器人做太多，同時還要不斷解決人類的“犯懶”，似乎也是不太現實的。

本文由藥明康德AI整理編譯

參考資料

[1] OpenAI teaches a robotic hand to solve a Rubik’s cubeRetrieved Oct 17, 2019 from https://venturebeat.com/2019/10/15/openai-teaches-a-robotic-hand-to-solve-a-rubiks-cube/

[2] OpenAI Robot Hand: Today Rubik’s Cube, Tomorrow theReal World? Retrieved Oct 17, 2019 fromhttps://syncedreview.com/2019/10/15/openai-robot-hand-today-rubiks-cube-tomorrow-the-real-world/

[3] OpenAI’s AI-powered robot learned how to solve aRubik’s cube one-handed Retrieved Oct 17, fromhttps://www.theverge.com/2019/10/15/20914575/openai-dactyl-robotic-hand-rubiks-cube-one-handed-solve-dexterity-ai

綁手指、蒙布也能行，OpenAI讓機器人單手還原魔方
2019-10-16
OpenAI機器人
企業微信整合openai實現ChatGPT機器人
2023-02-09
OpenAIChatGPT機器人
變電站運維推陳出新？無人值守卻更勝一籌
2021-05-17
運維
OpenAi[ChatGPT] 使用Python對接OpenAi APi 實現智慧QQ機器人-學習詳解篇
2022-12-18
OpenAIChatGPTPythonAPI機器人
Kuka推出新的SCARA機器人
2020-10-14
機器人
IBM推出新型工業化學機器人以實現實驗室自動化
2020-09-07
IBM機器人
淺談多型機制的意義及實現
2019-05-11
多型
Web 魔方模擬器的設計與實現
2018-08-27
Web
Cardiff University：研究發現戴醫用口罩讓人更好看更具吸引力
2022-01-16
數字政府建設如何推陳出新？浪潮軟體給出答案
2022-05-09
Figure首發OpenAI機器人可與人類全面對話
2024-03-14
OpenAI機器人
go如何實現openai伺服器推送
2024-06-30
GoOpenAI伺服器
機制與意義：數字現實與玩家的具身模式
2019-09-09
模式
一機實現All in one，NAS如何玩轉虛擬機器！
2024-05-28
虛擬機
語音機器人教學:用Android語音玩樂高機器人
2018-12-12
機器人Android
企業實施伺服器雙機熱備方案存在重要意義
2021-07-12
伺服器
機器人底盤品牌推薦
2021-03-12
機器人
機制與意義：作為數字現實的電子遊戲
2019-09-25
遊戲
Graphcore以IPU助力機器智慧實現下一波突破
2020-08-19
Python 實現圖靈微信機器人
2019-01-18
Python圖靈機器人
【機器學習PAI實戰】—— 玩轉人工智慧之美食推薦
2019-03-26
機器學習AI人工智慧
RBR50 2024：OpenAI上榜，人形機器人勢不可擋
2024-04-15
OpenAI機器人
H5實現魔方遊戲
2018-08-03
H5遊戲
python實現三階魔方還原
2021-04-28
Python
粒子機器人，能否敲開機器意識覺醒之門？
2019-11-05
機器人
新加坡工程院院士陳義明教授論人工智慧與機器人的近況與發展
2019-08-01
人工智慧機器人
布魯金斯學會：研究指出機器人會讓人類同事的工作失去意義
2024-04-19
機器人
如何使用大模型實現突破性創新研究？
2024-06-30
大模型
使用Golang + lua實現一個值班機器人
2020-05-07
Golang機器人
樹莓派實戰：微信機器人（itchat實現）
2022-07-10
樹莓派機器人
OpenAI與人形機器人Figure合作：智慧與身體結合
2024-03-01
OpenAI機器人
0.38秒！MIT 機器人還原3階魔方的時間再破記錄
2018-03-10
MIT機器人
PHP 單例模式優點意義及如何實現
2019-09-20
PHP單例模式
Christoph Bartneck：研究發現人類對不同膚色的機器人表現出種族偏見
2018-07-19
機器人
機器人ChatGPT來了，80億引數、前OpenAI人員經數年打造
2024-03-12
機器人ChatGPTOpenAI
停車機器人上崗實現停車場無人值守
2018-07-10
機器人
機器學習實戰-SVM模型實現人臉識別
2022-06-17
機器學習模型
人形機器人：影片裡性感，現實中孤獨
2024-03-15
機器人

推陳出新！突破機器人玩魔方「老套路」，OpenAI研究更具現實意義

相關文章