推陳出新!突破機器人玩魔方「老套路」,OpenAI研究更具現實意義

藥明康德AI發表於2019-10-18
人類為熟練掌握棋類技藝已經為此練習上千年,千年的智慧沉澱,在今天卻能被經過幾天的人工智慧輕易打敗。有時候人們認為,即使在智慧上一定程度敗給了AI,但是靈活度方面人類還是更勝一籌、擁有無比的靈活性的。事實證明,人們再一次錯了,OpenAI的人工智慧機器手Dactyl不僅學會了單手玩魔方,而且只花了4分鐘就將一個三階魔方解開。其靈活程度著實令人大開眼界。

推陳出新!突破機器人玩魔方「老套路」,OpenAI研究更具現實意義圖片來源:OpenAI官網OpenAI這家公司大家已經再熟悉不過了,這一次因為玩魔方,他們又站在了機器人和人工智慧的風口浪尖。其實AI玩魔方不是什麼新鮮事兒。

去年,MIT工程學和電腦科學的兩名學生開發的一個機器人雖在0.38秒內解決了魔方問題。但OpenAI所取得的突破與此前的研究更具突破性!過去的一些研究團隊使用量身定製的機器手快速操縱魔方,究其根本OpenAI研究的亮點則是使用AI模型指導的五指人形手通過魔方實現“自學習”以及更廣泛的現實應用。
 
OpenAI的研究人員使用強化學習(Reinforcement Learning)演算法來制定控制策略,這樣機器手就可以根據立方體及其手指的狀態做出正確的移動。他們使用64臺NVIDIA V100 GPU和920臺帶有32個CPU核心的機器來訓練Dactyl,換言之,這就相當於13000年工作量級的AI模型訓練經驗累積。研究團隊報告表示,基於模型和無模型的計劃與操作的結合,在1,400個試驗過程中Dactyl的平均成功率為90.3%,而對AI元件再培訓30,000次,則成功率高達95.2%。

推陳出新!突破機器人玩魔方「老套路」,OpenAI研究更具現實意義

圖片來源:OpenAI官網

該系統的訓練則是在完全模擬的環境中訓練的,它一開始甚至不知道什麼是魔方、也不知道如何將機器手與魔方進行物理互動,更不知道最終的結果。唯一“激勵”和引導該系統不斷翻轉魔方的便是,研究人員給予的獎勵!當演算法能成功旋轉魔方表面或對其進行翻轉時,研究人員便會給出一定程度的獎勵,這樣系統才通過“自學習”學會了正確移動魔方。


相關推薦:能獨當一面的家用機器人,什麼時候才會出現?
 
為了使Dactyl機械手的“感知”能力可捕捉到魔方的狀態,研究人員訓練了一個卷積神經網路(Convolutional Neural Networks)用於魔方狀態預測,並從三個不同角度呈現攝像機所抓取的影像。
 
於人類而言,破解魔方主要是一項智力挑戰;但對於人工智慧系統來說,魔方可以歸結為不同顏色模組的調整,通常來說調整顏色對於機器人來說則是小兒科。那麼這項研究真正的難點/障礙是什麼呢?便是AI瞭解機械手硬體的複雜性,以及如何正確協調手指和關節力度。為了使Dactyl能夠處理真實世界的複雜性,研究人員必須確保每一次“握物”模擬都儘可能覆蓋更多的現實場景。

推陳出新!突破機器人玩魔方「老套路」,OpenAI研究更具現實意義圖片來源:OpenAI官網

隨機化訓練
 
於是,研究人員便開發了一種全新的方法,稱之為自動域隨機化(Automatic Domain Randomization, ADR)。該方法可以無休止地在仿生環境中生成實現愈發複雜困難的環境。概括來說就是一個“你追我趕,互相激勵”的模式。
 
具體來說,ADR從單一的非隨機環境開始,在該環境中,卷積神經網路學習瞭如何解開三階魔方;隨著神經網路在任務中效能變得更好時,ADR的數量便會自動增加;這時候神經網路也會不斷學習新的環境預測魔方狀態,直到再次效能超過前次,然後再進行更多隨機化。這樣的過程迴圈往復,AI模型便會不斷衝破真實世界準確模型的束縛,自然而然,它會變得十分靈巧。
 
穩定性測試
 
Dactyl在隨機環境中接受了不斷增長的分佈的訓練,並使用了記憶體增強策略,這使得它在不熟悉的場景中也可以保持優良效能。不過,研究人員為了測試該系統的侷限性,他們在Dactyl單手解魔方的時候加入了一些人為干擾因素。
 
例如,研究人員通過綁住機械手的單個或幾個手指或將其套在橡膠手套中;

推陳出新!突破機器人玩魔方「老套路」,OpenAI研究更具現實意義圖片來源:OpenAI官網

推陳出新!突破機器人玩魔方「老套路」,OpenAI研究更具現實意義圖片來源:OpenAI官網又例如,不斷用其他物體戳它,並用氣泡和像五彩紙屑一樣的紙片不斷干擾它等。

推陳出新!突破機器人玩魔方「老套路」,OpenAI研究更具現實意義圖片來源:OpenAI官網在這種突發的環境情況下,機器人雖然未經歷干擾訓練,但它仍然頑強堅持,設法解決魔方。這也就印證了該新系統的控制策略的穩定性,同時也很好地測試了視覺網路的效能。

不過,雖然Dactyl的靈巧令人印象深刻,但它目前仍在與速度作鬥爭。與棋類遊戲等不同的是,它無需直面對手,只需沉浸在自己的世界,調整完魔方的速度即可。Dactyl目前還不會對魔方頂級高手構成威脅。它破解一個三階魔方平均需要4-7分鐘,跟以秒計算的世界紀錄比起來不算什麼。openAI的研究人員也強調錶示,他們的目標不是打造一個魔方冠軍,而是發掘能在多大程度上提高AI機械手的靈活性,從而最終制造出更通用的機器人。
 
Dactyl已朝著未來機器人邁出了一小步,未來它會獨立承擔一些體力勞動或家務活,甚至與人類協同工作,而不僅是待在封閉的環境中、人們也不用對它進行任何事先程式設計。出於美好的願景,一個同時擁有靈活性、穩定性、適應性的人工智慧機器人開始出現在大眾視野時,未來機器人便是處理現實世界所有複雜混亂問題的最佳解決方案之一。

不過美好的希望是人們對OpenAI最好的“祝福”,現實是,目前的人類生活還不太可能用上科幻電影中的酷炫機器人,無論是批量製造生產是否能帶來預期的經濟效益,還是距離造出功能強大的機器人所存在技術障礙與壁壘,這些都是擺在科學家面前的“大難題”。但我們相信,頑強的研究人員不會就此放棄,最好的科學成果定會在一次次產業累積中最終呈現出來。短期內期望機器人做太多,同時還要不斷解決人類的“犯懶”,似乎也是不太現實的。

本文由藥明康德AI整理編譯 

參考資料

[1] OpenAI teaches a robotic hand to solve a Rubik’s cubeRetrieved Oct 17, 2019 from https://venturebeat.com/2019/10/15/openai-teaches-a-robotic-hand-to-solve-a-rubiks-cube/

[2] OpenAI Robot Hand: Today Rubik’s Cube, Tomorrow theReal World? Retrieved Oct 17, 2019 fromhttps://syncedreview.com/2019/10/15/openai-robot-hand-today-rubiks-cube-tomorrow-the-real-world/

[3] OpenAI’s AI-powered robot learned how to solve aRubik’s cube one-handed Retrieved Oct 17, fromhttps://www.theverge.com/2019/10/15/20914575/openai-dactyl-robotic-hand-rubiks-cube-one-handed-solve-dexterity-ai

相關文章