新火種AI|GPT-4誕生1年,OpenAI把它放到了機器人上

xinhuozhong發表於2024-03-14

作者:一號

編輯:美美

ChatGPT擁有了身體,機器人也有了靈魂。

從OpenAI在去年3月14日拿出GPT-4後,已經過了整整一年。顯然,在GPT-4誕生之後的這一年,一切都迭代得太快了,從GPT-4展現多模態能力,到千行百業都在談論AI,再到Sora引爆AI生成影片的市場。

機器人專家Eric Jang在不久之前還預言,“ChatGPT曾在一夜之間出現。我認為,有智慧的機器人技術也將如此。”

他或許沒錯,在一年後的今天,一家名為Figure的公司在X上上傳了一段人形機器人的影片。

在影片中,Figure的人形機器人Figure 01,能夠完全與人類流暢對話,理解人類的想法,同時根據理解進行抓取和放置的操作,並解釋自己這麼做的原因。而這只是OpenAI宣佈和Figure共同合作推進人形機器人領域前沿的第十三天。

這段Demo迅速吸引了廣大網友的眼球,有人感嘆,AGI的曙光似乎就在眼前了。

沒弄虛未作假,這些都是機器人自學的

影片釋出之後,Figure AI的Brett Adock,在X上來了一番精彩解讀。

影片中Figure展示了端到端神經網路(end-to-end neural networks)框架下與人類對話的應用。在此過程中沒有任何遠端操作。並且機器人的速度也有了顯著的提升,開始接近人類的速度。

那具體是怎麼做到的呢?

首先,Figure AI會將機器人攝像頭拍攝到的影像和透過板載麥克風記錄到的語言轉錄成文字輸入到一個由OpenAI訓練的大模型中,這是一個能夠同時處理影像和文字資訊的模型。

然後,這個模型會處理整個對話的歷史記錄,包括以往的影像,然後透過文字到語音的方式,生成語音進行響應,向人類回話。

這個模型還同時負責決定執行哪種已學習的閉環行為來響應給定的命令,它將特定的神經網路權重載入到GPU上,並執行相應的策略。

這樣做之後,Figure 01就有了很多有趣的新功能。例如描述它周圍的環境、在做決定的時候運用常識進行推理,並且會理解一些含糊的指令,例如當人類說“我餓了”的時候,它會將桌面上的食物——蘋果,遞給人類,並用簡單的英語說明它為什麼這麼做。

而關於Figure 01透過學習掌握的精細雙手操作技能,這些所有的行為都是由神經網路的視覺-運動轉換器策略驅動,能將畫素直接對映到動作。這些網路以每秒10幀的速率接收機載影像,並以200hz的頻率生成24-DOF動作,包括手腕姿勢和手指關節角度。

簡單來說,預訓練模型會首先對影像和文字進行常識推理,然後給出動作計劃;接著,機器人再基於已學習的視覺-動作執行策略,做出快速的反應行動。同時透過全身控制器確保動作的安全性和穩定性,保持機器人的平衡。

Figure,眾人看好的具身智慧公司

人工智慧的後半場,以機器人為代表的具身智慧將成為新的智慧增長點。

英偉達CEO黃仁勳曾說,“具身智慧將引領下一波人工智慧浪潮”。這樣的觀點正在被越來越多的公司所贊同。當前,生成式AI的競爭已經從連續對話走向長文字以及多模態,各家科技公司和機構也開始投資具身智慧。

而這家名為Figure的具身智慧公司,除了被OpenAI看好,還拿到了多方的投資,成為了矽谷備受關注的新星。

公開資料顯示,Figure成立於2022年,成立之初就瞄準了通用人形機器人領域。在3月1日,它宣佈完成了驚人的6.75億美元B輪融資,公司估值達到了26億美元。而它的投資方,幾乎佔據了矽谷的半壁江山。除了OpenAI,微軟、英特爾、英偉達、亞馬遜創始人貝索斯以及“木頭姐”等,都是它的投資方。

而在獲得融資之後,Figure也沒有讓人失望。在今年1月,它們的產品Figure就透過端到端神經網路,僅用10小時就掌握了製作咖啡的技能。1個月後,它又展示了把箱子搬運到傳送帶的新技能,而現在,它又學會了理解人類的意圖。

當然,在商業化的道路上,Figure也在積極探索。目前,Figure已經和寶馬製造公司簽訂了商業協議,Figure 01已經開始在寶馬位於南卡羅來納州斯帕坦堡的汽車工廠接受測試。

從ChatGPT到Figure 01,OpenAI想的依舊是AGI

儘管OpenAI在2021年夏天悄悄關閉了其機器人團隊,但顯然,OpenAI對於機器人領域的關注並未減少。

除了Figure,OpenAI在一年之前就投資了挪威一家名為1X Technologies的機器人制造商。與此同時,OpenAI還被彭博社爆料,說它投資了一家新成立的機器人AI公司Physical Intelligence,他們的創始團隊分別來自谷歌研究團隊、加州大學伯克利分校以及史丹佛大學教授等。而這家公司也是研究未來能夠成為通用機器人系統的人工智慧。

顯然,將OpenAI大模型融入Figure 01是OpenAI有意的戰略佈局。

對於計算機視覺、機器人等領域來說,具身智慧是一個很有挑戰的目標:如果AI智慧體(機器人)不僅能夠接收來自資料集的靜態影像,還能夠在三維的世界中,無論是虛擬還是真實的,四處移動並與環境進行互動,那麼我們將能迎來一次重大的突破,即從識別影像等機器學習的簡單能力,轉變到學習如何透過多個步驟執行復雜的類人任務。

而當機器人能夠執行類人任務後,透過資料的迭代升級,將會越來越像人。而到了那個時候,也許AGI能夠取得突破,這也是OpenAI一直以來的目標。

一年之前,OpenAI釋出了GPT-4,向世界證明了大模型的威力,而在一年後的今天,Figure 01的表現,也許會是機器人領域的GPT-4時刻。不過,正與OpenAI爭得不可開交的馬斯克,他的Optimus也是機器人領域的佼佼者,這兩者之間還會有什麼樣的故事,我們拭目以待。

來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70035178/viewspace-3009020/,如需轉載,請註明出處,否則將追究法律責任。

相關文章