人形機器人的「Hello World」。
說起前段時間史丹佛開源的 Mobile ALOHA 全能家務機器人,大家肯定印象深刻,ALOHA 做起家務活來那是有模有樣:滑蛋蝦仁、蠔油生菜、干貝燒雞,一會兒功夫速成大餐:
研究團隊來自史丹佛,由三個人共同打造完成。Zipeng Fu 為專案共同負責人,他是史丹佛大學 AI 實驗室的電腦科學博士生,師從 Chelsea Finn 教授;Tony Z. Zhao 也是史丹佛大學的電腦科學博士生,導師也是 Chelsea Finn。
現在,繼 ALOHA 之後,Zipeng Fu、Chelsea Finn 等人又聯合推出了一款新的機器人研究 HumanPlus,不過這次 Tony Z. Zhao 沒有出現在作者欄裡,而是在致謝名單上。
HumanPlus 團隊成員。
這款機器人能夠自主的疊衣服,然而即使是 2 倍速,動作看起來也是慢吞吞:
充當倉庫的搬運工,準確的將物品放置在機器狗背上的籃子裡:
給大家表演個向後跳的節目,就像人類一樣,扎個馬步讓自己穩妥一點:
可能你都不會彈的鋼琴,但這次機器人會了,它不是亂彈一通,仔細聽還能聽出旋律來:
化身你的乒乓球搭子,來上幾個回合沒有問題:
像個電腦新手一樣,在鍵盤上努力的敲出「HELLO WORLD」
打起拳來也是有模有樣
值得一提的是,這次史丹佛團隊公佈了論文、機器人材料清單、資料集以及程式碼。正如 Tony Z. Zhao 所表示的「這是唯一一篇完全開源的論文,雖然我們處在一個前沿的研究時代,但充滿了閉源、競爭等其他因素的限制,這個領域需要更多開放的科學,而不是酷炫的演示。」
根據材料清單我們推測完成機器人組裝大約花費 107,945 美元。
研究介紹
論文地址:https://humanoid-ai.github.io/
論文標題:HumanPlus: Humanoid Shadowing and Imitation from Humans
長期以來,人形機器人因其類似人的形態而備受關注。這主要得益於我們周圍的環境、工具等都是依據人類形態而設計的,因此人類大小的機器人在解決人類從事的任務上潛力巨大。
透過模仿人類,人形機器人為實現通用機器人智慧提供了一個充滿希望的途徑。
然而,在實際操作中,要讓人形機器人從以自我為中心的視角學習自主技能仍然面臨挑戰。這主要是因為人形機器人在感知和控制方面的複雜性,以及其在形態結構和執行機制上與人類之間仍存在的物理差異。此外,還缺乏一套資料處理流程,可以讓人形機器人透過以自我為中心的視角學習自主技能。
基於此,史丹佛團隊開發了一個全棧系統,用於人形機器人從人類資料中學習運動和自主技能。該研究首先基於 40 小時的人體運動資料集,透過強化學習在模擬環境中訓練低階策略。然後將這一策略遷移到現實世界中,從而允許人形機器人僅使用 RGB 相機實時跟蹤人體和手部運動,稱為 Shadowing 系統。
透過 Shadowing,人類操作員可以遠端操作人形機器人來收集全身資料,以便在現實世界中學習不同的任務。基於收集到的資料,隨後進行有監督的行為克隆,使用以自我為中心的視角來訓練機器人的技能策略,使人形機器人能夠透過模仿人類的技能自主完成不同任務。
研究者在定製的 33 自由度、高 180cm 的人形機器人上演示了該系統,透過多達 40 次演示,該系統可以自主完成諸如穿鞋站立和行走,從倉庫貨架上解除安裝物品,摺疊運動衫,重新排列物品,打字以及與另一個機器人打招呼等任務,成功率為 60-100%。
該研究團隊釋出的機器人如圖 2 左側所示,具有 33 個自由度,其中包括兩個擁有 6 自由度的手指、兩個 1 自由度的手腕和一個有 19 自由度的身體(包含:兩個 4 自由度的手臂、兩個 5 自由度的腿和一個 1 自由度的腰部)。
該系統基於 Unitree H1 機器人構建,每隻手臂整合了 Inspire-Robots RH56DFX Hand,透過定製手腕連線,其中每個手腕配有一個 Dynamixel 伺服電機和兩個推力軸承。手和手腕均透過序列通訊控制。
機器人頭部安裝了兩個 RGB 網路攝像頭(Razer Kiyo Pro),向下傾斜 50 度,瞳距為 160 毫米。手指可以施加高達 10 牛頓的力,而手臂可以舉起重達 7.5 公斤的物品。腿部的電機在操作過程中可以產生高達 360Nm 的瞬時扭矩。圖 2 右側提供了該機器人的其他技術規格資訊。
人體部分和手部動作使用 SMPL-X 模型進行引數化。為了重定向身體姿態,研究人員將 SMPL-X 對應的尤拉角複製到類人模型中,即髖部、膝蓋、腳踝、軀幹、肩膀和肘部。機器人的每個髖部和肩部關節由 3 個正交旋轉關節組成,因此可以視為一個球形關節。機器人的手指有 6 個自由度:每個食指、中指、無名指和小指各 1 個自由度,大拇指 2 個自由度。為了重定向手部姿勢,他們使用中間關節的旋轉來對映每個手指的對應尤拉角。並且透過使用前臂和手的全域性方向之間的相對旋轉,計算 1 自由度的手腕角度。
如圖 3 所示,身體姿勢估計和重定向在 NVIDIA RTX4090 GPU 上以每秒 25 幀的速度執行。
實時手部姿勢估計和重定向:該團隊使用 HaMeR——一個基於 Transformer 的手部姿態估計器,透過單個 RGB 攝像頭進行實時手部姿態估計。手部姿勢估計和重定向在 NVIDIA RTX4090 GPU 上以每秒 10 幀的速度執行。
該研究將低階策略 Humanoid Shadowing Transformer 制定為僅解碼器的 Transformer,如圖 4 左側所示。
在每個時間步中,策略的輸入是人形機器人的本體感知和目標姿態。策略的輸出是人形機器人身體關節的 19 維關節位置設定點,這些設定點隨後透過 1000Hz 的 PD 控制器轉換為扭矩。
隨機化模擬環境和人形機器人的物理引數見表 2。
如圖 3 所示,研究者使用單個 RGB 攝像頭實時估計人體和手部姿態,並將人體姿態重定向為類人目標姿態。
如圖 1 所示,人類操作員站在人形機器人附近,將他們的實時全身運動投射到人形機器人上,並使用視線觀察人形機器人的環境和行為,確保遠端作業系統反應靈敏。
在被遠端操作時,人形機器人透過雙目 RGB 攝像頭收集第一視角視覺資料。透過 shadowing,研究人員為各種現實場景任務提供了一條高效的資料收集管道,從而避免了模擬環境中真實 RGB 渲染、精確軟體物件模擬和多樣化任務規範的挑戰。
與其他遠端操作方法相比,Shadowing 系統更具優勢。