清華開源全球最大雙臂機器人擴散大模型RDT,懂調酒能遛狗,登頂HF具身熱榜

机器之心發表於2024-10-18

圖片

今天,世界見證了 RDT 大模型的誕生,它就像 “小腦” 一樣負責控制機器人的運動。

無需人類背後操作,RDT 即可指揮機器人雙臂並用,完美調出如晚霞般夢幻的雞尾酒 Malibu Sunset。

圖片

和人類調酒師一樣,首先,RDT 將冰塊穩穩倒入高腳杯中,不撒不漏,一套動作行雲流水。

圖片

倒完冰塊後,RDT 先後倒入椰子酒、橙汁、菠蘿汁,操作嫻熟,順序不亂,確保口味一致。

圖片

注入石榴汁,晚霞般絢爛的酒紅色在高腳杯中徐徐暈染開來。

圖片

最後,RDT 發揮空間感,夾起一片檸檬,輕輕卡在有弧度的杯口上,漂亮!

圖片

同行看後紛紛表示:有了十億引數的 RDT ,智慧機器人時代不遠矣!去酒吧點 RDT 調酒師,賽博朋克感瞬間拉滿。

圖片

在領略了 RDT 的強大後,是時候揭開它的神秘面紗了 —— RDT 的全稱是 Robotics Diffusion Transformer,是全球最大的針對雙臂機器人操作任務的擴散基礎模型,由清華大學人工智慧研究院 TSAIL 團隊構建。

當前,機器人領域公認的卡脖子問題是 “不夠智慧”。許多模型需要人教幾十遍才能完成單個任務,面對沒教過的情況則 “束手無策”。

而 RDT 正是這個 “智慧困境” 的破壁者之一。它為 ALOHA 硬體本體植入了 “小腦”,使其能擺脫人類的操控,自主完成沒見過的任務。RDT 將 “小模型” 擴充套件為 “大模型”,從 “單臂” 變為 “雙臂”,是目前運動控制水平最接近人類的機器人小腦之一。

更驚喜的是,清華團隊已將 RDT 的程式碼、模型,甚至訓練它的雙臂資料集徹底開源。他們堅信,開源 RDT 能極大加速機器人研發和產業化程序。

圖片

  • 專案主頁:https://rdt-robotics.github.io/rdt-robotics

  • 論文連結:https://arxiv.org/pdf/2410.07864

  • 論文標題:RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

值得注意的是,目前 RDT 在世界最大的開源模型平臺 —— HuggingFace 上的機器人榜單「熱度排名第一」。
圖片
在 RDT 模型的加持下,雙臂機器人成功挑戰 7 項高難度任務,平均成功率上比當前最好的模型還要驚人地高出 56%

讓我們一起來看看,有了 RDT,雙臂機器人還能解鎖哪些高階特徵吧。

效果展示

1. 靈巧操作:“機器人遛狗” 竟成現實

起猛了,發現機器人能遛機器狗了?

在 RDT 的指揮下,機器人能靈巧地握住長度不到 2cm 的迷你搖桿,控制機器狗走出完美直線。
圖片
圖片
而如果把 RDT 換成其他模型,就會導致機器狗會走彎路、甚至見牆就撞。

沒辦法,控制精度不足!
圖片
2. 指令遵循:善解人意的倒水大師

RDT 能充分理解並遵循人類的語言指令。

倒水大師 RDT,讓倒 1/3 的水就倒 1/3 的水,讓倒 2/3 就倒 2/3,簡直分毫不差!

值得一提的是,RDT 從未見過 1/3 這個詞,也就是說,沒有人給 RDT 演示過 1/3 的水應該怎麼倒。

RDT 完全是憑藉自己的泛化性,準確地理解了 “1/3” 這個量詞和現實世界中 1/3 水位高度之間的對應關係。
圖片
圖片
與之相對,其他模型會指揮機器人倒得過多或過少,甚至尷尬灑水。
圖片
圖片
3. 未見物體與場景:自信地與未知共舞

誰說人類才是唯一能適應環境變化的智慧體?RDT 也能輕鬆做到。

清洗以前從沒見過的杯子、在多個裝飾完全不同的房間中端茶倒水...

變換任務物件和環境都難不倒它。
圖片
圖片
圖片
圖片
4. 少樣本學習:一點就通的高材生

更厲害的是,RDT 有很強的領悟力,是機器人模型中的“學霸”。

教會 RDT 疊衣服僅需演示 1 遍,而其他模型要重複教幾十遍才能勉強學會。
圖片
圖片
初識 RDT:Scaling Law 魅力時刻

相比其他機器人模型,為什麼 RDT 能做到如此智慧?相比同行最優水準領先多少?

三個 “最大” 是 RDT 實現智慧飛躍的秘密:
  • 在機器人擴散模型中,RDT 擁有目前「最大的模型引數量」,高達 1.2B。比之前由谷歌、Deepmind 等牽頭研發的最大的具身擴散模型(八爪魚,Octo,93M)還要大一個數量級。

  • RDT 在「最大的具身資料集」上預訓練。預訓練資料集包含 46 個不同的機器人資料集,總共有超過 100 萬條人類演示資料。模型在 48 塊 H100 顯示卡上預訓練了 1M 步。

  • RDT 擁有目前「最大的雙臂微調資料集」。清華團隊構建了包括 300+ 任務和 6K+ 條演示的資料集。與之對比,先前由史丹佛、MIT 等領銜研發的具身大模型 OpenVLA 的微調資料集僅有幾百條演示。

解密 RDT:從問題與挑戰講起

在大多數情況,人們會在日常生活中使用雙手。機器人如果能像人一樣揮動雙臂,顯然更靈活,也更能幫助人類。

但是,目前的雙臂機器人距離落地還有一段路要走,根本原因是雙臂的人類演示資料匱乏,“巧婦難為無米之炊”,而且模型泛化能力不足,不能“舉一反三”。

為了解決這個問題,一種通常的做法是,利用多種不同機器人的資料,訓練一個可泛化的「大模型」。

但這又會帶來兩個新的挑戰:

一是,在機器人領域,缺乏一個像 GPT 一樣的通用、強大的「模型架構」。

它不僅需要能學會各種的動作模式(modality),還需要具備可擴充套件性(scalability)。換言之,擴大模型的引數量,它的效能也要跟著一起漲。

二是,在之前的研究中,尚沒有一個公認的在多種機器人資料上訓練的方案。

這主要是因為不同機器人的硬體結構和感測器不同,進而導致資料的格式五花八門,難以進行統一的處理。

在本文中,研究者透過提出創新型的多模態模型架構,以及統一的物理可解釋動作空間,來解決這些挑戰。

設計 RDT:雙臂機器人操作的新架構

模仿學習」是當前開發通用機器人模型的主流方法。即機器人透過模仿人類的演示來學習各種各樣的技能,比如擦桌子和倒水等。

然而,人類的動作模式千變萬化,就連抓起一個方塊都有好幾種做法(見下圖)。
圖片
為了能學會多樣的動作模式,研究者採用擴散模型(diffusion model)來進行建模。

圖 3 描繪了 RDT 的整體架構,接下來我們逐一進行介紹。
圖片
首先是多模態輸入的編碼。

對於一個具體的機器人任務,模型在收到人類發出的語言指令後,需要結合自己的視覺觀察,來預測完成任務所需的機械臂動作(action)。

這裡就涉及到了語言、圖片和動作三種模態。
  • 動作具有低維度和高頻的特點。研究者採用具有傅立葉特徵的多層感知機(MLP)來進行編碼。

  • 圖片具有高維度的特點,同時含有豐富的空間和語義資訊。研究者採用經過對齊的 SigLIP 進行編碼。

  • 語言具有變長的特點,並且高度抽象。研究者採用一個具有豐富知識的語言大模型 —— T5-XXL 來進行編碼。

此外,不同模態包含的資訊量不盡相同。

咱們人都喜歡看資訊量大的圖而不喜歡看資訊量小的文字。其實模型也一樣。

為了避免模型 “偷懶”,只看資訊量大的模態,在訓練中,研究者會以一定機率隨機遮蔽(mask)各個模態。

接下來介紹具體的網路結構。

為了保證可擴充套件性,研究者選擇 Transformer 作為骨幹網路,並做出如下關鍵修改:
  • 由於感測器失靈等原因,機器人資料中往往會出現極端值。這種極端值可能導致梯度不穩定和數值溢位等問題。研究者採用更加先進的 QKNorm 和 RMSNorm 來進行緩解。

  • 機器人的動作往往符合非線性動力學的物理規律。為了增強對非線性的近似能力,研究者將最終層的線性解碼器替換為非線性的 MLP 解碼器。

  • 影像的維度通常遠高於文字的維度。同時將這兩種模態注入到主幹網路中時,往往影像會淹沒文字,從而削弱模型的指令遵循能力。為此,研究者採取了交替注入的方式。

訓練 RDT:預訓練與微調相結合

為了在多種機器人資料上進行預訓練,研究者需要對資料格式進行統一。

具體來說,研究者構建了一個統一的動作空間(如圖 3 左側所示)。

該空間的每個維度具有明確的物理含義,以保證模型能夠從不同機器人資料中學習到共享的物理規律。

在有了統一資料格式後,研究者就能將所有不同型別的機器人資料匯聚在一起,形成了目前最大的資料集,其包含超過 100 萬條演示。

正因為在如此大的資料集上進行預訓練,RDT 獲得了無與倫比的泛化性。

最後,研究者還採集了目前質量最高的雙臂微調資料集,用來微調 RDT 以增強其雙臂操作能力。

該資料集具有如下特點:
  • 數量大:6K+ 演示資料。

  • 範圍全:300+ 任務,從簡單的抓取到精細操作,甚至包括黑板上解數學題一類的高難度操作。

  • 多樣性:100+ 不同型別的物體,15+ 不同的房間以及光照條件。

測試 RDT:泛化性與操作精度並舉

該團隊設計了 7 個挑戰性任務,從不同維度評估 RDT 的泛化能力和操作精度。

對於清洗杯子的任務,需要雙手協調和物體泛化性。

具體來說,機器人需要拿起未見過的杯子,用另一隻手開啟水龍頭,清洗杯子,倒乾淨杯中的水,並關閉水龍頭。

這個任務對於單臂機器人來說幾乎無法完成。
圖片
對於遙控機器狗,需要雙手協調和極高的操作精確性。

機器人需要用一隻手抓住遙控器,並用另一隻手推動遙杆控制機器狗向前。

這項任務比洗杯子的精度要求更高,因為迷你搖桿的長度不到 2cm,且稍有偏移機器狗就會 “走彎路”。
圖片
對於倒水任務,模型需要能泛化到未見過的環境與語言指令,並理解使用者要求,倒水至特定水位。
圖片
而對於傳遞物體和疊褲子的任務,僅給少量演示(1 - 5 條),RDT 就需要學會一個全新的技能。
圖片
實驗評估(結果見表 3)中,研究者主要回答以下問題:

Q: RDT 能否對未見的物體和場景實現零樣本(Zero-Shot)泛化?並遵循未見過的自然語言指令?

A:可以。在洗杯子(Wash Cup)和倒水(Pour Water)任務中,RDT 對未見場景和物體仍能達到較高成功率,其表現與見過的情況相差不大。

在 Pour Water-L-1/3 和 Pour Water-R-2/3 任務中,RDT 精確地理解了應該用哪隻手操作、倒多少水,並能夠嚴格遵循指令,即便它從未見過類似 “三分之一” 或 “三分之二” 這樣的詞彙。

Q:RDT 能否僅透過少量演示就學會新的技能?

A:可以。在物品傳遞(Handover)和摺疊短褲(Fold Shorts)任務中,對於兩個與已知動作模式完全不同的全新技能,RDT 僅分別透過 1 和 5 條演示的訓練就輕鬆掌握,而其他方法幾乎無法成功。

Q:RDT 是否能夠完成需要精細操作的任務?

A:可以。在遙控機器狗(Robot Dog)任務中,RDT 在推動操縱桿時準確控制了角度,而其他模型會導致機器狗發生偏離。
圖片
Q:擴散建模、大模型以及大資料是否有助於提升 RDT 的效能?

A:是的。如表 2 所示,研究人員對三者分別進行了消融實驗,結果表明缺少任何一者都會帶來極大的效能損失。

特別地,僅用雙臂資料訓練的 RDT (scratch) 在未見物體和場景上表現極差,這表明預訓練中學會的知識對於泛化性至關重要。
圖片
關於作者

該工作有兩位共同一作。一位是清華大學計算機系的二年級博士生劉松銘,主要研究方向是具身智慧和 AI for Science,此前在 ICML 和 NeurIPS 等頂級會議發表多篇論文,曾獲清華大學本科生特等獎學金。
圖片
另一位是清華大學計算機系的二年級博士生吳凌軒,目前主要研究方向是人工智慧安全和具身智慧,此前在 ICLR 發表過論文。
圖片
論文團隊

該專案的團隊是清華大學計算機系 TSAIL 課題組,團隊在擴散模型的基礎理論和關鍵技術方面有長期的積累,提出了首個擴散模型與 Transformer 融合的架構 U-ViT,聯合研製了全球首個效能全面對標 Sora 的影片大模型 Vidu,部分成果獲國際表示學習大會(ICLR 2022)傑出論文獎,被華為、OpenAI、蘋果、Stable Diffusion 等國內外領軍企業的文生圖大模型採用。特別的,TSAIL 團隊在國際上率先提出 “擴散策略 “概念,並長期進行 “擴散策略” 構建演算法研究,在 ICLR/NeurIPS/ICML 等頂級國際會議上連續發表了多篇相關研究工作 [1-4],包括擴散策略模型動作重取樣方法 SfBC,獎勵函式引導取樣演算法 CEP,高效擴散策略梯度蒸餾演算法 SRPO,擴散策略對齊演算法 EDA 等。

直播分享

為了更好的幫助大家瞭解這項研究,10月21日晚19:00-20:00,論文作者、清華大學計算機系的二年級博士生劉松銘帶來線上直播,為大家進一步解讀這項工作。
圖片
直播間:關注機器之心機動組影片號,立即預約直播!清華開源全球最大雙臂機器人擴散大模型RDT,懂調酒能遛狗,登頂HF具身熱榜
本次直播設有 QA 環節,歡迎加入本次直播交流群探討交流。
圖片
參考文獻
[1] Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su, and Jun Zhu. Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling. In International Conference on Learning Representations (ICLR), 2023.
[2] Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, and Jun Zhu. Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning. In International Conference on Machine Learning (ICML), 2023.
[3] Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, and Jun Zhu. Score regularized policy optimization through diffusion behavior. In International Conference on Learning Representations (ICLR), 2024.
[4] Huayu Chen, Kaiwen Zheng, Hang Su, Jun Zhu. Aligning Diffusion Behavior with Q-function for Efficient Continuous Control. In Annual Conference on Neural Information Processing Systems (NeurIPS), 2024.
[5] Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, and Shuran Song. Diffusion policy: Visuomotor policy learning via action diffusion. In Proceedings of Robotics: Science and Systems (RSS), 2023.
[6] Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, and Jun Zhu. All are worth words: A vit backbone for diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 22669–22679, 2023.
[7] Zipeng Fu, Tony Z Zhao, and Chelsea Finn. Mobile aloha: Learning bimanual mobile manipulation with low-cost whole-body teleoperation. arXiv preprint arXiv:2401.02117, 2024.
[8] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.
[9] Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Junbo Wang, Haoyi Zhu, and Cewu Lu. Rh20t: A robotic dataset for learning diverse skills in one-shot. In RSS 2023 Workshop on Learning for Task and Motion Planning, 2023.
[10] Team, O. M., Ghosh, D., Walke, H., Pertsch, K., Black, K., Mees, O., ... & Levine, S. (2024). Octo: An open-source generalist robot policy. arXiv preprint arXiv:2405.12213.
[11] https://mp.weixin.qq.com/s/L-4oxWuiOht1d3Cx_cI8Yw

相關文章