GR-2登場！ByteDance Research提出機器人大模型，具備世界建模和強大泛化能力

机器之心發表於2024-10-09

原文網址 : https://www.jiqizhixin.com/articles/2024-10-09-7

最近，ByteDance Research 的第二代機器人大模型 —— GR-2，終於放出了官宣影片和技術報告。GR-2 以其卓越的泛化能力和多工通用性，預示著機器人大模型技術將爆發出巨大潛力和無限可能。 GR-2登場！ByteDance Research提出機器人大模型，具備世界建模和強大泛化能力

GR-2 官方專案頁面：

https://gr2-manipulation.github.io

初識 GR-2：百鍊出真金

和許多大模型一樣，GR-2 的訓練包括預訓練和微調兩個過程。

如果把機器人和人做比較，預訓練過程就好像是人類的 “嬰兒期”。而 GR-2 的嬰兒期與其他機器人截然不同。

在預訓練的過程中，GR-2 在網際網路的海洋中遨遊。

它在 3800 萬個網際網路影片片段上進行生成式訓練，也因此得名 GR-2（Generative Robot 2.0）。這些影片來自學術公開資料集，涵蓋了人類在不同場景下（家庭、戶外、辦公室等）的各種日常活動。

這個過程，就像是它在經歷一個快速的 “生長痛”，迅速學會了人類日常生活中的各種動態和行為模式。

^{該圖展示了 GR-2 預訓練資料中的樣本影片和動詞分佈。下圖中的 y 軸是最熱門單詞的對數頻率。}

這種預訓練方式使 GR-2 具備了學習多種操作任務和在多種環境中泛化的潛能。龐大的知識儲備，讓 GR-2 擁有了對世界的深刻理解，彷彿它已經環遊世界無數次。

微調的藝術：影片生成能力拔高動作準確率

據悉，GR-2 的開發團隊採用了一種創新的微調方法。

在經歷大規模預訓練後，透過在機器人軌跡資料上進行微調，GR-2 能夠預測動作軌跡並生成影片。

GR-2 的影片生成能力，讓它在動作預測方面有著天然的優勢。它能夠透過輸入一幀圖片和一句語言指令，預測未來的影片，進而生成相應的動作軌跡。

如下圖所示，只需要輸入一句語言指令：“pick up the fork from the left of the white plate”，就可以讓 GR-2 生成動作和影片。可以看到，機械臂從白盤子旁邊抓起了叉子。右圖中預測的影片和真機的實際執行也相差無幾。

以下是幾個進一步展示 GR-2 影片生成能力的示例，包括把物品放進烤箱、將物品置於咖啡壺嘴下方等任務。

這種能力，不僅提升了 GR-2 動作預測的準確性，也為機器人的智慧決策提供了新的方向。

Scaling Law：機器人 + 大模型的要訣

在人工智慧領域，Scaling Law 是一個備受矚目的概念。它描述了模型效能與其規模之間的關係。對於 GR-2 這樣的機器人模型來說，這一法則尤為關鍵。

隨著模型規模的增加，GR-2 的效能呈現出顯著的提升。

^{(a)(b)(c) 分別展示了不同尺寸 GR-2 在 Ego4d、RT-1、GR-2 三個資料集的驗證集上的影片生成損失。(d) 展示了不同尺寸 GR-2 在真機實驗中的成功率。}

在 7 億引數規模的驗證中，團隊看到了令人鼓舞的結果：更大的模型不僅能夠處理更多複雜的任務，而且在泛化到未見過的任務和場景時也表現得更加出色。

這表明，透過擴大模型規模，我們可以解鎖機器人更多的潛能，使其在多工學習和適應新環境方面更加得心應手。

多工學習與泛化：未知場景的挑戰者

在多工學習測試中，GR-2 能夠完成 105 項不同的桌面任務，平均成功率高達 97.7%。

GR-2 的強大之處不僅在於它能夠處理已知任務，更在於其面對未知場景和物體時的泛化能力。無論是全新的環境、物體還是任務，GR-2 都能夠迅速適應並找到解決問題的方法。

^{我開、我放……我眼裡有活兒}

更讓人驚豔的是，GR-2 還能夠與大語言模型相結合，完成複雜的長任務，並與人類進行互動。

比如，我們想要喝一杯咖啡。GR-2 會先從托盤裡拿起杯子，並將其放在咖啡壺嘴下方。接著，它會按下咖啡機上的按鈕來煮一杯咖啡。最後，當咖啡煮好了，機器人會把杯子放回托盤上。整個過程無需人類干預。

又如，我們早餐想要吃點東西。根據場景中的物體，機器人決定為我們製作一份烤麵包。機器人首先按下烤麵包機上的開關來烤制面包。然後它拿起烤好的麵包，並將其放入紅色的碗中。

^{認真工作中，勿擾}

ByteDance Research 還想強調，GR-2 能夠魯棒地處理環境中的干擾，並透過適應變化的環境成功完成任務。

以果蔬分類任務為例：桌子上放置著水果和蔬菜，我們需要機器人幫忙將水果和蔬菜分裝到不同的盤子裡。機器人能夠自主識別物體的類別，並自動將它們放入正確的盤子中。

當在機器人移動的過程中移動盤子，GR-2 依然能回過神來，準確找回它要放的目標盤子。

^{穿越“果”群，仍能找到你}

工業應用中的突破：端到端的絲滑物體揀選

在實際應用中，GR-2 相比前一代的一個重大突破在於能夠端到端地完成兩個貨箱之間的物體揀選。

這個任務要求機器人從一個貨箱中逐個拿起物體，並將其放入旁邊的貨箱。看似簡單，但在實際應用中，能夠實現這個需求的多模態端到端模型卻難得一見。

^{端到端揀選任務場景}

如下圖所示，GR-2 可以實現貨箱之間絲滑且連續的物體揀選。

^{真 · 無情的揀選機器人}

無論是透明物體、反光物體、柔軟物體還是其他具有挑戰性的物體，GR-2 均能準確抓取。這展現了其在工業領域和真實倉儲場景的巨大潛力。

除了能夠處理多達 100 餘種不同的物體，例如螺絲刀、橡膠玩具、羽毛球，乃至一串葡萄和一根辣椒，GR-2 在未曾見過的場景和物體上也有著出色的表現。

^{揀選任務中的 122 個測試物品，其中只有 55 個物體參與訓練。}

^{GR-2 可以識別透明的、可變形的或反光的物體。}

話分兩頭，儘管 GR-2 在網際網路影片上接受了大規模的預訓練，但也存在一些進步空間。例如，真實世界動作資料的規模和多樣性仍然有限。

GR-2 的故事，是關於 AI 如何推動機器人發展的故事。它不僅僅是一個機器人大模型，更是一個能夠學習和適應各種任務的智慧體。我們有理由相信，GR-2 在實際應用中擁有巨大潛力。

GR-2 的旅程，才剛剛開始。

大模型合成資料機理分析，人大劉勇團隊：資訊增益影響泛化能力
2024-10-15
大模型
使用資料增強技術提升模型泛化能力
2019-01-17
模型
年末驚喜！ByteDance Research影片理解大模型「眼鏡猴」正式釋出
2025-01-25
大模型
模型的泛化能力僅和Hessian譜有關嗎？
2018-10-15
模型
WHALE來了，南大周志華團隊做出更強泛化的世界模型
2024-11-13
世界模型
2018世界機器人大會成果
2018-08-20
機器人
機器人視覺控制新正規化！ByteDance Research新演算法實現透過效能SOTA
2025-02-21
機器人視覺演算法
2016世界機器人大賽巨星雲集
2018-05-23
機器人
大幅減少訓練迭代次數，提高泛化能力：IBM提出「新版Dropout」
2019-06-11
IBM
ICLR 2020 | 模型引數這麼多，泛化能力為什麼還能這麼強？
2020-01-13
ICLR模型
ByteDance Research登Nature子刊：AI+冷凍電鏡，揭示蛋白質動態
2024-11-12
AI
世界模型新突破！極佳科技提出DriveDreamer4D，首次利用世界模型增強4D駕駛場景重建效果
2024-10-28
世界模型
北大博士生提出CAE，下游任務泛化能力優於何愷明MAE
2022-02-23
可在手機終端部署，人大等提出全新人物圖片保護模型RID
2024-12-28
模型
機器學習之泛化
2020-06-13
機器學習
新媒體運營，必須具備的七大能力!
2020-06-16
談談資料目錄應具備的四大能力
2022-11-15
北大推出全新機器人多模態大模型！面向通用和機器人場景的高效推理和操作
2024-06-20
機器人大模型
3D具身基礎模型！北大提出Lift3D賦予2D大模型魯棒的3D操縱能力
2024-12-09
3D大模型
備戰世界盃！先用深度學習與強化學習踢場 FIFA 18
2018-06-07
深度學習強化學習
Java架構師要具備哪些能力？
2021-08-03
Java架構
談談資料建模和設計成功的三大能力
2023-11-07
李飛飛團隊提出ReKep，讓機器人具備空間智慧，還能整合GPT-4o
2024-09-03
機器人GPT
新一代絕影四足機器人釋出具備跑步及上下臺階能力
2018-12-04
機器人
如何與大廠程式設計師 PK？你需要具備這些能力
2019-03-17
程式設計師
優秀的測試開發應該具備的六大能力
2022-03-11
Maya模型製作與場景建模
2018-06-14
模型
端到端最佳化所有能力，位元組跳動提出強化學習LLM Agent框架AGILE
2024-09-30
強化學習框架
具備這4種能力，美工和UI設計師一樣值錢
2019-02-25
UI
價值萬億的具身智慧市場，大佬們如何從世界模型下刀？
2024-11-07
世界模型
誰才是最強的？清華給海內外知名大模型做了場綜合能力評測
2024-04-19
大模型
HTML5前端工程師需具備的能力
2020-06-29
HTML前端工程師
新媒體運營需要具備什麼能力？
2020-10-15
軟體測試工程師需要具備哪些能力
2022-10-25
工程師
解密機器人大模型RFM-1：Covariant創始人陳曦專訪
2024-03-26
解密機器人大模型
大模型缺乏基本推理能力？
2024-06-10
大模型
具身智慧新高度！智元機器人推出全球首個4D世界模型EnerVerse
2025-01-09
機器人世界模型
ADAMoracle預言機具備更好的去中心化程度
2021-12-29
Oracle中心化

GR-2登場！ByteDance Research提出機器人大模型，具備世界建模和強大泛化能力

相關文章