北大推出全新機器人多模態大模型!面向通用和機器人場景的高效推理和操作

机器之心發表於2024-06-20
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文由 HMI Lab 完成。HMI Lab依託北京大學影片與視覺技術國家工程研究中心和多媒體資訊處理全國重點實驗室兩大平臺,長期從事機器學習多模態學習和具身智慧方向的研究。本工作第一作者為劉家銘博士,研究方向為面向開放世界的多模態具身大模型與持續性學習技術。本工作第二作者為劉夢真,研究方向為視覺基礎模型與機器人操縱。指導老師為仉尚航,北京大學計算機學院研究員、博士生導師、博雅青年學者。從事多模態大模型與具身智慧研究,取得了一系列重要研究成果,在人工智慧頂級期刊和會議上發表論文 80 餘篇,谷歌引用 9700 餘次。榮獲世界人工智慧頂會 AAAI 最佳論文獎,位列世界最大學術原始碼倉庫 Trending Research 第一位。

為了賦予機器人端到端的推理和操縱能力,本文創新性地將視覺編碼器與高效的狀態空間語言模型整合,構建了全新的 RoboMamba 多模態大模型,使其具備視覺常識任務和機器人相關任務的推理能力,並都取得了先進的效能表現。同時,本文發現當 RoboMamba 具備強大的推理能力後,我們可以透過極低的訓練成本使得 RoboMamba 掌握多種操縱位姿預測能力。

圖片

  • 論文:RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation

  • 論文連結:https://arxiv.org/abs/2406.04339

  • 專案主頁:https://sites.google.com/view/robomamba-web

  • Github:https://github.com/lmzpai/roboMamba

圖片

圖 1. RoboMamba 具備的機器人相關能力,其中包括任務規劃、提示性任務規劃、長程任務規劃、可操縱性判斷、可操縱性生成、未來與過去預測、末端執行器位姿預測等。

摘要

機器人操縱的一個基本目標是使模型能夠理解視覺場景並執行動作。儘管現有的機器人多模態大模型(MLLM)可以處理一系列基本任務,但它們仍然面臨兩個方面的挑戰:1) 處理複雜任務的推理能力不足;2) MLLM 微調和推理的計算成本較高。最近提出的狀態空間模型(SSM),即 Mamba,其具備線性推理複雜度同時在序列建模中展示了令人期待的能力。受此啟發,我們推出了端到端機器人 MLLM—RoboMamba,它利用 Mamba 模型提供機器人推理和行動能力,同時保持高效的微調和推理能力。

具體來說,我們首先將視覺編碼器與 Mamba 整合在一起,透過共同訓練將視覺資料與語言嵌入對齊,使我們的模型具有視覺常識和與機器人相關的推理能力。為了進一步增強 RoboMamba 的操縱位姿預測能力,我們探索了一種僅使用簡單 Policy Head 的高效微調策略。我們發現,一旦 RoboMamba 擁有足夠的推理能力,它可以透過極少的微調引數(模型的 0.1%)和微調時間(20 分鐘)來掌握多種操作技能。在實驗中,RoboMamba 在通用和機器人評估基準上展示了出色的推理能力,如圖 2 所示。同時,我們的模型在模擬和現實世界實驗中展示了令人印象深刻的操縱位姿預測能力,其推理速度比現有的機器人 MLLMs 快 7 倍。

圖片

圖 2. 概述:Robomamba 是一種高效的機器人多模態大模型,同時具備強大的推理和操作能力。RoboMamba-2.8B 在通用 MLLM 基準上實現了與其他 7B MLLM 可競爭的推理效能,同時在機器人任務中展示了長程推理能力。隨後,我們引入了一種極其高效的微調策略,使 RoboMamba 具備操縱位姿預測能力,只需 20 分鐘即可微調一個簡單的策略頭。

本文主要貢獻總結如下:

  • 我們創新地將視覺編碼器與高效的 Mamba 語言模型整合,構建了全新的端到端機器人多模態大模型,RoboMamba,其具備視覺常識和機器人相關的全面推理能力。
  • 為了使 RoboMamba 具備末端執行器操縱位姿預測能力,我們探索了一種使用簡單 Policy Head 的高效微調策略。我們發現,一旦 RoboMamba 達到足夠的推理能力,它可以以極低的成本掌握操縱位姿預測技能。
  • 在我們的大量實驗中,RoboMamba 在通用和機器人推理評估基準上表現出色,並在模擬器和真實世界實驗中展示了令人印象深刻的位姿預測結果。

研究背景

資料的 scaling up 顯著推動了大語言模型(LLMs)研究的發展,展示了在自然語言處理(NLP)中推理和泛化能力的顯著進步。為了理解多模態資訊,多模態大語言模型(MLLMs)應運而生,賦予 LLMs 視覺指令跟隨和場景理解的能力。受 MLLMs 在通用環境中強大能力的啟發,近期研究旨在將 MLLMs 應用於機器人操作領域。一些研究工作使機器人能夠理解自然語言和視覺場景,自動生成任務計劃。另一些研究工作則是利用 MLLMs 的固有能力,使其具備預測操作位姿的能力。

機器人操作涉及在動態環境中與物體互動,需要類人推理能力以理解場景的語義資訊,以及強大的操縱位姿預測能力。雖然現有基於機器人 MLLM 可以處理一系列基礎任務,但它們在兩個方面仍然面臨挑戰。

1)首先,預訓練的 MLLMs 在機器人場景中的推理能力被發現是不足的。正如圖 2
所示,當微調後的機器人 MLLMs 遇到複雜推理任務時,這種缺陷會帶來挑戰。
2)其次,由於現有 MLLM 注意力機制的計算複雜度較高,微調 MLLMs 並使用它們生成機器人操作動作會產生更高的計算成本。

為了平衡推理能力和效率,NLP 領域出現了幾項研究。尤其是,Mamba 引入了創新的選擇性狀態空間模型(SSM),在保持線性複雜度的同時,促進了上下文感知的推理。

受此啟發,我們提出一個問題:“我們能否開發出一種高效的機器人 MLLM,既具備強大的推理能力,又能以非常經濟的方式獲得機器人操作技能?”

RoboMamba 方法

1. 背景知識

  • 問題陳述

對於機器人視覺推理,我們的 RoboMamba 基於影像圖片和語言問題圖片生成語言答案圖片,表示為圖片。推理答案通常包含單獨的子任務圖片對於一個問題圖片。例如,當面對一個計劃問題,如 “如何收拾桌子?”,反應通常包括 “第一步:撿起物體” 和 “第二步:把物體放入盒子” 等步驟。對於動作預測,我們利用一個高效簡單的策略頭 π 來預測動作圖片。根據之前的工作,我們使用 6-DoF 來表達 Franka Emika Panda 機械臂的末端執行器位姿。6 自由度包括末端執行器位置圖片表示三維座標,方向圖片表示旋轉矩陣。如果訓練抓取任務,我們將抓夾狀態新增到位姿預測中,從而實現 7-DoF 控制。

  • 狀態空間模型 (SSM)
本文選擇 Mamba 作為大語言模型。Mamba 由許多 Mamba block 組成,最關鍵的組成部分是 SSM。SSM 是基於連續系統設計的,透過隱藏狀態圖片,將 1D 輸入序列圖片投影到 1D 輸出序列圖片。SSM 由三個關鍵引數組成:狀態矩陣圖片,輸入矩陣圖片,輸出矩陣圖片。SSM 可以表示為:

圖片

最近的 SSM (例如,Mamba) 被構造為使用時間尺度引數∆的離散連續系統。該引數將連續引數 A 和 B 轉換為離散引數圖片圖片。離散化採用零階保持方法,定義如下:

圖片

Mamba 引入了選擇性掃描機制 (S6),在每個 Mamba block 中形成其 SSM 操作。SSM 引數更新為圖片,實現更好的內容感知推理。下圖 3 中展示了 Mamba block 的詳細資訊。

2. RoboMamba 模型結構

圖片

圖 3. Robomamba 整體框架。RoboMamba 透過視覺編碼器和投影層將影像投影到 Mamba 的語言嵌入空間,然後與文字 tokens 連線,並輸入到 Mamba 模型中。為了預測末端執行器的位置和方向,我們引入簡單的 MLP 策略頭,並使用池化操作從語言輸出 tokens 生成的全域性 token 作為輸入。RoboMamba 的訓練策略。為了進行模型訓練,我們將訓練流程分為兩個階段。在 Stage 1,我們引入對齊預訓練(Stage 1.1)和指令共同訓練(Stage 1.2),以使 RoboMamba 具備常識推理和機器人相關的推理能力。在 Stage 2,我們提出機器人操作微調,以高效地賦予 RoboMamba Low-Level 操作技能。

為了使 RoboMamba 具備視覺推理和操作能力,我們從預訓練的大語言模型(LLMs)和視覺模型開始,構建了一個高效的 MLLM 架構。如上圖 3 所示,我們利用 CLIP 視覺編碼器從輸入影像 I 中提取視覺特徵圖片,其中 B 和 N 分別表示 batch size 和 token 數。與最近的 MLLMs 不同,我們不採用視覺編碼器整合技術,這種技術使用了多種骨幹網路(即 DINOv2、CLIP-ConvNeXt、CLIP-ViT)進行影像特徵提取。整合引入了額外的計算成本,嚴重影響了機器人 MLLM 在現實世界中的實用性。因此,我們證明了,當高質量資料和適當的訓練策略結合時,簡單且直接的模型設計也能實現強大的推理能力。為了使 LLM 理解視覺特徵,我們使用多層感知器(MLP)將視覺編碼器連線到 LLM。透過這個簡單的跨模態聯結器,RoboMamba 可以將視覺資訊轉換為語言嵌入空間圖片

請注意,模型效率在機器人領域至關重要,因為機器人需要根據人類指令快速響應。因此,我們選擇 Mamba 作為我們的大語言模型,因為它具有上下文感知推理能力和線性計算複雜度。文字提示使用預訓練的分詞器編碼為嵌入空間圖片,然後與視覺 token 連線(cat)並輸入 Mamba。我們利用 Mamba 強大的序列建模來理解多模態資訊,並使用有效的訓練策略來開發視覺推理能力(如下一節所述)。輸出 token (圖片) 然後被解碼(det),生成自然語言響應圖片。模型的前向過程可以表示如下:

圖片

3.RoboMamba 通用視覺和機器人推理能力訓練

在構建了 RoboMamba 架構後,接下來的目標是訓練我們的模型學習通用視覺推理和機器人相關的推理能力。如圖 3 所示,我們將 Stage 1 的訓練分為兩個子步驟:對齊預訓練(Stage 1.1)和指令共同訓練(Stage 1.2)。具體而言,與以往的 MLLM 訓練方法不同,我們的目標是使 RoboMamba 能夠理解通用視覺和機器人場景。鑑於機器人領域涉及許多複雜且新穎的任務,RoboMamba 需要更強的泛化能力。因此,我們在 Stage 1.2 階段採用了共同訓練策略,將高層次的機器人資料(例如任務規劃)與通用指令資料結合起來。我們發現,共同訓練不僅可以獲得更具泛化能力的機器人策略,還由於機器人資料中的複雜推理任務而帶來的通用場景推理能力增強。訓練細節如下:

  • Stage 1.1:對齊預訓練。

我們採用 LLaVA 過濾的 558k 影像 - 文字配對資料集進行跨模態對齊。如圖 3 所示,我們凍結 CLIP 編碼器和 Mamba 語言模型引數,僅更新投影層。透過這種方式,我們可以將影像特徵與預訓練的 Mamba 詞嵌入對齊。

  • Stage 1.2:指令共同訓練。

在這一階段,我們首先遵循先前 MLLM 的工作進行通用視覺指令資料收集。我們採用了 655K LLaVA 混合指令資料集和 400K LRV-Instruct 資料集,分別用於學習視覺指令跟隨和減輕幻覺。需要注意的是,減輕幻覺在機器人場景中起著重要作用,因為機器人 MLLM 需要基於真實場景生成任務規劃,而不是想象中的場景。例如,現有的 MLLMs 可能公式化地回答 “開啟微波爐” 時說 “步驟 1:找到把手”,但許多微波爐沒有把手。接下來,我們結合了 800K RoboVQA 資料集,以學習高層次的機器人技能,如長程任務規劃、可操縱性判斷、可操縱性生成、未來與過去預測等。在共同訓練期間,如圖 3 所示,我們凍結 CLIP 編碼器的引數,並在 1.8m 合併資料集上微調投影層和 Mamba。所有來自 Mamba 語言模型的輸出都使用交叉熵損失進行監督。

4.RoboMamba 操縱能力微調訓練

在 RoboMamba 強大的推理能力基礎上,我們在本節介紹了我們的機器人操作微調策略,在圖 3 中稱為訓練 Stage 2。現有的基於 MLLM 的機器人操作方法在操作微調階段需要更新投影層和整個 LLM。雖然這種正規化可以賦予模型動作位姿預測能力,但它也破壞了 MLLM 的固有能力,並且需要大量的訓練資源。為了解決這些挑戰,我們提出了一種高效的微調策略,如圖 3 所示。我們凍結 RoboMamba 的所有引數,並引入一個簡單的 Policy head 來建模 Mamba 的輸出 token。Policy head 包含兩個 MLP 分別學習末端執行器位置和方向,總共佔用整個模型引數的 0.1%。根據前期工作 where2act,位置和方向的損失公式如下:圖片
其中,N 表示訓練樣本的數量,Tr (A) 表示矩陣 A 的跡。RoboMamba 只預測影像中接觸畫素的二維位置(x, y),然後使用深度資訊將其轉換為三維空間。為了評估這一微調策略,我們使用 SAPIEN 模擬生成了一個包含 1 萬條末端執行器位姿預測的資料集。

在操作微調之後,我們發現一旦 RoboMamba 具備了足夠的推理能力,它可以透過極高效的微調來獲取位姿預測技能。由於微調引數(7MB)極少且模型設計高效,我們只需 20 分鐘即可實現新的操作技能學習。這一發現突出了推理能力對於學習操作技能的重要性,並提出了一個新的視角:我們可以在不影響 MLLM 固有推理能力的情況下,高效地賦予其操作能力。最後,RoboMamba 可以使用語言響應進行常識和與機器人相關的推理,並使用 Policy head 進行動作位姿預測。

定量實驗

1. 通用推理能力評估(MLLM Benchmarks)

為了評估推理能力,我們使用了幾個流行的基準,包括 VQAv2、OKVQA、GQA、OCRVQA、VizWiz、POPE、MME、MMBench 和 MM-Vet。除此之外,我們還在 RoboVQA 的 18k 驗證資料集上直接評估了 RoboMamba 的機器人相關推理能力,涵蓋了機器人任務,如任務規劃、提示性任務規劃、長程任務規劃、可操縱性判斷、可操縱性生成、過去描述和未來預測等。圖片
表 1. Robomamba 與現有 MLLMs 在多個基準上的通用推理能力比較。

如表 1 所示,我們將 RoboMamba 與以前最先進的 (SOTA) MLLM 在通用的 VQA 和最近的 MLLM 基準測試上進行比較。首先,我們發現 RoboMamba 僅使用 2.7B 語言模型,就在所有 VQA 基準測試中取得了令人滿意的結果。結果表明,簡單的結構設計是有效的。對齊預訓練和指令協同訓練顯著提高了 MLLM 的推理能力。例如,由於在協同訓練階段引入了大量的機器人資料,RoboMamba 在 GQA 基準上的空間識別效能得到了提高。同時,我們還在最近提出的 MLLM 基準上測試了我們的 RoboMamba。與以前的 MLLMs 相比,我們觀察到我們的模型在所有基準測試中都取得了具有競爭力的結果。雖然 RoboMamba 的一些效能仍然低於最先進的 7B MLLM (e.g., LLaVA1.5 和 SPHINX),但我們優先使用更小更快的 Mamba-2.7B 來平衡機器人模型的效率。在未來,我們計劃為資源不受限制的場景開發 RoboMamba-7B。

2. 機器人推理能力評估(RoboVQA Benchmark)

另外,為了全面比較 RoboMamba 與機器人相關的推理能力,我們在 RoboVQA 驗證集上與 LLaMA-AdapterV2 進行基準測試。我們選擇 LLaMA-AdapterV2 作為基準,因為它是當前 SOTA 機器人 MLLM (ManipLLM) 的基礎模型。為了進行公平的比較,我們載入了 LLaMA-AdapterV2 預訓練引數,並使用其官方指令微調方法在 RoboVQA 訓練集上對其進行了兩個 epoch 的微調。如圖 4 a)所示,RoboMamba 在 BLEU-1 到 BLEU-4 之間實現了卓越的效能。結果表明,我們的模型具有先進的機器人相關推理能力,並證實了我們的訓練策略的有效性。除了更高的準確率外,我們的模型實現的推理速度比 LLaMA-AdapterV2 和 ManipLLM 快 7 倍,這可以歸因於 Mamba 語言模型的內容感知推理能力和效率。

圖片

圖 4. RoboVQA 上與機器人相關的推理對比。

3. 機器人操縱能力評估(SAPIEN)

為了評估 RoboMamba 的操作能力,我們將我們的模型與四個基線進行了比較:UMPNet, Flowbot3D, RoboFlamingo 和 ManipLLM。在比較之前,我們復現所有基線並在我們收集的資料集上訓練它們。對於 UMPNet,我們在預測的接觸點上執行操作,方向垂直於物體表面。Flowbot3D 在點雲上預測運動方向,選擇最大的流作為互動點,並使用流方向表示末端執行器的方向。RoboFlamingo 和 ManipLLM 分別載入 OpenFlamingo 和 LLaMA-AdapterV2 預訓練引數,並遵循各自的微調和模型更新策略。如表 2 所示,與之前的 SOTA ManipLLM 相比,我們的 RoboMamba 在可見類別上實現了 7.0% 的改進,在不可見類別上實現了 2.0% 的改進。在效率方面,RoboFlamingo 更新了 35.5% (1.8B) 的模型引數,ManipLLM 更新了 LLM 中的介面卡 (41.3M),包含 0.5% 的模型引數,而我們的微調 Policy head (3.7M) 僅佔模型引數的 0.1%。RoboMamba 比以前基於 MLLM 的方法更新的引數少了 10 倍,而推理速度提高了 7 倍。結果表明,我們的 RoboMamba 不僅具有強大的推理能力,而且能夠以低成本的方式獲得操縱能力。

圖片

表 2. Robomamba 與其他 baseline 的成功率比較

定性結果

圖片

圖 4. RoboMamba 面對現實世界中各種機器人下游任務的視覺化。

如圖 4 所示,我們視覺化了 RoboMamba 在各種機器人下游任務中的推理結果。在任務規劃方面,相較於 LLaMA-AdapterV2, RoboMamba 憑藉其強大的推理能力,展現出了更準確、更長遠的規劃能力。為了進行公平的比較,我們還對 RoboVQA 資料集上的基準 LLaMA-AdapterV2 進行了微調。對於操縱位姿預測,我們使用了 Franka Emika 機械臂來與各種家庭物品進行互動。我們將 RoboMamba 預測的 3D 位姿投影到 2D 影像上,使用紅點表示接觸點,末端執行器表示方向,如圖右下角所示。

圖片

圖片

圖片

相關文章