AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
為了賦予機器人端到端的推理和操縱能力,本文創新性地將視覺編碼器與高效的狀態空間語言模型整合,構建了全新的 RoboMamba 多模態大模型,使其具備視覺常識任務和機器人相關任務的推理能力,並都取得了先進的效能表現。同時,本文發現當 RoboMamba 具備強大的推理能力後,我們可以透過極低的訓練成本使得 RoboMamba 掌握多種操縱位姿預測能力。
論文:RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation
論文連結:https://arxiv.org/abs/2406.04339
專案主頁:https://sites.google.com/view/robomamba-web
Github:https://github.com/lmzpai/roboMamba
我們創新地將視覺編碼器與高效的 Mamba 語言模型整合,構建了全新的端到端機器人多模態大模型,RoboMamba,其具備視覺常識和機器人相關的全面推理能力。 為了使 RoboMamba 具備末端執行器操縱位姿預測能力,我們探索了一種使用簡單 Policy Head 的高效微調策略。我們發現,一旦 RoboMamba 達到足夠的推理能力,它可以以極低的成本掌握操縱位姿預測技能。 在我們的大量實驗中,RoboMamba 在通用和機器人推理評估基準上表現出色,並在模擬器和真實世界實驗中展示了令人印象深刻的位姿預測結果。
問題陳述
狀態空間模型 (SSM)
Stage 1.1:對齊預訓練。
Stage 1.2:指令共同訓練。