AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的作者均來自北京大學與智元機器人聯合實驗室,通訊作者為北京大學計算機學院助理教授董豪。目前團隊研究方向覆蓋智慧機器人的泛化操縱、具身導航和感知自主決策。團隊持續開放聯合實習生崗位,提供充足的機器人本體和計算資源。
近年來視覺語⾔基礎模型(Vision Language Models, VLMs)在多模態理解和⾼層次常識推理上⼤放異彩,如何將其應⽤於機器⼈以實現通⽤操作是具身智慧領域的⼀個核⼼問題。這⼀⽬標的實現受兩⼤關鍵挑戰制約:
1. VLM 缺少精確的 3D 理解能⼒:透過對⽐學習正規化訓練、僅以 2D 影像 / ⽂本作為輸⼊的 VLM 的天然侷限;
2. ⽆法輸出低層次動作:將 VLM 在機器⼈資料上進⾏微調以得到視覺 - 語⾔ - 動作(VLA)模型是⼀種有前景的解決⽅案,但⽬前仍受到資料收整合本和泛化能⼒的限制。
針對上述難題,北⼤攜⼿智元機器⼈團隊提出了 OmniManip 架構,基於以物件為中⼼的 3D 互動基元,將 VLM 的高層次推理能力轉化為機器⼈的低層次高精度動作。
針對⼤模型幻覺問題和真實環境操作的不確定性,OmniManip 創新性地引⼊了 VLM 規劃和機器⼈執⾏的雙閉環系統設計,實現了操作效能的顯著突破。
實驗結果表明,OmniManip 作為⼀種免訓練的開放詞彙操作⽅法,在各種機器⼈操作任務中具備強⼤的零樣本泛化能⼒。
項⽬主⻚與論⽂已上線,程式碼與測試平臺即將開源。
- 主⻚地址:https://omnimanip.github.io
- 論⽂地址:https://arxiv.org/abs/2501.03841
- 基於 VLM 的任務解析:利⽤ VLM 強⼤的常識推理能⼒,將任務分解為多個結構化階段(Stages),每個階段明確指定了主動物體(Active)、被動物體(Passive)和動作型別(Action)。
- 以物體為中⼼的互動基元作為空間約束:透過 3D 基座模型⽣成任務相關物體的 3D 模型和規範化空間(canonical space),使 VLM 能夠直接在該空間中取樣 3D 互動基元,作為 Action 的空間約束,從⽽最佳化求解出 Active 物體在 Passive 物體規範座標系下的⽬標互動姿態。
- 閉環 VLM 規劃:將⽬標互動姿態下的 Active/Passive 物體渲染成影像,由 VLM 評估與重取樣,實現 VLM 對⾃身規劃結果的閉環調整。
- 閉環機器⼈執⾏:透過物體 6D 姿態跟蹤器實時更新 Active/Passive 物體的位姿,轉換為機械臂末端執⾏器的操作軌跡,實現閉環執⾏。
物體的互動基元透過其在標準空間中的互動點和⽅向來表徵。互動點 p∈R3 表示物體上關鍵的互動位置,⽽互動⽅向 v∈R3 代表與任務相關的主要軸。這兩者共同構成互動基元 O={p,v},封裝了滿⾜任務約束所需的基本⼏何和功能屬性。這些標準互動基元相對於其標準空間定義,能夠在不同場景中保持⼀致,實現更通⽤和可重⽤的操作策略。對於通⽤物體的互動點提取,OmniManip 利⽤視覺語⾔模型(VLM)在原圖(當部件可⻅且實體存在時)或在正交檢視中渲染的 3D ⽹格(當部件不可⻅或實體不存在時)上進⾏定位。與 CoPa 和 ReKep 等⽅法不同,OmniManip 直接讓 VLM 進⾏ grounding,不會受限於不穩定的 part 分割或聚類結果。在互動⽅向的取樣⽅⾯,由於物體的規範化空間透過 Omni6DPose 錨定,軸的⽅向與語義對⻬,該團隊讓 VLM 直接對物體標準空間的軸進⾏語義描述,並根據操作任務進⾏匹配度排序,以獲得互動⽅向的候選。李⻜⻜團隊的⼯作 ReKep 透過關鍵點跟蹤巧妙地實現了機械臂的閉環執⾏,但其 VLM 規劃過程是開環的。OmniManip 則更進⼀步,得益於以物體為中⼼的設計理念,⾸次在 VLM 規劃和機械臂執⾏層⾯實現了雙閉環系統:閉環規劃:在實驗中,VLM 推理很容易出現幻覺,導致錯誤的規劃結果(尤其是在涉及 3D 旋轉的任務中,如倒⽔、插筆)。OmniManip 賦予 VLM 閉環規劃能⼒,透過渲染物體的三維模型,幫助 VLM 「腦補」出規劃結果後的物體樣貌,再判斷其合理性。這⼀功能賦予了 VLM 空間反思能⼒,使其能夠在測試時進⾏推理,類似於 OpenAI 的 O1,⼤⼤提⾼了操作成功率。為了保持框架的簡潔性,研究團隊沒有設計複雜的測試時推理流程,僅作⼀輪校驗就已明顯提⾼了 VLM 的規劃準確率。閉環執⾏:OmniManip 提取的互動基元位於物體的規範空間中,只需引⼊⼀個 6D 位姿跟蹤器即可輕鬆實現閉環操作。與 ReKep 使⽤的關鍵點跟蹤器相⽐,基於物體的 6D 位姿跟蹤⽅式更為穩定,並對遮擋具有更強的魯棒性。(缺點則是不如關鍵點靈活、⽆法建模柔性物體操作。) 在 12 個真機短程任務上,OmniManip 均展現出卓越的效能。雙閉環系統設計為 OmniManip 帶來了約 17% 的效能提升,這證明了 RRC 在有效減少⼤模型幻覺影響⽅⾯的作⽤。VLM 需要基於互動基元對機器⼈操作進⾏規劃,如果互動基元本身存在問題,VLM 就會陷⼊「巧婦難為⽆⽶之炊」的困境。因此,可靠的互動基元⾄關重要。以往的⽅法通常是讓 VLM 直接在相機拍攝的 2D 影像上取樣互動基元,然後透過相機的內外引數轉換到 3D 空間。然⽽,由於 2D 影像存在空間歧義,取樣效果對相機視⻆、影像紋理和部件形狀等因素極為敏感(例如,當相機平視杯⼦時,之前的⽅法只能對準杯⼦的側壁、⽽不是開⼝)。⽽ OmniManip 則是在物體的 3D 規範空間中進⾏取樣,能夠輕鬆克服 2D 影像的侷限性,實現可靠的 3D 互動基元提取。OmniManip 能夠與 high-level 任務規劃器結合,實現⻓程任務操作作為⼀種以物體為中⼼的演算法,OmniManip 與機械臂本體解耦,能夠零成本遷移⾄不同形態的本體(例如雙臂⼈形機器⼈)。 OmniManip 具有強⼤的通⽤泛化能⼒,不受特定場景和物體限制。團隊已將其應⽤於數字資產⾃動標註 / 合成管道,實現⼤規模的機器⼈軌跡⾃動採集。該研究團隊即將開源⾼質量的泛化操作⼤規模資料集和對應的模擬評測基準,敬請期待!