一句指令就能衝咖啡、倒紅酒、錘釘子,清華具身智慧CoPa「動」手了

机器之心發表於2024-03-18

近期,具身智慧方向取得了諸多進展。從谷歌的 RT-H 到 OpenAI、Figure 聯合打造的 Figure 01,機器人的互動性、通用性越來越強。

如果未來機器人成為人們日常生活的助手,你期待它們能夠完成哪些任務?泡一杯熱氣騰騰的手衝咖啡,整理桌面,甚至幫你精心安排一場浪漫的約會,這些任務,只需一句指令,清華的具身智慧新框架「CoPa」都能完成。

CoPa(Robotic Manipulation through Spatial Constraints of Parts)是清華叉院高陽教授機器人研究團隊最新提出的具身智慧框架,首次實現了多場景、長程任務、複雜3D行為的泛化能力。

圖片

  • 論文地址:https://arxiv.org/abs/2403.08248

  • 專案主頁:https://copa-2024.github.io/

得益於對視覺語言大模型(VLMs)的創新使用,在不經過任何訓練的前提下,CoPa 可以泛化到開放場景中,處理複雜的指令。CoPa 最令人驚喜的是它展現出對場景中物體的物理屬性具備細緻的理解,以及其精確的規劃與操作能力。

例如,CoPa 能夠幫助研究人員製作一杯手衝咖啡:一句指令就能衝咖啡、倒紅酒、錘釘子,清華具身智慧CoPa「動」手了

在該任務中,CoPa 不僅可以理解複雜桌面陳設中每個物體的作用,還可以透過精確的控制,完成對它們的物理操作。比如「把水從水壺倒到漏斗中」這一任務,機器人將水壺移動到漏斗的上方,精確地將其旋轉至合適的角度,使得水可以從壺口流到漏斗中。

CoPa 還能精心安排一場浪漫的約會。在瞭解研究人員的約會需求後,CoPa 幫助其佈置了精美的西餐桌。一句指令就能衝咖啡、倒紅酒、錘釘子,清華具身智慧CoPa「動」手了

在深入理解使用者需求的同時,CoPa 還展現出了精確的操作物體本領。比如「把花插入花瓶」這一任務,機器人首先抓住了花的莖,將其旋轉至正對著花瓶,最後將其插入。

圖片

方法介紹

演算法流程

大多數操作任務可以被分解為兩個階段:物體的抓取,以及完成任務所需的後續動作。比如,在開抽屜時,我們需要先抓住抽屜的把手,再沿著直線拉出抽屜。基於此,研究人員設計了兩個階段,即首先透過「任務導向的抓取模組(Task-Oriented Grasping)」生成機器人抓取物體的位姿,再透過「任務相關的運動規劃模組(Task-Aware Motion Planning)」生成抓取後完成任務所需的位姿。機器人在相鄰位姿之間的轉移可以透過傳統的路徑規劃演算法實現。

圖片

重要部分檢測模組

研究人員觀察到大多數操作任務都需要對場景中的物體具有細緻的「部分級(part-level)理解」。比如在用小刀切東西時,我們會握著刀柄而非刀刃;在戴眼鏡時,我們會拿著鏡框而非鏡片。基於這個觀察,研究團隊設計了「由粗到細的部分檢測(coarse-to-fine part grounding)模組」來定位場景中和任務相關的部分。具體來說,CoPa 先透過粗粒度物體檢測來定位場景中和任務相關的物體,隨後透過細粒度部分檢測來定位這些物體上和任務相關的部分。

圖片

在「任務導向的抓取模組」中,CoPa 首先透過該重要部分檢測模組定位抓取的位置(比如工具的柄),該位置資訊被用來過濾 GraspNet(一個可以生成場景中所有可能的抓取位姿的模型)生成的抓取位姿,進而得到最終的抓取位姿。

任務相關的運動規劃模組

為了讓視覺語言大模型來幫助機器人進行操作任務,該研究需要設計一個介面,該介面既可以讓大模型以語言的方式推理,又有利於機器人操作。研究團隊發現,在執行任務的過程中,任務相關的物體通常會受到許多的空間幾何限制。比如,在給手機充電時,充電頭必須正對著充電口;在蓋瓶蓋時,蓋子必須被正放在瓶口位置。基於此,研究團隊提出使用空間限制作為視覺語言大模型和機器人之間的橋樑。具體來說,CoPa 首先透過視覺語言大模型生成任務相關的物體在完成任務時需要滿足的空間限制,再透過一個求解模組基於這些限制解出機器人的位姿。

圖片

實驗結果

CoPa 能力評估

CoPa 在現實世界操作任務中展現了極強的泛化能力。得益於對視覺語言大模型中蘊含的常識知識的利用,CoPa 對場景中物體的物理屬性具有深入的理解。

例如,在「錘釘子」任務中,CoPa 首先抓住了錘柄,再將錘子旋轉至錘頭正對著釘子,最後向下錘。該任務要求精確識別出錘柄、錘面以及釘面,並充分理解它們的空間關係,證明 CoPa 對場景中物體的物理屬性具有深入的理解。

圖片

在「把橡皮放進抽屜」任務中,CoPa 首先定位到了橡皮的位置,然後發現橡皮的一部分被紙包裹著,於是聰明地抓取了該部分,確保橡皮不會被弄髒。

圖片

在「把勺子插入杯子」任務中,CoPa 首先抓住了勺柄,將其平移旋轉至豎直朝下,並正對著杯子,最後將其插入杯中,證明 CoPa 可以很好的理解完成任務時物體需要滿足的空間幾何限制。

圖片

研究團隊在 10 個現實世界任務上進行了充分的定量實驗。如表一所示,CoPa 在處理這些複雜任務的表現上顯著超過了基線方法以及許多消融變種方法。

圖片

消融實驗

研究人員透過一系列消融實驗證明了 CoPa 框架中如下三個組成部分的重要性:基礎模型、由粗到細的部分檢測、空間限制生成。實驗結果如上方表一中所示。

  • 基礎模型

表中 CoPa w/o foundation 消融實驗去除了 CoPa 中對基礎模型的使用,轉而透過檢測模型來定位物體,以及基於規則的方法生成空間限制。實驗結果表明該消融變種的成功率很低,證明了基礎模型中蘊含的豐富常識知識在 CoPa 中的重要作用。比如在「掃螺母」任務中,該消融變種不知道場景中哪個工具適合用來掃。

  • 由粗到細的部分檢測

表中 CoPa w/o coarse-to-fine 消融實驗去除了 CoPa 由粗到細的部分檢測設計,轉而直接使用細粒度分割來定位物體。該變種在定位物體重要部分相對困難的任務中表現顯著降低。比如在「錘釘子」任務中,缺少「由粗到細」這一設計導致很難識別出錘面。

  • 空間限制生成

表中 CoPa w/o constraint 消融實驗去除了 CoPa 的空間限制生成模組,轉而讓視覺語言大模型直接輸出機器人的目標位姿的具體數值。實驗表明根據場景圖片直接輸出機器人目標位姿是十分困難的。比如在「倒水」任務中,水壺需要被傾斜一定的角度,該變種完全無法生成此時機器人的位姿。

瞭解更多內容,請參考原論文。

相關文章