01 研究背景
未來的家庭助理機器人,需要具備感知和操作人類環境中大規模多樣性 3D 物體的能力。在 3D 物體中,3D 鉸接物體包含具有重要的功能和語義資訊的鉸接部件(例如,櫥櫃的門和抽屜),人類和家庭助理機器人經常與它們進行互動,因此值得我們的關注。然而,與只有6個自由度(DoF)的普通剛性物體相比,鉸接物體具有更高的自由度,更難以被機器人理解和互動。
先前的工作,大多數使用估計 3D 鉸接物體的關節、部件姿態、動力學模型等的方法來理解和操作 3D 鉸接物體。在這篇論文裡,我們透過預測目標物體鉸接部件上每個點的可操作性分數,以及提出每個點上完成目標任務的多樣性軌跡,提出了一種新型的可操作性視覺表示(圖1)。這樣的視覺可操作性表示,可以泛化到不同形狀的物體上,且和操作物體的機器人型號無關。為了獲得這種視覺可操作性先驗表示,我們設計了一個透過互動進行感知學習的框架 VAT-Mart。
圖1. 輸入一個3D鉸接物體,我們的方法輸出了每個點的可操作性分數,以及多樣的操作軌跡
02 方 法
我們提出的 VAT-Mart 框架(圖2),由兩個模組構成:基於強化學習的互動式操作軌跡探索模組,以及視覺可操作性感知模組。軌跡探索模組為感知模組提出可操作性和多樣的操作軌跡資料,感知模組從軌跡探索模組的資料中整合可操作性和操作軌跡資訊,並且利用好奇心機制,為軌跡探索模組的軌跡多樣性提供指導。
具體而言,互動式操作軌跡探索模組,使用基於目標物體狀態的強化學習方法,生成不同物體、不同鉸接部件上可以完成不同任務的軌跡以及互動點的可操作性。為了收集多樣性的軌跡,操作軌跡探索模組使用的強化學習方法的獎勵由兩部分構成:軌跡是否可以完成任務的外部獎勵,以及感知模組提供的、當前軌跡是否新穎多樣的內部獎勵。感知模組由可操作性預測模組、軌跡提出模組、軌跡打分模組這三個子模組構成,它們分別預測每個點的可操作性、提出多樣化的可以完成指定任務的軌跡、預測軌跡是否可以完成指定任務。軌跡打分模組的輸出,同時會被作為內部獎勵,激勵軌跡探索模組以探索多樣性的軌跡。
圖2. 框架結構
03 實 驗
我們使用 SAPIEN 模擬器,在大規模 PartNet-Mobility 資料集上進行實驗。我們選取了2類常見的關節型別:門(旋轉)和抽屜(平移),選取開關門或抽屜作為4類任務,選取了7類物體,對於每個任務,我們把物體分為訓練類別(train-cat)和在訓練中沒有出現的新類別(test-cat)。對於每個任務,我們的框架預測出物體上每個點的可操作性分數,以及提出多樣的操作軌跡(圖3)。
圖3. 在不同任務和不同物體上,每個點的可操作性分數,以及多樣的操作軌跡
進一步地,我們在真實世界掃描的 3D 物體(Google Scan, RBO, Our Scan)上進行了實驗(圖4的左半部分),並且使用 franka panda 機械臂進行了真機實驗(圖4的右半部分)。
在大規模資料集和真實世界資料、真機上,我們的方法展現能夠高效地預測可操作性和提出動作軌跡,並且在新環境、新類別物體上展現出了不錯的泛化能力。
圖4. 在真實世界資料上(左),以及真機實驗(右)的效果
04 總 結
在這篇論文中,為了感知和操作 3D 鉸接物體,我們提出了一個新穎的可泛化的視覺可操作性表示,並且設計了 VAT-Mart 框架,預測目標物體鉸接部件上每個點的可操作性,以及提出可以完成目標任務的多樣性操作軌跡。在大規模 PartNet-Mobility 資料集和真實世界資料、真實機械臂上的實驗,證明了我們提出的框架的高效性。
圖文 | 吳睿海
PKU Hyperplane Lab