物體姿態估計對於各種應用至關重要,例如機器人操縱和混合現實。例項級方法通常需要紋理 CAD 模型來生成訓練資料,並且不能應用於測試時未見過的新物體;而類別級方法消除了這些假設(例項訓練和 CAD 模型),但獲取類別級訓練資料需要應用額外的姿態標準化和檢查步驟。
為了解決這些問題,來自英偉達的研究團隊提出了一個統一的框架,稱為 FoundationPose,它在基於模型和無模型設定下,使用 RGBD 影像對新穎物體進行姿態估計和跟蹤。如下圖所示,FoundationPose 優於現有專門針對這四項任務中每一項的 SOTA 方法。FoundationPose 透過大規模合成訓練實現了強大的泛化能力,輔以大型語言模型(LLM)、以及一種新穎的基於 Transformer 的架構和對比學習。該研究利用神經隱式表示填補了基於模型和無模型設定之間的差距,使得 FoundationPose 可以使用少量(約 16 張)參考影像進行有效的新穎檢視合成,實現了比之前的渲染與比較方法 [32, 36, 67] 更快的渲染速度。研究論文被評為 CVPR 2024 滿分論文,程式碼已開源。
論文:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
論文地址:https://arxiv.org/abs/2312.08344
專案主頁:https://nvlabs.github.io/FoundationPose/
專案程式碼:https://github.com/NVlabs/FoundationPose
提出了一個統一的框架,用於新穎物體的姿態估計和跟蹤,支援基於模型和無模型設定。一種以物體為中心的神經隱式表示用於有效的新穎檢視合成,彌合了這兩種設定之間的差距。
提出了一種 LLM 輔助的合成資料生成流程,透過多樣的紋理增強擴充套件了 3D 訓練資源的種類。
提出新穎的基於 Transformer 的網路架構設計和對比學習公式在僅使用合成資料進行訓練時實現了強大的泛化能力。
FoundationPose 方法在多個公共資料集上大幅優於針對每個任務專門化的現有方法。即使減少了假設,它甚至實現了與例項級方法可比的結果。
方法介紹
FoundationPose 是一個用於 6D 物體姿態估計和跟蹤的統一大模型,支援基於模型和無模型設定。該方法可以立即應用於新穎的物體上,無需微調,只要給出其 CAD 模型,或者拍攝少量參考影像即可。FoundationPose 透過神經隱式表示來彌合這兩種設定之間的差距,這種表示允許有效的新檢視合成,並在同一統一框架下保持下游姿態估計模組的不變性。
透過大規模合成訓練、大型語言模型(LLM)、一種新穎的基於 Transformer 的架構和對比學習公式的輔助,FoundationPose 實現了強大的泛化能力。在涉及挑戰性場景和物體的多個公共資料集上進行了廣泛評估,結果表明 FoundationPose 在效能上大幅優於現有的針對每個任務專門化的方法。此外,儘管減少了假設,但 FoundationPose 達到了與例項級方法相當的結果。
FoundationPose的框架概述如下圖所示,為了減少大規模訓練的手動工作,該研究利用最近出現的技術和資源,包括 3D 模型資料庫、大型語言模型和擴散模型,開發了一種新穎的合成資料生成流程。為了彌合無模型和基於模型的設定之間的差距,該研究利用一個以物體為中心的神經場進行新穎檢視的 RGBD 渲染,以便後續進行渲染與比較。對於姿態估計,該研究首先在物體周圍均勻初始化全域性姿態,然後透過精細化網路對其進行改進,最後將改進後的姿態傳遞給姿態選擇模組,該模組預測它們的得分。具有最佳得分的姿態被選為輸出。
3.1 大語言模型輔助的大規模資料生成
為了實現強大的泛化能力,需要大量不同的物體和場景用於訓練。在現實世界中獲取這樣的資料,並標註準確的地面真值 6D 姿態是耗時且成本高昂的。另一方面,合成資料通常缺乏 3D 模型的規模和多樣性。該研究開發了一個新穎的合成資料生成流程用於訓練,藉助了最近出現的資源和技術:大規模 3D 模型資料庫 [6, 10],大型語言模型(LLM)和擴散模型 [4, 24, 53]。與之前的工作 [22, 26, 32] 相比,這種方法顯著提高了資料量和多樣性。
頂部:FS6D [22] 中提出的隨機紋理混合。底部:LLM 輔助的紋理增強使外觀更加逼真。最左邊是原始的 3D 模型。其中文字提示由 ChatGPT 自動生成。
3.2 神經輻射場物體建模
對於無模型設定,當 3D CAD 模型不可用時,一個關鍵挑戰是有效地表示物體,以便為下游模組生成具有足夠質量的影像。神經隱式表示對於新穎檢視合成和在 GPU 上可並行化均非常有效,因此在為下游姿態估計模組渲染多個姿態假設時提供了高計算效率,如圖 2 所示。為此,該研究引入了一個以物體為中心的神經場表示來進行物體建模,靈感來自先前的工作 [45, 65, 71, 74]。一旦訓練完成,神經場可以被用作傳統圖形管線的替代品,以執行對物體的高效渲染,用於後續的渲染和比較迭代。除了原始 NeRF [44] 中的顏色渲染之外,還需要深度渲染來進行基於 RGBD 的姿態估計和跟蹤。
為此,該研究執行 Marching Cubes [41] 來從 SDF 的零級集中提取一個帶有紋理的網格,並與顏色投影結合。這隻需要為每個物體執行一次。在推斷時,給定任意物體姿態假設,然後按照光柵化過程來渲染 RGBD 影像。另外,也可以直接使用神經場做 online 和球追蹤 [14] 來渲染深度影像;然而,研究團隊發現這樣做效率較低,特別是在需要並行渲染大量姿態假設時。
3.3 姿態假設生成
給定 RGBD 影像,可以使用類似於 Mask RCNN [18] 或 CNOS [47] 這樣的現成方法來檢測物體。該研究使用在檢測到的 2D 邊界框內位於中位深度處的 3D 點來初始化平移。為了初始化旋轉,該研究從以物體為中心的球體上均勻取樣 Ns 個視點,相機朝向球心。這些相機姿態還透過 Ni 個離散化的平面旋轉進行增強,從而產生 Ns・Ni 個全域性姿態初始化,這些姿態被髮送到姿態精化器作為輸入。姿態精化網路架構如總覽圖所示。
該研究首先使用單個共享的 CNN 編碼器從兩個 RGBD 輸入分支中提取特徵圖。特徵圖被級聯起來,透過帶有殘差連線的 CNN 塊進行處理,並透過位置嵌入進行分塊化。最後,網路預測平移更新∆t ∈ R^3 和旋轉更新∆R ∈ SO (3),每個都由一個 Transformer 編碼器 [62] 單獨處理,併線性投影到輸出維度。更具體地說,∆t 代表了物體在相機座標系中的平移移動,∆R 代表了物體在相機座標系中表示的方向更新。在實踐中,旋轉是用軸 - 角度表示進行引數化的。該研究還嘗試了 6D 表示 [78],它達到了類似的結果。然後該研究更新了輸入的粗略姿態 [R | t] ∈ SE (3)。
其中 ⊗ 表示在 SO (3) 上的更新。與使用單一的齊次姿態更新不同,這種分離表示在應用平移更新時消除了對更新後方向的依賴性。這統一了相機座標系中的更新和輸入觀察,從而簡化了學習過程。網路訓練由 L2 損失監督:
其中 ¯t 和 R¯ 是地面真實值;w1 和 w2 是平衡損失的權重,根據經驗設定為 1。
3.4 最終輸出姿態選取
給定一系列經過精化的姿態假設,該研究使用一個分層姿態排名網路來計算它們的得分。得分最高的姿態被選為最終估計值。下圖顯示姿態排序視覺化。該研究提出的分層比較利用了所有姿態假設之間的全域性上下文,以更好地預測整體趨勢,使形狀和紋理都能對齊。真正的最佳姿態用紅色圓圈標註。
實驗和結果
該研究採用 5 個資料集對 FoundationPose 方法進行了實驗評估:LINEMOD [23],OccludedLINEMOD [1],YCB-Video [73],T-LESS [25] 和 YCBInEOAT [67]。這些資料集涉及各種具有挑戰性的場景(密集雜亂、多例項、靜態或動態場景、桌面或機器人操作),以及具有不同屬性的物體(無紋理、閃亮、對稱、尺寸變化)。
由於 FoundationPose 是一個統一的框架,該研究考慮了兩種設定(無模型和基於模型)以及兩個姿態預測任務(6D 姿態估計和跟蹤)之間的組合,總共有 4 個任務。對於無模型設定,從資料集的訓練集中選擇了一些捕獲新穎物體的參考影像,並配備了物體姿態的地面真值註釋,按照 [22] 的方法。對於基於模型的設定,為新穎物體提供了 CAD 模型。
除了消融實驗外,在所有評估中,FoundationPose 始終使用相同的訓練模型和配置進行推斷,而無需任何微調。此外該研究還提交了結果至 BOP 排行榜並取得了第一名的成績。
團隊介紹
該論文來自於英偉達研究院。其中論文一作華人溫伯文博士,任研究員。他的研究方向為機器人感知和 3D 視覺,此前曾在谷歌 X、Facebook Reality Labs、亞馬遜和商湯實習,獲得過 RSS 最佳論文獎提名。
個人主頁:https://wenbowen123.github.io/