MV-DUSt3R+: 只需2秒!Meta Reality Labs開源最新三維基座模型,多檢視大場景重建

机器之心發表於2025-01-26

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文一作為唐正綱,目前為博士生,就讀於伊利諾伊大學厄巴納 - 香檳分校,本科畢業於北京大學。通訊作者是嚴志程,Meta Reality Labs 高階科研研究員 (Senior Staff Research Scientist),主要研究方向包括三維基礎模型,終端人工智慧 (On-device AI) 和混合現實。

近期,Fei-Fei Li 教授的 World Labs 和 Google 的 Genie 2 展示了 AI 從單圖生成 3D 世界的能力。這技術讓我們能步入任何影像並以 3D 形式探索,預示著數字創造的新未來。

Meta 也加入了這場構建世界模型的競賽,推出並且開源了全新的世界模型構建基座模型 MV-DUSt3R+。Meta 的技術透過 Quest 3 和 Quest 3S 頭顯,快速還原 3D 場景。只需幾張照片,使用者就能在 Meta 頭顯中體驗不同的混合環境。

在這一領域,DUSt3R 曾是 SOTA 的標杆。其 GitHub 上的 5.5k star 證明了它在 3D 重建領域的影響力。然而,DUSt3R 每次只能處理兩張圖。處理更多圖時,需要使用 bundle adjustment,這非常耗時,限制了它在複雜場景上的應用。

現在,Meta Reality Labs 和伊利諾伊大學厄巴納 - 香檳分校(UIUC)推出了新工作《MV-DUSt3R+: Single-Stage Scene Reconstruction from Sparse Views In 2 Seconds》。這項研究全面提升了 DUSt3R。透過全新的多檢視解碼器塊和交叉檢視注意力塊機制,MV-DUSt3R + 可以直接從稀疏檢視中重建複雜的三維場景。而且重建只需 2 秒鐘!

圖片
MV-DUSt3R + 是由 Meta 的嚴志程團隊開發。嚴志程在 Meta 任 Senior Staff Research Scientist 一職,UIUC 博士,目前負責 Meta 的混合現實開發工作。文章的第一作者唐正綱,本科畢業於北京大學,目前在 UIUC 攻讀博士學位,專注於 3D 視覺研究。團隊其他成員在 3D 場景重建和生成模型領域也經驗豐富。

MV-DUSt3R + 的技術貢獻包括:

  • 單階段場景重建:2 秒內完成複雜三維場景的重建。
  • 多檢視解碼器塊:無需相機校準和姿態估計,處理任意數量的檢視。
  • 交叉檢視注意力塊:增強對不同參考檢視選擇的魯棒性。
圖片
  • 論文連結:https://arxiv.org/abs/2412.06974
  • 專案主頁:https://mv-dust3rp.github.io/
  • 程式碼倉庫:https://github.com/facebookresearch/mvdust3r/MV-DUSt3R+: 只需2秒!Meta Reality Labs開源最新三維基座模型,多檢視大場景重建
MV-DUSt3R+ 效果演示
MV-DUSt3R + 的 Github 程式碼倉庫裡還包含一個基於 Gradio 的互動演示。使用者可以輸入多張檢視或者一個場景影片。演示能夠顯示由 MV-DUSt3R + 重建的點雲和各個輸入檢視的相機姿態。
圖片
方法概述

單階段場景重建

2 秒內完成複雜三維場景的重建。傳統方法通常採用分階段處理流程,包括相機姿態估計、區域性重建,以及全域性最佳化來對齊各個區域性重建結果。這種方法不僅流程繁瑣,而且容易在多個步驟中累積誤差。此外,全域性最佳化步驟需要大量計算資源,尤其在處理大規模場景時,計算時間往往從幾十秒延長到數分鐘,難以滿足實時應用的需求。

為了解決這些問題,MV-DUSt3R+ 提出了單階段場景重建框架,透過一次前向推理即可完成整個重建流程。這種方法完全摒棄了傳統方法中的全域性最佳化步驟,而是透過高效的神經網路架構直接輸出全域性對齊的三維點雲。

在實驗中,MV-DUSt3R+ 展現了效率優勢:在處理 12 至 24 個視角輸入時,僅需 0.89 至 1.54 秒即可完成大規模、多房間場景的重建。這一效能比傳統的 DUSt3R 方法快了 48 至 78 倍,同時在重建質量上也顯著提升。單階段的設計不僅提升了計算效率,還降低了硬體資源的消耗,為實時三維場景重建在混合現實、自動駕駛、機器人導航等領域的應用鋪平了道路。
圖片
多檢視解碼器塊

無需相機校準和姿態估計,處理任意數量的檢視。在多視角重建任務中,傳統方法通常依賴於相機內參和外參的精確估計,這需要額外的相機校準步驟,增加了系統複雜性和誤差風險。

即便是一些最新的學習方法,如 DUSt3R 和 MASt3R,也只能處理兩視角重建,並需要在後續步驟中進行全域性最佳化來對齊多視角資訊。這種方法在處理大場景和稀疏視角輸入時,表現出明顯的侷限性。

MV-DUSt3R+ 透過引入多檢視解碼器塊,徹底擺脫了對相機引數的依賴,能夠直接處理任意數量的視角輸入。具體來說,多檢視解碼器塊在網路中充當資訊融合的關鍵角色,透過注意力機制在參考檢視和所有其他檢視之間進行高效資訊交換。

與傳統的兩視角方法不同,MV-DUSt3R+ 可以一次性處理多達 24 個視角,並在所有視角之間聯合學習空間關係。這種設計確保了重建結果在全域性範圍內的一致性和準確性。

多檢視解碼器塊的設計還具有極高的靈活性:無論輸入視角數量多少,網路都能保持高效執行,而無需重新訓練或調整引數。這使得 MV-DUSt3R+ 能夠適應各種實際應用場景,從小型單房間到大型多房間甚至室外場景,均能實現高質量的三維重建。
圖片
交叉檢視注意力塊

增強對不同參考檢視選擇的魯棒性。在大規模場景重建中,單一參考檢視往往無法覆蓋所有細節,特別是在視角變化較大的情況下,重建質量容易出現區域性偏差。為了克服這一挑戰,MV-DUSt3R+ 在多檢視解碼器的基礎上引入了交叉檢視注意力塊,以增強對不同參考檢視選擇的魯棒性。

交叉檢視注意力塊透過在多個參考檢視之間進行資訊融合,有效緩解了單一檢視資訊不足的問題。具體而言,該模組在網路的多個路徑中執行,每條路徑對應一個不同的參考檢視。透過在不同參考檢視路徑之間交換和融合特徵,交叉檢視注意力塊能夠捕獲長距離的幾何資訊,確保在大場景重建中,所有區域的重建質量都能保持一致。

這種機制的優勢在於,即使某些輸入檢視與單一參考檢視之間的立體資訊較弱,也可以從其他參考檢視中獲取補充資訊,從而提高整體重建精度。在實驗中,MV-DUSt3R+ 展現了出色的魯棒性:在多房間和稀疏視角設定下,重建結果的誤差顯著降低,同時在新視角合成任務中生成的影像也更為精確,真實感更強。
圖片
主要實驗結果

大量實驗驗證了 MV-DUSt3R+ 在多視角立體重建、多視角相機位姿估計和新檢視合成任務中的效能提升。請參考文章詳細的實現細節以及表格對比,實驗結果如下所示。

資料集

訓練資料包括 ScanNet、ScanNet++、HM3D 和 Gibson,測試資料為 MP3D、HM3D 和 ScanNet。以下為資料集特性表(表 1):

圖片

表 1: 訓練與測試資料集對比

該團隊採用與 DUSt3R 相同的訓練 / 測試劃分,訓練資料為其子集(詳見附錄)。透過隨機選擇初始幀並逐步取樣候選幀(點雲重疊率在 [t_min, t_max] 範圍內),生成輸入檢視集合 {Iₙ}。

軌跡取樣

ScanNet 和 ScanNet++ 每場景取樣 1,000 條軌跡,總計 320 萬條;HM3D 和 Gibson 每場景取樣 6,000 條,總計 780 萬條。具體實現細節請參考論文原文。

多視角立體重建

採用 Chamfer Distance (CD)、Normalized Distance (ND) 和 Distance Accuracy@0.2 (DAc) 作為評估指標。結果顯示:
圖片
  • MV-DUSt3R:在 HM3D 資料集上,與 DUSt3R 相比,ND 降低 1.7 至 2 倍,DAc 提升 1.2 至 5.3 倍。隨著輸入檢視數量增加,重建質量顯著提升。
  • MV-DUSt3R+:12 檢視輸入下,ND 降低 1.3 倍,DAc 提升 1.2 倍。24 檢視輸入下,ND 降低 1.6 倍,DAc 提升 1.8 倍,表現更優。
  • 零樣本測試:在 MP3D 資料集上,MV-DUSt3R 和 MV-DUSt3R+ 始終優於 DUSt3R,展現了強大的泛化能力。

多視角相機位姿估計

MV-DUSt3R 和 MV-DUSt3R+ 在相機位姿估計中顯著優於基線。
圖片
  • HM3D:MV-DUSt3R 的 mAE 相比 DUSt3R 降低 2.3 至 1.3 倍,MV-DUSt3R+ 降低 2.6 至 2.0 倍。
  • 其他資料集:MV-DUSt3R+ 始終優於 DUSt3R,表現最佳。

新檢視合成

該團隊採用了 PSNR、SSIM 和 LPIPS 來評估生成質量。
圖片
  • PSNR:MV-DUSt3R+ 在所有檢視設定下表現最佳,顯著提升重建質量。
  • SSIM:MV-DUSt3R+ 結構相似性最高,隨著檢視增加視覺保真度進一步提高。
  • LPIPS:MV-DUSt3R+ 感知誤差最低,生成的新檢視最接近真實影像。

場景重建時間

MV-DUSt3R+ 的單階段網路在 GPU 上執行,無需全域性最佳化(GO),顯著減少了重建時間。

  • MV-DUSt3R+:在 24 檢視輸入下,僅需 1.97 秒,速度比 DUSt3R 快 14 倍。
  • MV-DUSt3R:時間更短,僅需 0.35 秒,比 DUSt3R 快 78 倍。
  • DUSt3R:重建時間明顯更長,24 檢視輸入需 27.21 秒。

MV-DUSt3R+ 在不到 2 秒內即可完成大場景重建,展現出卓越的效率與實用性。
圖片
總結和開放討論

最近一年以來,三維基座模型的新工作層出不窮,包括三維重建(比如 DUSt3R, MASt3R, MASt3R-SfM)和三維生成(比如 World Labs 3D Gen, Stability AI Stable Point Aware 3D)。

這些工作在模型創新上和實際效果上都取得了令人印象深刻的進步,使得三維感知和生成技術更容易在混合現實,自動駕駛,大規模數字城市這些領域被廣泛應用。

在這些工作當中,MV-DUSt3R + 憑藉其簡潔有效的模型設計,快速的推理,不依賴於相機引數的先驗知識和顯著提高的重建質量脫穎而出,正在學界和開源社群獲得越來越廣泛的關注。

作者簡介

唐正綱:伊利諾伊大學厄巴納 - 香檳分校博士生,本科畢業於北京大學。研究方向是三維視覺,場景重建,變換和編輯。
圖片
嚴志程: Meta 高階科研研究員,博士畢業於美國伊利諾伊大學厄巴納 - 香檳分校,本科畢業於浙江大學。主要研究方向包括三維基礎模型,終端人工智慧 (On-device AI) 和混合現實。
圖片
範雨晨: Meta 科研研究員,博士畢業於美國伊利諾伊大學厄巴納 - 香檳分校。研究方向包括三維生成,影片理解和影像復原。
圖片
Dilin Wang: Meta 科研研究員,博士畢業於美國得克薩斯大學奧斯汀分校。研究方向包括場景感知和三維生成。
圖片
許弘宇:Meta 科研研究員,博士畢業於美國馬里蘭大學。研究方向包括混合現實和視覺感知。
圖片
Alexander Schwing: 副教授,現任教於美國伊利諾伊大學厄巴納 - 香檳分校,博士畢業於瑞士蘇黎世理工學院。主要研究方向包括深度學習中的預測和學習,多變數結構化分佈,以及相關應用。
圖片
Rakesh Ranjan: Meta 人工智慧研究主任(Research Director),主管混合現實和三維生成。
圖片

相關文章