單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效

机器之心發表於2025-01-07

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的主要作者來自多倫多大學、Snap Inc.和UCLA的研究團隊。第一作者為多倫多大學博士生梁漢文和Snap Inc.的曹軍力,他們專注於影片生成以及3D/4D場景生成與重建的研究,致力於創造更加真實、高質量的3D和4D場景。團隊成員期待與更多志同道合的研究者們交流與合作。

在人類的認知中,從單張影像中感知並想象三維世界是一項天然的能力。我們能直觀地估算距離、形狀,猜想被遮擋區域的幾何資訊。然而,將這一複雜的認知過程賦予機器卻充滿挑戰。最近,來自多倫多大學、Snap Inc. 和 UCLA 的研究團隊推出了全新的模型 ——Wonderland,它能夠從單張影像生成高質量、廣範圍的 3D 場景,在單檢視 3D 場景生成領域取得了突破性進展。

圖片

  • 論文地址: https://arxiv.org/abs/2412.12091

  • 專案主頁:https://snap-research.github.io/wonderland/

圖片
技術突破:從單張影像到三維世界的關鍵創新

傳統的 3D 重建技術往往依賴於多視角資料或逐個場景 (per-scene) 的最佳化,且在處理背景和不可見區域時容易失真。為解決這些問題,Wonderland 創新性地結合影片生成模型和大規模 3D 重建模型,實現了高效高質量的大規模 3D 場景生成:

  1. 向影片擴散模型中嵌入 3D 意識:透過向影片擴散模型中引入相機位姿控制,Wonderland 在影片 latent 空間中嵌入了場景的多視角資訊,並能保證 3D 一致性。影片生成模型在相機運動軌跡的精準控制下,將單張影像擴充套件為包含豐富空間關係的多視角影片。

  2. 雙分支相機控制機制:利用 ControlNet 和 LoRA 模組,Wonderland 實現了在影片生成過程中對於豐富的相機視角變化的精確控制,顯著提升了多視角生成的影片質量、幾何一致性和靜態特徵。

  3. 大規模 latent-based 3D 重建模型(LaLRM):Wonderland 創新地引入了 3D 重建模型 LaLRM,利用影片生成模型生成的 latent 直接重構 3D 場景(feed-forward reconstruction)。重建模型的訓練採用了高效的逐步訓練策略,將影片 latent 空間中的資訊轉化為 3D 高斯點分佈(3D Gaussian Splatting, 3DGS),顯著降低了記憶體需求和重建時間成本。憑藉這種設計,LaLRM 能夠有效地將生成和重建任務對齊,同時在影像空間與三維空間之間建立了橋樑,實現了更加高效且一致的廣闊 3D 場景構建。

效果展示 — 影片生成

基於單張圖和 camera condition,實現影片生成的精準視角控制:單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效
Camera-guided 影片生成模型可以精確地遵循軌跡的條件,生成 3D-geometry 一致的高質量影片,並具有很強的泛化性,可以遵循各種複雜的軌跡,並適用於各種風格的輸入圖片。

更多的例子:

不同的輸入圖片,同樣的三條相機軌跡,生成的影片:

圖片

圖片單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效圖片單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效
給定輸入圖片和多條相機軌跡,生成影片可以深度地探索場景:
圖片
圖片
圖片

圖片

效果展示 —3D 場景生成

基於單張圖,利用 LaLRM, Wonderland 可以生成高質量的、廣闊的 3D 場景:

(以下展示均為從建立的3DGS Rendering出的結果)

圖片
圖片
圖片
圖片
基於單張圖和多條相機軌跡,Wonderland 可以深度探索和生成高質量的、廣闊的 3D 場景:單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效單張影像探索3D奇境:Wonderland讓高質量3D場景生成更高效
卓越效能:在視覺質量和生成效率等多個維度上表現卓越

Wonderland 的主要特點在於其精確的視角控制、卓越的場景生成質量、生成的高效性和廣泛的適用性。實驗結果顯示,該模型在多個資料集上的表現超越現有方法,包括影片生成的視角控制、影片生成的視覺質量、3D 重建的幾何一致性和渲染的影像質量、以及端到端的生成速度均取得了優異的表現:
  1. 雙分支相機條件策略:透過引入雙分支相機條件控制策略,影片擴散模型能夠生成 3D-geometry 一致的多檢視場景捕捉,且相較於現有方法達到了更精確的姿態控制。

  2. Zero-shot 3D 場景生成:在單影像輸入的前提下,Wonderland 可進行高效的 3D 場景前向重建,在多個基準資料集(例如 RealEstate10K、DL3DV 和 Tanks-and-Temples)上的 3D 場景重建質量均優於現有方法。

  3. 廣覆蓋場景生成能力:與過去的 3D 前向重建通常受限於小視角範圍或者物體級別的重建不同,Wonderland 能夠高效生成廣範圍的複雜場景。其生成的 3D 場景不僅具備高度的幾何一致性,還具有很強的泛化性,能處理 out-of-domain 的場景。

  4. 超高效率:在單張影像輸入的問題設定下,利用單張 A100,Wonderland 僅需約 5 分鐘即可生成完整的 3D 場景。這一速度相比需要 16 分鐘的 Cat3D 提升了 3.2 倍,相較需要 3 小時的 ZeroNVS 更是提升了 36 倍。

應用場景:影片和 3D 場景內容創作的新工具

Wonderland 的出現為影片和 3D 場景的創作提供了一種嶄新的解決方案。在建築設計、虛擬現實、影視特效以及遊戲開發等領域,該技術展現了廣闊的應用潛力。透過其精準的影片位姿控制和具備廣視角、高畫質晰度的 3D 場景生成能力,Wonderland 能夠滿足複雜場景中對高質量內容的需求,為創作者帶來更多可能性。

未來展望

儘管模型表現優異,Wonderland 研發團隊深知仍有許多值得提升和探索的方向。例如,進一步最佳化對動態場景的適配能力、提升對真實場景細節的還原度等,都是未來努力的重點。希望透過不斷改進和完善,讓這一研發思路不僅推動單檢視 3D 場景生成技術的進步,也能為影片生成與 3D 技術在實際應用中的廣泛普及貢獻力量。

相關文章