ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經場、秒級生成

机器之心發表於2024-08-26
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

論文一作蘭宇時為南洋理工大學(NTU)博士生,導師為 Chen Change Loy。本科畢業於北京郵電大學,目前主要研究興趣為基於神經渲染的 3D 生成模型、3D 重建與編輯。

在 ECCV 2024 中,來自南洋理工大學 S-Lab、上海 AI Lab 以及北京大學的研究者提出了一種原生 3D LDM 生成框架。具體來講,他們針對現有原生 3D 生成模型可擴充性差、訓練效率低、泛化性較差等問題,提出一種基於 3D VAE 和 3D-DiT 的兩階段通用 3D 生成框架 Latent Neural fields 3D Diffusion (LN3Diff)。該方法在 Objaverse 資料集上進行了大規模訓練,並在多個基準測試中取得了優異成績,並擁有更快的推理速度。

圖片

  • 論文專案主頁: https://nirvanalan.github.io/projects/ln3diff/
  • 論文程式碼: https://github.com/NIRVANALAN/LN3Diff
  • Gradio demo 地址: https://huggingface.co/spaces/yslan/LN3Diff_I23D
  • 個人主頁: https://nirvanalan.github.io/
  • 論文標題: LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

研究背景

近年來,以可微渲染和生成模型為核心的神經渲染技術 (Neural Rendering) 取得了很大的進展,並在新視角合成、3D 編輯和 3D 物體生成上取得了非常好的效果。然而,相較於統一圖片 / 影片生成的 LDM 框架,基於 diffusion 模型的原生 3D 生成模型依然缺少通用的框架。

目前基於 SDS 蒸餾的方法受限於最佳化時長和飽和度較高的問題,而基於多視圖生成 + Feedforward 重建的兩階段方法受限於多視圖生成效果與多樣性。這些限制極大地制約了 3D AIGC 的效能與自由度。

為了解決上述問題,研究者提出將基於 LDM (Latent Diffusion Model) 的原生生成框架引入 3D 生成,透過在 3D 隱空間直接進行 diffusion 取樣來實現高效、高質量的 3D 資產生成

圖片

方法效果圖
方法

圖片

方法概覽圖

儘管之前的工作也嘗試使用 LDM 直接進行 3D 生成,但受制於可擴充性、生成效率與在大資料上的泛化能力,並沒有成為主流的 3D 生成方案。

因此,研究者提出 Latent Neural fields 3D Diffusion (LN3Diff),一種適用於任意 Neural Fields 的通用 3D 生成框架,以實現高效、高質量、可控的 3D 生成。

3D-aware VAE : 高效資訊壓縮

首先,和圖片 / 影片生成模型類似,3D 隱空間生成模型需要與之適配的 VAE 模型來實現高效的資訊壓縮。為了更好地相容 3D 模態,相較於直接使用 SD VAE 模型來進行資訊編碼,本文選擇在大規模 3D 資料上重新訓練 3D-aware VAE 模型。

在編碼器端,研究者選擇 3D 物體的多檢視 (multi-view images) 作為 3D VAE 的輸入形式,以保留紋理建模能力並更好地相容 2D 影像編碼器的結構。同時將多檢視影像、對應的深度圖以及 Plucker 相機資訊作為模型輸入,並在 token 空間進行 3D-aware attention 運算以實現更好地 3D 一致性。

在解碼器端,為了實現更優的資訊壓縮,研究者使用基於 3D-DiT 的 VAE 解碼器。為了更好地支援 3D-aware 操作,在 3D-DiT 解碼器端提出 Self-plane attention 與 Cross-plane attention 來使用注意力運算在 token 空間提升 3D-aware 表達能力。隨後,3D-DiT 解碼器輸出的 tokens 會逐步上取樣為 tri-plane, 並渲染成多檢視來進行目標函式計算:

圖片

其中圖片為多檢視重建損失,圖片為 VAE KL 約束,圖片為物體表面幾何平滑約束,圖片用於提升 3D 材質真實性。在實驗資料上,研究者使用目前最大規模的開源 3D 資料集 Objaverse 來進行 VAE 訓練,並公佈了 DiT-L/2 尺寸的 VAE 預訓練模型供使用者使用。

DiT-based 3D Latent Diffusion Model: 通用 3D 生成框架

在第二階段,研究者在訓練完成的 3D VAE space 上進行 conditional 的 diffusion 訓練。得益於 3D-VAE 強大的壓縮效能與隱空間的通用性,他們可以直接在壓縮得到的 3D latent space 上使用成熟的 conditional latent diffusion model 框架進行訓練。

在 ShapeNet 等較小規模資料集上,研究者使用 U-Net 模型結構進行 image-conditioned 訓練;在較大規模的 Objaverse 資料集上,研究者使用 3D-aware DiT 模型進行 image-condition 和 text-condition 兩個版本的模型訓練。得益於 3D latent space 高效的表達能力,使用有限的計算資源 (4xA100 80GB) 便可以實現高質量的 3D diffusion 訓練,並將模型尺寸 scale up 至 DiT-L/2。

圖片

實驗

資料集 ShapeNet 對比

為了與目前 3D 生成方法進行公平對比,研究者同時選擇了小規模資料集 ShapeNet 與大規模通用 3D 資料集 Objaverse 進行試驗。

結果顯示,在資料集 ShapeNet 的三個子類上,本文方法在各項指標均取得了 SoTA 的效能。相比於目前 unconditional 的生成方法,本文方法同時支援 text/image conditioned 生成。

圖片

以文字為條件的 Objaverse 3D 生成

在大規模 3D 資料集 Objaverse 上,本文基於 DiT 的 3D 生成模型支援從文字描述直接生成豐富、帶有細節紋理的高質量 3D 資產,並支援 textured-mesh 的匯出。得益於原生 3D diffusion 框架的支援,生成過程僅需數秒即可完成。

圖片

在數值指標上,LN3Diff 同樣優於目前最優的原生 text-conditioned 3D 生成方法。

圖片

以影像為條件的 Objaverse 3D 生成

考慮到 3D 內容創作更多采用圖片作為參考,本文方法同樣支援在給定單目圖片條件下實現高質量 3D 生成。相比於多視圖生成 + 重建的兩階段方法,本文方法在 3D 生成效果、多樣性以及 3D 一致性上有更穩定的表現:

模型輸入 (single image condition):

圖片

模型輸出:

圖片

圖片

圖片

模型實現 / 開源

目前專案所有模型和測試 / 訓練程式碼均已全面開源至 Github/Huggingface, 並支援多卡、自動混合精度訓練、flash-attention 以及 BF16 等加速技巧。

相關文章