高質量3D生成最有希望的一集?GaussianCube在三維生成中全面超越NeRF

机器之心發表於2024-06-16
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


在三維生成建模的研究領域,現行的兩大類 3D 表示方法要麼基於擬合能力不足的隱式解碼器,要麼缺乏清晰定義的空間結構難以與主流的 3D 擴散技術融合。來自中科大、清華和微軟亞洲研究院的研究人員提出了 GaussianCube,這是一種具有強大擬合能力的顯式結構化三維表示,並且可以無縫應用於目前主流的 3D 擴散模型中。

GaussianCube 首先採用一種新穎的密度約束高斯擬合演算法,該演算法能夠對 3D 資產進行高精度擬合,同時確保使用固定數量的自由高斯。隨後,藉助最優傳輸演算法,這些高斯被重新排列到一個預定義的體素網格之中。得益於 GaussianCube 的結構化特性,研究者無需複雜的網路設計就能直接應用標準的 3D U-Net 作為擴散建模的主幹網路。

更為關鍵的是,本文提出的新型擬合演算法極大地增強了表示的緊湊性,在 3D 表示擬合質量相似的情況下所需的引數量僅是傳統結構化表示所需引數量的十分之一或百分之一。這種緊湊性大幅降低了 3D 生成建模的複雜性。研究人員在無條件和條件性 3D 物件生成、數字化身建立以及文字到 3D 內容合成等多個方面開展了廣泛的實驗。

數值結果表明,GaussianCube 相較之前的基線演算法實現了最高達 74% 的效能提升。如下所示,GaussianCube 不僅能夠生成高質量的三維資產,而且還提供了極具吸引力的視覺效果,充分證明了其作為 3D 生成通用表示的巨大潛力。

圖片

圖 1. 無條件生成的結果。本文的方法可以生成高質量、多樣化的三維模型。

圖片 圖 2. 基於輸入肖像進行數字化身建立的結果。本文的方法可以極大程度上保留輸入肖像的身份特徵資訊,並且提供細緻的髮型、服裝建模。圖片

圖 3. 基於輸入文字建立三維資產的結果。本文的方法可以輸出與文字資訊一致的結果,並且可以建模複雜的幾何結構和細節材質。

圖片

圖 4. 類別條件生成的結果。本文生成的三維資產語義明確,具有高質量的幾何結構和材質。

圖片

  • 論文名稱:GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling
  • 專案主頁:https://gaussiancube.github.io/
  • 論文連結:https://arxiv.org/pdf/2403.19655
  • 程式碼開源:https://github.com/GaussianCube/GaussianCube
  • 演示影片:https://www.bilibili.com/video/BV1zy411h7wB/

都什麼年代了
還在用傳統 NeRF 進行三維生成建模?

大多數先前的 3D 生成建模工作都使用了 Neural Radiance Field (NeRF) 的變體作為其底層的 3D 表示,這些表示通常結合了一個顯式的結構化特徵表示和一個隱式的特徵解碼器。然而在三維生成建模中,所有三維物體不得不共享同一個隱式特徵解碼器,這種做法在很大程度上削弱了 NeRF 的擬合能力。此外,NeRF 所依賴的體渲染技術具有非常高的計算複雜性,這導致了渲染速度緩慢,更需要消耗極高的 GPU 記憶體。近期,另一種三維表示方法高斯濺射(3D Gaussian Splatting,簡稱 3DGS)備受矚目。雖然 3DGS 擬合能力強大、計算效能高效,還具備完全顯式的特性,在三維重建任務中得到了廣泛應用。但是,3DGS 缺乏一個明確定義的空間結構,這使得其在無法直接應用於目前主流生成建模框架中。

因此,研究團隊提出了 GaussianCube。這是一種創新的三維表示方法,它既結構化又完全顯式,具備強大的擬合能力。本文介紹的方法首先確保透過固定數量的自由高斯實現高精度的擬合,然後將這些高斯有效地組織到一個結構化的體素網格中。這種顯式且結構化的表示方法讓研究者能夠無縫地採用標準的 3D 網路架構,例如 U-Net,無需進行使用非結構化或隱式解碼錶示時所需的複雜和定製化的網路設計。

同時,透過最優傳輸演算法進行的結構化組織最大程度地保持了相鄰高斯核之間的空間結構關係,使得研究者僅使用經典的 3D 卷積網路就能高效地提取特徵。更為關鍵的是,鑑於先前研究中的發現,擴散模型在處理高維資料分佈時表現不佳,本文提出的 GaussianCube 在保持高質量重建的同時,顯著減少了所需的引數量,極大地緩解了擴散模型在分佈建模上的壓力,為 3D 生成建模領域帶來了顯著的建模能力和效率提升。

方法

圖片

圖 5. GaussianCube 框架總覽

本文的框架包括兩個主要階段:表示構建和三維擴散。在表示構建階段,給定三維資產的多視角渲染圖,對其進行密度約束的高斯擬合,以獲得具有固定數量的三維高斯。隨後,透過最最佳化傳輸將三維高斯結構化為 GaussianCube。在三維擴散階段,研究人員對三維擴散模型進行訓練,以便從高斯噪聲中生成 GaussianCube。

圖片

圖 6. 密度約束的高斯擬合演算法示意圖

在表示構建階段,研究人員需要為每個三維資產建立適合生成建模的表示。考慮到生成領域往往需要建模的資料有統一的固定長度,而原始 3DGS 擬合演算法中的自適應密度控制會導致擬合不同物體所使用的高斯核數量不同,這給生成建模帶來了極大挑戰。一種非常簡單的解決方案是直接去除自適應密度控制,但研究人員發現這會嚴重降低擬合的精度。本文提出了一種新穎的密度約束擬合演算法,保留原始自適應密度控制中的剪枝操作,但對其中的分裂和克隆操作進行了新的約束處理。

具體來說,假設當前迭代包括圖片個高斯,研究人員透過選擇那些在視角空間位置梯度幅度超過預定義閾值 τ 的高斯來識別分裂或克隆操作的候選物件,這些候選物件的數量記為圖片。為了防止超出預定義的最大值圖片個高斯,從候選物件中選擇圖片個具有最大視角空間位置梯度的高斯進行分裂或克隆。在完成擬合過程後,研究人員用 α=0 的高斯填充以達到目標計數圖片而不影響渲染結果。得益於此策略,可以實現了與類似質量的現有工作相比引數量減少了幾個量級的高質量表示,顯著降低了擴散模型的建模難度。

圖片

圖 7. 密度約束的高斯擬合演算法示意圖

儘管如此,透過上述擬合演算法得到的高斯仍然沒有明確的空間排列結構,這使得後續的擴散模型無法高效地對資料進行建模。為此,研究人員提出將高斯對映到預定義的結構化體素網格中來使得高斯具有明確的空間結構。直觀地說,這一步的目標是在儘可能保持高斯的空間相鄰關係的同時,將每個高斯 “移動” 到一個體素中。

研究人員將其建模為一個最優傳輸問題,使用 Jonker-Volgenant 演算法來得到對應的對映關係,進而根據最優傳輸的解來組織將高斯組織到對應的體素中得到 GaussianCube,並且用當前體素中心的偏移量替換了原始高斯的位置,以減少擴散模型的解空間。最終的 GaussianCube 表示不僅結構化,而且最大程度上保持了相鄰高斯之間的結構關係,這為 3D 生成建模的高效特徵提取提供了強有力的支援。

在三維擴散階段,本文使用三維擴散模型來建模 GaussianCube 的分佈。得益於 GaussianCube 在空間上的結構化組織關係,無需複雜的網路或訓練設計,標準的 3D 卷積足以有效提取和聚合鄰近高斯的特徵。於是,研究者利用了標準的 U-Net 網路進行擴散,並直接地將原始的 2D 運算子(包括卷積、注意力、上取樣和下采樣)替換為它們的 3D 實現。

本文的三維擴散模型也支援多種條件訊號來控制生成過程,包括類別標籤條件生成、根據影像條件建立數字化身和根據文字生成三維數字資產。基於多模態條件的生成能力極大地擴充套件了模型的應用範圍,併為未來的 3D 內容創造提供了強大的工具。

實驗結果

研究人員首先在 ShapeNet Car 資料集上驗證了 GaussianCube 的擬合能力。實驗結果表明,與基線方法相比,GaussianCube 可以以最快的速度和最少的引數量實現高精度的三維物體擬合。

圖片

表 1. 在 ShapeNet Car 上不同的三維表示關於空間結構、擬合質量、相對擬合速度、使用引數量的數值比較。表示不同物體共享隱式特徵解碼器。所有方法均以 30K 次迭代進行評估。

圖片

圖 8. 在 ShapeNet Car 上不同的三維表示擬合能力的視覺比較。∗ 表示不同物體共享隱式特徵解碼器。所有方法均以 30K 次迭代進行評估。

研究人員其次在大量資料集上驗證了基於 GaussianCube 的擴散模型的生成能力,包括 ShapeNet、OmniObject3D、合成數字化身資料集和 Objaverse 資料集。實驗結果表明,本文的模型在無條件和類別條件的物件生成、數字化身建立以及文字到 3D 合成從數值指標到視覺質量都取得了領先的結果。特別地,GaussianCube 相較之前的基線演算法實現了最高達 74% 的效能提升。

圖片

表 2. 在 ShapeNet Car、Chair 上進行無條件生成和在 OmniObject3D 上進行類別條件生成的定量比較。

圖片

圖 9. 在 ShapeNet Car、Chair 上進行無條件生成的定性比較。本文的方法可以生成精確幾何和細節材質。

圖片

圖 10. 在 OmniObject3D 上進行類別條件生成的定性比較。本文方法可以生成明確語義的複雜物體。

圖片

表 3. 基於輸入肖像進行數字化身建立的定量比較。

圖片

圖 11. 基於輸入肖像進行數字化身建立的定性比較。本文的方法能夠更準確地還原輸入肖像的身份特徵、表情、配飾和頭髮細節。

圖片

表 4. 基於輸入文字建立三維資產的定量比較。推理時間使用單張 A100 進行測試。Shap-E 和 LGM 與本文方法取得了相似的 CLIP Score,但它們分別使用了數百萬的訓練資料(本文僅使用十萬三維資料訓練),和二維文生圖擴散模型先驗。

圖片

圖 12. 基於輸入文字建立三維資產的定性比較。本文的方法可以根據輸入文字實現高質量三維資產生成。

相關文章