幾分鐘生成四維內容,還能控制運動效果:北大、密歇根提出DG4D

机器之心發表於2024-07-08
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者潘亮博士目前是上海人工智慧實驗室的Research Scientist。此前,在2020年至2023年,他於新加坡南洋理工大學S-Lab擔任Research Fellow,指導老師為劉子緯教授。他的研究重點是計算機視覺、3D點雲和虛擬人類,並在頂級會議和期刊上發表了多篇論文,谷歌學術引用超過2700次。此外,他還多次擔任計算機視覺機器學習等領域頂級會議和期刊的審稿人。

近期,商湯科技 - 南洋理工大學聯合 AI 研究中心 S-Lab ,上海人工智慧實驗室,北京大學與密歇根大學聯合提出 DreamGaussian4D(DG4D),透過結合空間變換的顯式建模與靜態 3D Gaussian Splatting(GS)技術實現高效四維內容生成。

四維內容生成近來取得了顯著進展,但是現有方法存在最佳化時間長、運動控制能力差、細節質量低等問題。DG4D 提出了一個包含兩個主要模組的整體框架:1)影像到 4D GS - 我們首先使用 DreamGaussianHD 生成靜態 3D GS,接著基於 HexPlane 生成基於高斯形變的動態生成;2)影片到影片紋理細化 - 我們細化生成的 UV 空間紋理對映,並透過使用預訓練的影像到影片擴散模型增強其時間一致性。

值得注意的是,DG4D 將四維內容生成的最佳化時間從幾小時縮短到幾分鐘(如圖 1 所示),允許視覺上控制生成的三維運動,並支援生成可以在三維引擎中真實渲染的動畫網格模型。

圖片

  • 論文名稱: DreamGaussian4D: Generative 4D Gaussian Splatting

  • 主頁地址: https://jiawei-ren.github.io/projects/dreamgaussian4d/

  • 論文地址: https://arxiv.org/abs/2312.17142

  • Demo 地址: https://huggingface.co/spaces/jiawei011/dreamgaussian4d

圖片

圖 1. DG4D 在四分半鐘內可實現四維內容最佳化基本收斂

問題和挑戰

生成模型可以極大地簡化多樣化數字內容(如二維影像、影片和三維景物)的生產和製作,近年來取得了顯著進步。四維內容是諸如遊戲、影視等諸多下游任務的重要內容形式。四維生成內容也應支援匯入傳統圖形學渲染引擎軟體(比如,Blender 或者 Unreal Engine),以接入現有圖形學內容生產管線(見圖 2)。

儘管有一些研究致力於動態三維(即四維)生成,但四維景物的高效和高質量生成仍然存在挑戰。近年來,越來越多的研究方法透過結合影片和三維生成模型,約束任意視角下內容外觀和動作的一致性,以實現四維內容生成。

圖片

圖 2. DG4D 生成的四維內容支援匯入到傳統計算機圖形學渲染引擎中

目前主流的四維內容生成方法都基於四維動態神經輻射場(4D NeRF)表示。比如,MAV3D [1] 透過在 HexPlane [2] 上提煉文字到影片的擴散模型,實現了文字到四維內容的生成。Consistent4D [3] 引入了一個影片到四維的框架,以最佳化級聯的 DyNeRF,從靜態捕獲的影片中生成四維景物。透過多重擴散模型的先驗,Animate124 [4] 能夠透過文字運動描述將單個未處理的二維影像動畫化為三維的動態影片。基於混合 SDS [5] 技術,4D-fy [6] 使用多個預訓練擴散模型可實現引人入勝的文字到四維內容的生成。

然而,所有上述現有方法 [1,3,4,6] 生成單個 4D NeRF 都需要數個小時,這極大地限制了它們的應用潛力。此外,它們都難以有效控制或選擇最後生成的運動。以上不足主要來自以下幾個因素:首先,前述方法的底層隱式四維表示不夠高效,存在渲染速度慢和運動規律性差的問題;其次,影片 SDS 的隨機性質增加了收斂難度,並在最終結果中引入了不穩定性和多種瑕疵偽影現象。

方法介紹

與直接最佳化 4D NeRF 的方法不同,DG4D 透過結合靜態高斯潑濺技術和顯式的空間變換建模,為四維內容生成構建了一個高效和強力的表徵。此外,影片生成方法有潛力提供有價值的時空先驗,增強高質量的 4D 生成。具體而言,我們提出了一個包含兩個主要階段的整體框架:1)影像到 4D GS 的生成;2)基於影片大模型的紋理圖細化。

1. 影像到 4D GS 的生成

圖片

圖 3 圖片到 4D GS 生成框架圖

在這一階段中,我們使用靜態 3D GS 及其空間變形來表示動態的四維景物。基於一張給定的二維圖片,我們使用增強方法 DreamGaussianHD 方法生成靜態 3D GS。隨後,透過在靜態 3D GS 函式上最佳化時間依賴的變形場,估計各個時間戳處的高斯變形,旨在讓變形後的每一幀的形狀和紋理都與驅動影片裡面的對應幀盡力保持吻合。這一階段結束,將可以生成一段動態的三維網格模型序列。

圖片

圖 4 DreamGaussianHD 初始化基於 3D GS 的三維物體模型

  • DreamGaussianHD 基於近來使用 3D GS 的圖生三維物體方法 DreamGaussian [7],我們做了一些進一步的改進,整理出一套效果更佳的 3D GS 生成和初始化方法。主要改進的操作包括有 1)採取多視角的最佳化方式;2)設定最佳化過程中的渲染圖片背景為更適合生成的黑色背景。我們稱呼改進後的版本為 DreamGaussianHD,具體的改進效果圖可見圖 4。

圖片

圖 5 HexPlane 表徵動態形變場

  • Gaussian Deformation 基於生成的靜態 3D GS 模型,我們透過預測每一幀中高斯核的變形來生成符合期望影片的動態 4D GS 模型。在動態效果的表徵上,我們選用 HexPlane(如圖 5 所示)來預測每一個時間戳下高斯核位移、旋轉和比例尺度,從而驅動生成每一幀的動態模型。此外,我們也針對性地調整設計網路,尤其是對最後幾個線性操作的網路層做了殘差連線和零初始化的設計,從而可以平滑充分地基於靜態 3D GS 模型初始化動態場(效果如圖 6 所示)。

圖片

圖 6 零初始化動態形變場對最後生成效果的影響

2. 影片到影片的紋理最佳化

圖片

圖 7 影片到影片紋理最佳化框架圖

類似於 DreamGaussian,在第一階段基於 4D GS 的四維動態模型生成結束後,可以提取四維的網格模型序列。並且,我們也可以類似於 DreamGaussian 的做法,在網格模型的 UV 空間中對紋理做進一步的最佳化。不同於 DreamGaussian 只對單獨的三維網格模型使用圖片生成模型做紋理的最佳化,我們需要對整個三維網格序列做最佳化。

並且,我們發現如果沿用 DreamGaussian 的做法,即對每個三維網格序列做獨立的紋理最佳化,會導致三維網格的紋理在不同的時間戳下有不一致的生成,並且常常會有閃爍等瑕疵偽影效果出現。鑑於此,我們有別於 DreamGaussian,提出了基於影片生成大模型的影片到影片的 UV 空間下紋理最佳化方法。具體而言,我們在最佳化過程中隨機生成了一系列相機軌跡,並基於此渲染出多個影片,並對渲染出的影片做相應的加噪和去噪處理,從而實現對生成網格模型序列的紋理增強。

基於圖片生成大模型和基於影片生成大模型做的紋理最佳化效果對比展示在圖 8 中。

圖片

圖 8 基於影片到影片的紋理最佳化可以實現時序上紋理的穩定性和一致性

實驗結果

相比之前整體最佳化 4D NeRF 的方法,DG4D 顯著減少了四維內容生成所需的時間。具體的用時對比可見表 1。

圖片

表 1 四維內容生成方法用時對比

對於基於單圖生成四維內容的設定,我們跟隨之前方法的對比方式,將生成的四維內容與給定圖片的一致程度彙報在表 2 中。

圖片

表 2 基於單圖生成的四維內容與圖片的一致性對比

對於基於影片生成四維內容的設定,影片生成四維內容方法的數值結果對比可見表 3。

圖片

表 3 基於影片生成的四維內容相關方法的數值結果對比

此外,我們還對最符合我們方法的單圖生成四維內容的各個方法的生成結果做了使用者取樣測試,測試的結果彙報在表 4 中。

圖片

表 4 基於單圖生成的四維內容的使用者測試

DG4D 與現存開源 SoTA 的圖生成四維內容方法和影片生成四維內容方法的效果對比圖,分別展示在圖 9 和圖 10 中。

圖片

圖 9 圖生四維內容效果對比圖

圖片

圖 10 影片生四維內容效果對比圖

此外,我們還基於近期的直接前饋實現單圖生成 3D GS 的方法(即非使用 SDS 最佳化方法),做了靜態三維內容的生成,並基於此初始化了動態 4D GS 的生成。直接前饋生成 3D GS,可以比基於 SDS 最佳化的方法,更快地得到質量更高,也更多樣化的三維內容。基於此得到的四維內容,展示在圖 11 中。

圖片

圖 11 基於前饋生成 3D GS 的方法生成的四維動態內容

更多基於單圖生成的四維內容展示在圖 12 中。

圖片

結語

基於 4D GS,我們提出了 DreamGaussian4D(DG4D),這是一個高效的影像到 4D 生成框架。相較於現存的四維內容生成框架,DG4D 顯著將最佳化時間從幾小時縮短到幾分鐘。此外,我們展示了使用生成的影片進行驅動運動生成,實現了視覺可控的三維運動生成。

最後,DG4D 允許進行三維網格模型提取,並支援實現時序上保持連貫一致的高質量紋理最佳化。我們希望 DG4D 提出的四維內容生成框架,將促進四維內容生成方向的研究工作,並有助於多樣化的實際應用。

References

[1] Singer et al. "Text-to-4D dynamic scene generation." Proceedings of the 40th International Conference on Machine Learning. 2023.

[2] Cao et al. "Hexplane: A fast representation for dynamic scenes." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

[3] Jiang et al. "Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video." The Twelfth International Conference on Learning Representations. 2023.

[4] Zhao et al. "Animate124: Animating one image to 4d dynamic scene." arXiv preprint arXiv:2311.14603 (2023).

[5] Poole et al. "DreamFusion: Text-to-3D using 2D Diffusion." The Eleventh International Conference on Learning Representations. 2022.

[6] Bahmani, Sherwin, et al. "4d-fy: Text-to-4d generation using hybrid score distillation sampling." arXiv preprint arXiv:2311.17984 (2023).

[7] Tang et al. "DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation." The Twelfth International Conference on Learning Representations. 2023.

相關文章