ECCV 2024 | 新夢幻場景生成方法,高質量、視角一致、可編輯3D場景

机器之心發表於2024-10-07

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

資料空間研究中心是中國科學技術大學網路空間安全學院佈局建設的創新型科研平臺。中心於 2021 年 9 月 20 日正式揭牌成立,由吳曼青院士領銜、中青年教師為骨幹,聚焦從資料到網路空間(From Data to Cyberspace),以資料重構網路空間為使命,瞄準網路空間、智慧感知、大資料等領域的前沿問題,探索打造一支結構合理、優勢互補的科技力量,服務國家重大需求。

來自中國科學技術大學資料空間研究中心、香港科技大學、香港理工大學以及奧胡斯大學的研究者們提出一種新的場景生成方法 DreamScene,只需要提供場景的文字就可以生成高質量,視角一致和可編輯的 3D 場景。

圖片

圖片

圖片


  • 專案主頁:https://dreamscene-project.github.io/
  • 論文地址:https://arxiv.org/abs/2404.03575
  • 程式碼開源:https://github.com/DreamScene-Project/DreamScene

關鍵問題

基於蒸餾的文字生成 3D 方法通常採用預訓練的 2D 文字到影像模型如 Stable Diffusion 作為先驗,透過朝向物體中心的相機渲染最佳化生成物體的可微分 3D 表示。而文字生成 3D 場景方法需要從預定義的相機位置向外渲染,以生成這些有限視角的場景。

目前的文字生成 3D 場景方法(如下圖所示)面臨幾個關鍵挑戰,包括:

  • 低效的生成過程,常導致低質量的生成和較長的生成時間。
  • 不一致的 3D 場景視角,僅在有限視角下有著良好的渲染結果。
  • 無法將物體與環境分離,無法對單個物體進行靈活編輯。

圖片

技術方案

DreamScene 主要由形成模式取樣(Formation Pattern Sampling)和相機取樣 (Camera Sampling) 兩部分組成,其中形成模式取樣根據 3D 模型生成的規律由多時間步取樣(Multi-timestep Sampling)、3D 高斯過濾(3D Gaussian Filtering)以及重建式生成(Reconstructive Generation)三種操作組成;

相機取樣透過三階段的策略逐步生成 3D 環境,保證場景全域性的視角一致性。總體的演算法流程如圖所示,DreamScene 首先利用大語言模型(LLM)根據文字描述(prompt)分離出場景中的物體描述和環境描述。首先生成場景中的單個物體,DreamScene 利用 Point-E 得到相應的初始化點雲,之後使用形成模式取樣方法生成對應文字的 3D 表示;再將生成的物體根據佈局放置在對應的位置上;最後對四周環境進行生成,DreamScene 將室內場景初始化為長方體,將室外場景初始化為半球體,透過三階段最佳化,逐步最佳化遠處環境,近處地面和整體的場景。

圖片


形成模式取樣(Formation Pattern Sampling)主要使用多時間步取樣(Multi-timestep Sampling),多時間步取樣每次迭代過程中混合了多個 2D 擴散模型時間步長提供的指導資訊,而這些時間步長透過在一個線性遞減的滑動視窗上進行分層抽樣得到,這種最佳化策略不僅保證了在最佳化過程中對 3D 內容的形狀約束,同時可以豐富語義資訊。

此外,生成的過量 3D 高斯會阻礙最佳化過程,因此 DreamScene 使用 3D 高斯過濾(3D Gaussian Filtering)在最佳化過程中過濾掉冗餘的 3D 高斯,保留距離渲染平面較近且體積較大的 3D 高斯。在最佳化的後期階段,使用較小步長 t 的資訊可以提供一致但是精細紋理的資訊,所以 DreamScene 使用重建式生成(Reconstructive Generation)方法來加速生成 3D 內容的合理表面紋理。

圖片

對於場景中的環境,DreamScene 使用一個漸進式的三階段相機取樣(Camera Sampling)策略最佳化環境生成。在相機取樣的第一階段,DreamScene 在場景中心的一定範圍內進行相機位姿采樣以生成周圍環境(室內的牆壁、室外遠處環境)的粗略表示(MTS 指導最佳化);在第二階段,DreamScene 透過取樣一些特定區域的相機位姿來生成粗糙的地面,並且會盡可能保證地面與周圍環境接觸部分的連貫性;在第三階段,DreamScene 使用在前兩階段中所有的相機位姿來最佳化所有的的環境元素(MTS 指導最佳化),之後使用 3D 重建的方法以獲得更合理的紋理和細節。

實驗評估

對比試驗 下圖展示了 DreamScene 場景生成的定性對比實驗,上半部分影像採用生成時出現的相機位姿渲染的,下圖是在場景中隨機選擇的相機位姿渲染的。我們可以看到,Text2Room 和 Text2NeRF 只能在生成過程中遇到的相機位姿下生成令人滿意的結果,DreamScene 實現了最佳的 3D 一致性,同時有著很高的生成質量。

圖片

下圖展示了形成模式取樣可以在短時間內根據文字提示生成高質量的 3D 表示,DreamGaussian 的速度更快但生成質量太低。

圖片


作者計算了環境生成階段的生成時間。如下表的左側顯示,具有編輯功能的環境生成方法中 DreamScene 的時間最短,右側顯示了使用者研究,其中 DreamScene 在一致性和合理性方面明顯優於其他 SOTA 方法,生成質量最高。

圖片

一致性 如下圖所示 DreamScene 的生成結果在較高生成質量的同時,保證了較好的 3D 一致性。

圖片

編輯性 DreamScene 可以新增或刪除物件或者透過調整物件的仿射變數的值來重新設計其在場景中的位置。在進行這些編輯時,使用者需要在物體的原始位置和新位置重新取樣相機姿勢,重新最佳化地面和周圍方向。此外,使用者還可以改變文字提示來改變場景中的環境或物件的樣式。

圖片


消融實驗 在 “A DSLR photo of Iron Man” 提示下,經過 30 分鐘最佳化後的結果。如下圖所示,與 DreamTime 和 DreamFusion 中提到的分數蒸餾取樣 (SDS) 相比,多時間步取樣形成了更好的幾何結構和紋理。形成模式取樣是在多時間步取樣的基礎上建立起來的,採用重建式生成的方法來建立更加合理的紋理結構,在指導 3D 內容最佳化方面十分具有優越性。

圖片

總結

本文介紹了一種新穎的文字到 3D 場景生成策略 DreamScene。透過生成模式取樣和相機取樣策略,將物體和環境整合在一起,解決了目前文字到 3D 場景生成方法中存在的低效、不一致和可編輯性有限等問題。廣泛的實驗證明,DreamScene 是三維場景生成領域的一項里程碑式成就,在眾多領域,如遊戲、影視和房屋設計中有著巨大的應用潛力。

ECCV 2024 | 新夢幻場景生成方法,高質量、視角一致、可編輯3D場景

ECCV 2024 | 新夢幻場景生成方法,高質量、視角一致、可編輯3D場景ECCV 2024 | 新夢幻場景生成方法,高質量、視角一致、可編輯3D場景

相關文章