ICML 2024|複雜組合3D場景生成,LLMs對話式3D可控生成編輯框架來了

机器之心發表於2024-07-31
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

該論文的第一作者和通訊作者均來自北京大學王選計算機研究所的 VDIG (Visual Data Interpreting and Generation) 實驗室,第一作者為博士生周嘯宇,通訊作者為博士生導師王勇濤。VDIG 實驗室近年來在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等頂會上有多項代表性成果發表,多次榮獲國內外 CV 領域重量級競賽的冠亞軍獎項,和國內外知名高校、科研機構廣泛開展合作。

近年來,針對單個物體的 Text-to-3D 方法取得了一系列突破性進展,但是從文字生成可控的、高質量的複雜多物體 3D 場景仍然面臨巨大挑戰。之前的方法在生成場景的複雜度、幾何質量、紋理一致性、多物體互動關係、可控性和編輯性等方面均存在較大缺陷。

最近,來自北京大學王選計算機研究所的 VDIG 研究團隊與其合作者公佈了最新研究成果 GALA3D。針對多物體複雜 3D 場景生成,該工作提出了 LLM 引導的複雜三維場景可控生成框架 GALA3D,能夠生成高質量、高一致性、具有多物體和複雜互動關係的 3D 場景,支援對話式互動的可控編輯,論文已被 ICML 2024 錄用。

圖片

  • 論文標題:GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting

  • 論文連結:https://arxiv.org/pdf/2402.07207

  • 論文程式碼:https://github.com/VDIGPKU/GALA3D

  • 專案網站:https://gala3d.github.io/

圖片

GALA3D 是一個高質量的 Text-to-3D 複雜組合場景生成與可控編輯框架。使用者輸入一段描述文字,GALA3D 能夠 zero-shot 地生成相應的具有多物體和複雜互動關係的三維場景。GALA3D 在保證生成 3D 場景與文字高度對齊的同時,展現了其在生成場景質量、多物體複雜互動、場景幾何一致性等方面的卓越效能。此外,GALA3D 還支援使用者友好的端到端生成和可控編輯,使得普通使用者能夠在對話式的交談中輕鬆定製和編輯 3D 場景。在與使用者的交流中,GALA3D 可以精準地實現複雜三維場景對話式的可控編輯,並根據使用者的對話實現複雜三維場景的佈局變換、數字資產嵌入、裝修風格改變等多樣化的可控編輯需求。

方法介紹

GALA3D 的整體架構如下圖所示:

圖片

GALA3D 利用大型語言模型(LLMs)生成初始佈局,並提出佈局引導的生成式 3D 高斯表示構建複雜 3D 場景。GALA3D 設計透過自適應幾何控制最佳化 3D 高斯的形狀和分佈,以生成具有一致幾何、紋理、比例和精確互動的 3D 場景。此外,GALA3D 還提出了一種組合最佳化機制,結合條件擴散先驗和文生圖模型,協作生成具有一致風格的 3D 多物體場景,同時迭代最佳化從 LLMs 提取的初始佈局先驗,以獲得更加逼真準確的真實場景空間佈局。廣泛的定量實驗和定性研究表明 GALA3D 在文字到複雜三維場景生成方面取得了顯著效果,超越現有文生 3D 場景方法。

a、基於 LLMs 的場景佈局先驗

大語言模型展現了優異的自然語言理解和推理能力,本文進一步探索了 LLMs 大語言模型在 3D 複雜場景的推理和佈局生成能力。如何在沒有人工設計的情況下獲得相對合理的佈局先驗有助於減少場景建模和生成的代價。對此,我們使用 LLMs (例如 GPT-3.5) 對文字輸入的例項及其空間關係進行抽取,並生成相應的 Layout 佈局先驗。然而,透過 LLMs 解讀的場景 3D 空間佈局和 Layout 先驗與實際場景存在一定差距,通常表現生成懸浮 / 穿模的物體,比例差異過大的物體組合等。進一步地,我們提出了 Layout Refinement 模組,透過基於視覺的 Diffusion 先驗和 Layout 引導的生成式 3D 高斯對上述生成的粗糙佈局先驗進行調整和最佳化。

b、Layout Refinement

GALA3D 使用基於 Diffusion 先驗的 Layout 佈局最佳化模組對上述 LLMs 生成的佈局先驗進行最佳化。具體地,我們將 Layout 引導的 3D 高斯空間佈局的梯度最佳化加入 3D 生成過程,透過 ControlNet 對 LLM-generated Layouts 進行空間位置、旋轉角度和尺寸比例的調整,如圖展示了最佳化前後 3D 場景和 Layout 的對應關係。經過最佳化的 Layout 具有更加準確的空間位置和比例尺度,並且使得 3D 場景中多物體的互動關係更加合理。

圖片

c、佈局引導的生成式 3D 高斯表示

我們首次將 3D-Layout 約束引入 3D 高斯表示,提出了佈局引導的生成式 3D 高斯,用於複雜文生 3D 場景。Layout-guided 3D 高斯表示包含多個語義抽取的例項物體,其中每個例項物體的 Layout 先驗可以引數化為:

圖片

其中,N 代表場景中例項物體的總數。具體地,每一個例項 3D 高斯透過自適應幾何控制進行最佳化,得到例項級的物體 3D 高斯表示。進一步地,我們將多個物體高斯根據相對位置關係組合到全場景中,生成佈局引導的全域性 3D 高斯並透過全域性 Gaussian Splatting 渲染整個場景。

d、自適應幾何控制

為了更好地控制 3D 高斯在生成過程中的空間分佈和幾何形狀,我們提出了針對生成式 3D 高斯的自適應幾何控制方法。首先給定一組初始高斯,為了將 3D 高斯約束在 Layout 範圍內,GALA3D 使用一組密度分佈函式來約束高斯橢球的空間位置。我們接著對 Layout 表面附近的高斯進行取樣來擬合分佈函式。之後,我們提出使用形狀正則化控制 3D 高斯的幾何形狀。在 3D 生成的過程中,自適應幾何控制不斷最佳化高斯的分佈和幾何,從而生成更具紋理細節和規範幾何的 3D 多物體與場景。自適應幾何控制還保證了佈局引導的生成式 3D 高斯具有更高的可控性和一致性。

實驗結果

與現有 Text-to-3D 生成方法相比,GALA3D 展現了更加優異的 3D 場景生成質量和一致性,定量實驗結果如下表所示:

圖片

我們還進行了廣泛且有效的使用者調研,邀請 125 位參與者(其中 39.2% 為相關領域的專家和從業人員)對本文方法和現有方法的生成場景進行多角度評估,結果如下表所示:

圖片

實驗結果表明 GALA3D 在生成場景質量、幾何保真度、文字一致性、場景一致性等多維度的測評指標中均超越現有方法,取得了最優的生成質量。

如下圖定性實驗結果所示,GALA3D 能夠 zero-shot 地生成複雜多物體組合 3D 場景,並且具有良好的一致性:

圖片

下圖展示了 GALA3D 能夠支援使用者友好的、對話式的可控生成和編輯:

圖片

更多研究細節,可參考原論文。

相關文章