神筆馬良畫出三維世界,基於線稿的3D生成編輯方法SketchDream來了

机器之心發表於2024-05-31
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本論文作者是中國科學院計算技術研究所高林老師及其博士生劉鋒林,香港城市大學傅紅波老師,卡迪夫大學來煜坤老師。該項研究工作受到國家自然科學基金委、北京市自然科學基金委、北京市科學技術委員會的資助,由資訊高鐵智算算力網平臺提供算力支援。

基於人工智慧的數字內容生成,即 AIGC 在二維影像生成領域取得了很大的成功,但在三維生成方面仍存在挑戰。智慧化生成三維模型在 AR/VR、工業設計、建築設計和遊戲影視等方面都有應用價值,現有的智慧化三維生成方法已經可以生成高質量的三維模型,但如何對生成結果進行精確控制,並對真實模型或生成的模型進行細節的修改,從而讓使用者自由定製高質量的三維模型仍然是一個待解決的問題。

近期,一篇題為《SketchDream: Sketch-based Text-to-3D Generation and Editing》的論文提出了基於線稿和文字的三維內容生成和編輯方法 SketchDream [1],論文發表在 SIGGRAPH 2024,並被收錄於圖形學頂級期刊 ACM Transactions on Graphics。這個 3D AIGC 工作助你成為神筆馬良,透過畫筆畫出三維世界,已入選 SIGGRAPH 精選亮點工作宣傳片。

圖片

  • 論文:SketchDream: Sketch-based Text-to-3D Generation and Editing
  • 論文地址:https://arxiv.org/pdf/2405.06461
  • 專案主頁:http://www.geometrylearning.com/SketchDream/

使用該系統,即使使用者不會使用複雜的三維軟體,也可以基於線稿自由創作三維內容,並對真實的模型進行修改和編輯。先來看看使用 SketchDream 創作的模型的效果:神筆馬良畫出三維世界,基於線稿的3D生成編輯方法SketchDream來了 圖 1 基於 SketchDream 的三維生成效果 神筆馬良畫出三維世界,基於線稿的3D生成編輯方法SketchDream來了 圖 2 基於 SketchDream 的三維編輯效果

背景

最近,AI 繪畫非常火爆,基於 Stable Diffusion [2] 和 ControlNet [3] 等方法,透過指定文字可以生成高真實感的二維影像。最新的影片生成方法 Sora [4],已經可以基於文字生成高質量影視級的影片。但是,上述工作無法直接生成高質量的三維模型,更無法對現有的三維模型進行編輯和修改。

針對上述問題,DreamFusion [5] 提出了 Score Distillation Sampling (SDS) 的方法,利用二維影像的 Diffusion model 生成模型最佳化神經輻射場,基於文字合成任意類別的高質量的三維模型。後續一系列工作 [6][7][8] 對該方法進行了改進,提升了生成的三維模型的質量,並使生成的過程更加穩定。但是,僅僅基於文字,難以實現對幾何細節的控制,例如物體的形狀和輪廓,不同的元件的形狀和位置等。為了提高可控性,許多方法 [9][10] 使用額外的影像作為輸入,生成高質量的模型,但使用者依然需要提前獲取合適的影像。

除了三維內容生成,如何對已有的三維模型進行再創作,即對真實的三維模型進行修改和編輯也是非常重要的問題。Vox-e [11] 和 DreamEditor [12] 根據文字自適應的確定三維編輯區域,再實現基於文字的編輯效果。為了實現更精細的控制,SKED [13] 使用線稿編輯三維模型,但如何處理複雜編輯情景仍然較為困難。

線稿作為一種使用者友好的互動方法,被廣泛用於三維建模。藝術家們通常會先繪製物體的線稿,再進一步使用專業軟體進行建模。然而,直接使用線稿生成高質量的三維物體存在下述挑戰:首先,線稿風格多樣且過於稀疏,很難使用單視角的線稿約束三維物體的生成;其次,二維線稿只包含了單視角的資訊,如何解決歧義性,生成側面和背面區域較為困難。基於線稿的模型編輯則更具挑戰性,如何分析並處理不同元件的關係,如何保證編輯區域的生成質量,如何保持非編輯區域不變,都是需要解決的問題。

SketchDream 演算法原理

圖片

圖 3 SketchDream 的網路架構圖,生成和編輯流程

基於線稿的多視角影像生成網路

給定單視角的手繪線稿後,僅線上稿對應的視角新增約束,無法生成合理的三維模型。因此,需要將線稿的資訊有效地傳播到三維空間中的新視角,從而合成與線稿對應的高質量的模型。SketchDream 演算法構建了基於線稿的多視角影像生成的擴散模型。具體而言,演算法在多視角影像生成網路 MVDream [8] 的基礎上,新增了與 ControlNet 結構類似的控制網路,基於線稿控制多視角影像的特徵。網路使用了 3D Self-Attention,在不同視角之間共享 Q,K,V 特徵,從而生成三維一致的結果。

直接使用單視角二維線稿作為多視角影像控制網路的輸入,由於缺乏三維資訊和空間對應,難以實現有效的線稿控制。因此,演算法使用擴散模型生成線稿對應的深度圖,補充稀疏線稿缺失的幾何資訊。進一步,基於深度對線稿變形,從而將線稿顯式地變換到相鄰的新視角,其他視角則直接輸入空白影像。儘管其他視角輸入了空白影像,但 3D Self-Attention 保證了視角間的資訊交換,從而實現對多視角影像的有效控制。

基於線稿的三維生成

為了實現高質量的三維生成,演算法基於線稿的多視角影像擴散模型,反向最佳化神經輻射場。最佳化過程中,每一個迭代的步驟,使用不同的相機引數渲染模型並計算梯度,反向最佳化三維模型。演算法基於多視角影像生成網路計算 SDS Loss,保證三維模型的幾何合理性。並且,為了提升紋理細節的質量,演算法基於 2D 的影像生成網路,計算 ISM Loss [14],提高模型生成質量。演算法額外新增蒙版約束和正則化項,提高線稿的對應性和模型的合理性。

基於線稿的三維編輯

為了實現精細化的編輯,演算法提出了兩階段編輯方法:粗粒度編輯階段,演算法分析元件的互動關係,生成初始的編輯結果,並基於此獲取更精確的三維蒙版;細粒度編輯階段,演算法對區域性編輯區域進行渲染最佳化,並保持非編輯區域的特徵,實現高質量的區域性編輯效果。

具體而言,在粗粒度編輯階段,將手繪的 2D 蒙版轉換為 3D 空間中的圓柱網格模型,粗略標記編輯的區域。最佳化過程中,使用與生成相同的損失函式進行最佳化,但在非編輯區域額外新增與原始模型的 L2 損失,保持原始模型的特徵。進一步,從粗略編輯的 NeRF 結果中提取網格模型,標記 3D 網格的區域性區域表示待編輯的區域,獲取精細化的 3D 蒙版。在細粒度編輯階段,為了提升編輯區域的質量,演算法對區域性編輯區域進行渲染,新增基於線稿的 SDS 約束,並新增更精細的非編輯區域的約束,生成更高質量的編輯效果。

效果展示

如圖 4 所示,給定手繪線稿和文字描述,該方法可以生成高質量的三維模型。演算法生成的結果沒有類別限制,結果具備合理的幾何屬性和高質量的紋理屬性。使用者可以自由變換視角,都能得到非常真實的渲染結果。

圖片

圖 4 基於線稿生成的三維模型

如圖 5 所示,給定真實的三維模型,使用者可以選擇任意的視角,對渲染出的線稿進行修改,從而編輯三維模型。該方法可以對已有模型的部件進行替換,例如左側的修改獅子頭部、更換裙子等,也可以新增新的部件,例如右側的新增新的房間、新增翅膀等。

圖片

圖 5 基於線稿的三維模型編輯結果

如圖 6 所示,給定線稿和文字描述,該方法可以對應的三維模型。進一步,使用者可以旋轉到新的視角,對區域性區域進行修改,實現三維模型的精細化定製。

圖片

圖 6 基於線稿的生成和編輯效果

如圖 7 所示,針對同一個三維模型,使用者可以繪製不同的線稿,從而生成具備多樣性的結果。線稿也實現了較為精細化的控制,實現了對鴕鳥不同頸部姿態的控制效果。

圖片

圖 7 基於線稿的多樣化的編輯效果

如圖 8 所示,針對同一個三維模型,使用者可以指定不同的文字,從而生成具備紋理多樣性的結果。在給定相同線稿的情況下,可以生成黃金、銅製和石頭質感的獅子頭,並保持其他區域不變。

圖片

圖 8 基於文字的多樣化的編輯效果

結語

基於人工智慧的數字內容生成技術蓬勃發展,在很多領域已經有廣泛的應用。針對三維內容生成,除了保證高真實感的生成質量,如何提高使用者的可控性是重要的問題。SketchDream 提供了一種可行的解決方案,基於手繪線稿,使用者可以生成高質量的三維模型,並支援對真實模型的可控編輯。

基於該系統,我們無需安裝繁雜的三維建模軟體並學習複雜的技能,也不需要花費數個小時時間精力,僅僅透過勾勒簡單的線條,普通使用者也能輕鬆構建心中完美的三維模型,並得到高質量的渲染結果。SketchDream 已經被 ACM SIGGRAPH 2024 接收,並將刊登在期刊 ACM Transactions on Graphics 上,已入選 SIGGRAPH 精選亮點工作宣傳片。

參考文獻:

[1] Feng-Lin Liu, Hongbo Fu, Yu-Kun Lai, Lin Gao*. SketchDream: Sketch-based Text-to-3D Generation and Editing. ACM SIGGRAPH(TOG). 2024

[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer, High-Resolution Image Synthesis with Latent Diffusion Models. CVPR. 2022

[3] Adding Conditional Control to Text-to-Image Diffusion Models, Lvmin Zhang and Maneesh Agrawala, ArXiv, 2023

[4] https://openai.com/sora

[5] Poole, Ben, Ajay Jain, Jonathan T. Barron, and Ben Mildenhall. Dreamfusion: Text-to-3d using 2d diffusion.

[6] Lin, Chen-Hsuan, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, and Tsung-Yi Lin. Magic3d: High-resolution text-to-3d content creation. CVPR. 2023.

[7] Wang, Zhengyi, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, and Jun Zhu. Prolificdreamer: High-fidelity and diverse text-to-3d generation with variational score distillation. NeuIPS. 2024.

[8] Shi, Yichun, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, and Xiao Yang. Mvdream: Multi-view diffusion for 3d generation. arXiv. 2023.

[9] Liu, Ruoshi, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, and Carl Vondrick. Zero-1-to-3: Zero-shot one image to 3d object. CVPR. 2023.

[10] Qian, Guocheng, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee et al. Magic123: One image to high-quality 3d object generation using both 2d and 3d diffusion priors. ArXiv. 2023.

[11] Sella, Etai, Gal Fiebelman, Peter Hedman, and Hadar Averbuch-Elor. Vox-e: Text-guided voxel editing of 3d objects. CVPR. 2023.

[12] Zhuang, Jingyu, Chen Wang, Liang Lin, Lingjie Liu, and Guanbin Li. "Dreameditor: Text-driven 3d scene editing with neural fields." In SIGGRAPH Asia 2023 Conference Papers. 2023.

[13] Mikaeili, Aryan, Or Perel, Mehdi Safaee, Daniel Cohen-Or, and Ali Mahdavi-Amiri. Sked: Sketch-guided text-based 3d editing.CVPR. 2023.

[14] Liang, Yixun, Xin Yang, Jiantao Lin, Haodong Li, Xiaogang Xu, and Yingcong Chen. Luciddreamer: Towards high-fidelity text-to-3d generation via interval score matching. ArXiv. 2023.

相關文章