兩篇論文同時獲最佳論文榮譽提名,SIGGRAPH上首個Real-Time Live的中國團隊用生成式AI建立3D世界

机器之心發表於2024-08-09

專注於計算機圖形學的全球學術頂會 SIGGRAPH,正在出現新的趨勢。

在上週舉行的 SIGGRAPH 2024 大會上,最佳論文等獎項中,來自上海科技大學 MARS 實驗室的團隊同時拿到兩篇最佳論文榮譽提名,其研究成果亦在快速走向產業化。

作者使用生成模型的方法,開啟了將想象力直接轉化為複雜 3D 模型的新路。

圖片

拿到最佳論文提名的兩篇論文——CLAY 和 DressCode,二者的主題分別是 3D 生成和 3D 服裝生成。

在 SIGGARPH 的 Real-Time Live 環節,上科大這一團隊更實時展示了基於這兩項工作的一系列應用場景。

論文作者,研究生二年級學生,同時也是初創公司影眸科技的 CTO 張啟煊首先演示了基於 CLAY 的 3D 生成解決方案。影眸團隊去年用簡單的文字提示詞(Prompt)給祖克伯和黃仁勳構建了真實風格的 3D 模型,成為第一個登上 SIGGRAPH Real-Time Live 的中國團隊。今年他們的 3D 生成方案,透過單張圖片作為輸入,可以生成出小扎和老黃不同風格的卡通形象。

圖片

這些生成內容的背後是新一代 3D AI 引擎 Rodin,致敬著名雕塑家羅丹。現場展示的 3D 內容都是由使用者上傳的單張圖片直接生成的,Rodin 可以進一步生成 PBR 紋理和四角面,以方便藝術家進一步修改和使用。

圖片

透過 3D ControlNet,Rodin 可以控制 AI 生成的形狀。僅需提供簡單的幾何元素作為指導,就可以將其轉換為體素,並根據參考圖片的語義資訊將其轉換為所需要的 3D 資產。

圖片

Rodin 也支援直接手繪的圖片,甚至是簡單塗鴉。幾張照片生成 3D 人物,兒童塗鴉生成樹木作為背景,開發人員現場實時操作,一分鐘內便搭建了一個完整的 3D 建模的場景。當主持人問到中間的小怪物是誰時,張啟煊風趣的說,這就是 AI。

圖片

說起來,3D 模型生成的上一次出圈其實也是在 SIGGRAPH 上:在 2021 年,英偉達在這個舞臺上介紹了給黃仁勳製作 3D 模型的方法,以假亂真的效果震撼了世界。

彼時的 3D 模型生成被認為對於數字人、虛擬現實等技術而言至關重要。但毫無疑問,高精度人體掃描 + 深度學習重建方式的高成本,決定了它註定不會成為投入大規模生產的方式。

使用 AI 生成或許才是更好的路徑。然而此前在這個方向上,人們提出的技術一直「叫好不叫座」。

對實際應用而言,這些方法存在一些挑戰:3D 是一個工業問題,模型僅僅在視覺上表現好是不夠的,還需要符合特定的工業標準,比如材質如何表現,面片規劃、結構如何合理。如果不能和人類工業標準對齊,那生成結果就需要大量調整,難以應用於生產端。

就像大語言模型(LLM)需要對齊人類的價值觀,3D 生成的 AI 模型需要對齊複雜的 3D 工業標準。

更實用的方案已經出現:3D 原生

上科大 MARS 實驗室獲得最佳論文提名的工作之一——CLAY 讓行業看到了上述問題的一個可行的解決思路,即 3D 原生。

我們知道,最近兩年,3D 生成的技術路線大致可以分為兩類:2D 升維和原生 3D。

2D 升維是透過 2D 擴散模型,結合 NeRF 等方法實現三維重建的過程。由於可以利用大量的 2D 影像資料進行訓練,這類模型往往能夠生成多樣化的結果。但又因為 2D 擴散模型的 3D 先驗能力不足,這類模型對 3D 世界的理解能力有限,容易生成幾何結構不合理的結果(比如有多個頭的人或動物)。

圖片

近期的一系列多視角重建工作透過把 3D 資產的多視角 2D 影像加入 2D 擴散模型的訓練資料,在一定程度上緩解了這一問題。但侷限性在於,這類方法的起點是 2D 影像,因此它們關注的都是生成影像的質量,而不是試圖保持幾何保真度,所以生成的幾何圖形經常存在不完整和缺乏細節的問題。

換句話說,2D 資料終究只記錄了真實世界的一個側面,或者說投影,再多角度的影像也無法完整描述一個三維內容,因此模型學到的東西依舊存在很多資訊缺失,生成結果還是需要大量修正,難以滿足工業標準。

考慮到這些侷限,CLAY 的研究團隊選擇了另一條路 ——3D 原生

這一路線直接從 3D 資料集訓練生成模型,從各種 3D 幾何形狀中提取豐富的 3D 先驗。因此,模型可以更好地「理解」並保留幾何特徵。

不過,這類模型也要足夠大才能「湧現」出強大的生成能力,而更大的模型需要在更大的資料集上進行訓練。眾所周知,高質量的 3D 資料集是非常稀缺且昂貴的,這是原生 3D 路線首先要解決的問題。

在 CLAY 這篇論文中,研究者採用定製的資料處理流程來挖掘多種 3D 資料集,並提出了有效的技術來擴充套件(scale up)生成模型

具體來說,他們的資料處理流程從一個定製的網格重構(remeshing)演算法開始,將 3D 資料轉換為水密性網格(watertight meshes),細緻地保留了諸如硬邊和平整表面等重要幾何特徵。此外,他們還利用 GPT-4V 建立了細緻的標註,突出顯示重要的幾何特性。

眾多資料集經過上述處理流程後,匯成了 CLAY 模型訓練所使用的超大型 3D 模型資料集。此前,由於格式不同,缺乏一致性,這些資料集從來沒有一起用於訓練 3D 生成模型。處理後的組合資料集保持了一致的表示和連貫的註釋,可以極大地提高生成模型的泛化性。

利用該資料集訓練出的 CLAY 包含一個引數量高達 15 億的 3D 生成模型。為了保證從資料集轉化到隱式表達再到輸出之間,資訊損失儘可能小,他們花了很長時間去篩選、改良,最終探索出了一套全新、高效的 3D 表達方式。具體來說,他們採用了 3DShape2VecSet 中的神經場設計來描述連續完整的表面,並結合了一個特製的多解析度幾何 VAE,用於處理不同解析度的點雲,讓它能夠自適應隱向量尺寸(latent size)。

圖片

為了便於模型的擴充套件,CLAY 採用了一個極簡的潛在擴散 Transformer(DiT)。它由 Transformer 構成,能夠自適應隱向量尺寸,具有大模型化能力(scalability)。此外,CLAY 還引入了一種漸進式訓練方案,透過逐步增加隱向量尺寸和模型引數來訓練。圖片

最終,CLAY 實現了對幾何的精確控制,使用者可以透過調整提示詞控制幾何生成的複雜度、風格等(甚至角色)。與以往的方法相比,CLAY 能迅速地生成細緻的幾何,很好地保證了諸如平整表面和結構完整性等重要幾何特徵。

圖片

論文中的一些結果充分展示了原生 3D 路徑的優勢。下圖展示了研究者從資料集中檢索到的前三個最鄰近樣本。CLAY 生成的高質量幾何體與提示詞匹配,但與資料集中的樣本有所不同,展現出了足夠的豐富度,具備大模型湧現能力的特點。

圖片

為了使生成的數字資產能夠直接用於現有的 CG 生產管線,研究者進一步採用了一套兩階段方案:

1、幾何最佳化確保結構完整性和相容性,同時在美觀和功能上對模型的形態進行細化,如四邊面化、UV 展開等;

2、材質合成透過真實的紋理賦予模型逼真的質感。這些步驟共同將粗糙的網格轉變為在數字環境中更可用的資產。

圖片

其中,第二個階段涉及一個近 10 億引數的多檢視材質擴散模型。在進行網格四邊面化與 UV 展開之後,它透過多檢視方法生成 PBR 材質,隨後將其反向投影到 UV maps 上。相比先前的方法,該模型生成的 PBR 材質更加真實,最終實現逼真的渲染效果。

圖片

為了讓 CLAY 支援更多工,研究者還設計了 3D 版 ControlNet,極簡的架構使它能夠高效地支援各種不同模態的條件 (Condition)控制。他們實現了幾種使用者可以輕鬆提供的示例條件,包括文字(原生支援),以及影像 / 草圖、體素 (Voxel)、多檢視影像(Multiview Images)、點雲(Point Cloud)、邊界框(BoundingBox)和帶有邊界框的部分點雲。這些條件可以單獨應用,也可以組合應用,使模型能夠基於單一條件忠實生成內容,或結合多種條件建立具有風格和使用者控制的 3D 內容,提供廣泛的創作可能性。

圖片

此外,CLAY 還直接支援在 DiT 的注意力層 (attention layers) 上進行 Low-Rank Adaptation (LoRA)。這允許高效的微調,使生成的 3D 內容能夠針對特定風格。

圖片

從這些設計不難看出,CLAY 的設計從一開始就瞄準了應用場景,這和一些純學術研究有很大的不同。

這也讓該模型實現了快速落地:目前 Rodin 已經成為很多 3D 開發者的常用 3D 生成器。

圖片

可點選閱讀原文,訪問 Rodin 體驗產品(建議 PC 端開啟)。

國內外很多行業使用者反饋認為,Rodin 生成的 3D 資產幾何科學、佈線規則、材質貼圖精緻,而且可以直接被匯入現有的主流渲染引擎,使用起來非常方便,是一款接近 Production-Ready 的 3D 生成應用。

圖片

貢獻了 CLAY 的上科大 MARS 實驗室團隊,自 2023 年作為 SIGGRAPH 創立 50 年來首個入選 Real-Time Live 環節的中國團隊,已經連續第二年站上這個舞臺。

圖片

影眸科技在 3D 原生 AI 的道路上探索,構建起了接近 Production-Ready 的 3D 產品,大幅降低了 3D 創造的門檻。

基於 CLAY 的 3D 生成技術不僅指引著業界方向,還將對影像和影片的生成起到積極作用。因為從資訊熵的角度來說,你提供的資訊越少,模型發揮的空間就越大。而 3D 模型化可以錨定其收斂的方向,提高影像、影片生成的可控性。

不過,3D 領域本身不像影像和影片那麼簡單,只有補齊完整鏈條,使用者才會真正開始接受 3D + AI 的能力。這部分工作可能透過合作伙伴的 API,或者由其團隊自行完成。

期待未來,新技術的進一步落地。

相關文章