ECCV 2024 | 南洋理工三維數字人生成新正規化:結構擴散模型

机器之心發表於2024-08-12
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


該論文作者均來自於新加坡南洋理工大學 S-Lab 團隊,包括博士後胡濤,博士生洪方舟,以及計算與資料學院劉子緯教授(《麻省理工科技評論》亞太地區 35 歲以下創新者)。S-Lab 近年來在頂級會議如 CVPR, ICCV, ECCV, NeurIPS, ICLR 上發表多篇 CV/CG/AIGC 相關的研究工作,和國內外知名高校、科研機構廣泛開展合作。

三維數字人生成和編輯在數字孿生、元宇宙、遊戲、全息通訊等領域有廣泛應用。傳統三維數字人制作往往費時耗力,近年來研究者提出基於三維生成對抗網路(3D GAN)從 2D 影像中學習三維數字人,極大提高了數字人制作效率。

這些方法往往在一維隱向量空間建模數字人,而一維隱向量無法表徵人體的幾何結構和語義資訊,因此限制了其生成質量和編輯能力。

為了解決這一問題,來自新加坡南洋理工大學 S-Lab 團隊提出結構化隱空間擴散模型(Structured Latent Diffusion Model)的三維數字人生成新正規化 StructLDM。該正規化包括三個關鍵設計:結構化的高維人體表徵、結構化的自動解碼器以及結構化的隱空間擴散模型。

StructLDM 是一個從影像、影片中學習的前饋三維生成模型(Feedforward 3D Generative Model),相比於已有 3D GAN 方法可生成高質量、多樣化且視角一致的三維數字人,並支援不同層級的可控生成與編輯功能,如區域性服裝編輯、三維虛擬試衣等部位感知的編輯任務,且不依賴於特定的服裝型別或遮罩條件,具有較高的適用性。

圖片

  • 論文標題:StructLDM: Structured Latent Diffusion for 3D Human Generation

  • 論文地址:https://arxiv.org/pdf/2404.01241
  • 專案主頁:https://taohuumd.github.io/projects/StructLDM
  • 實驗室主頁:https://www.ntu.edu.sg/s-lab

圖片ECCV 2024 | 南洋理工三維數字人生成新正規化:結構擴散模型

方法概覽

圖片

StructLDM 訓練過程的包含兩個階段:

  • 結構化自動解碼:給定人體姿態資訊 SMPL 和相機引數,自動解碼器對訓練集中每個人物個體擬合出一個結構化 UV latent。該過程的難點在於如何把不同姿態、不同相機視角、不同著裝的人物影像擬合到統一的 UV latent 中,為此 StructLDM 提出了結構化區域性 NeRF 對身體每個部位分別建模,並透過全域性風格混合器把身體各部分合並在一起,學習整體的人物外觀。此外,為解決姿態估計誤差問題,自動解碼器訓練過程中引入了對抗式學習。在這一階段,自動解碼器把訓練集中每個人物個體轉化為一系列 UV latent。
  • 結構擴散模型:該擴散模型學習第一階段得到的 UV latent 空間,以此學習人體三維先驗。

在推理階段,StructLDM 可隨機生成三維數字人:隨機取樣噪聲並去噪得到 UV latent,該 latent 可被自動解碼器渲染為人體影像。

實驗結果

該研究在 4 個資料集上進行了實驗評估:單視角影像資料集 DeepFashion [Liu et al. 2016],影片資料集 UBCFashion [Zablotskaia et al. 2019],真實三維人體資料集 THUman 2.0 [Yu et al. 2021], 及虛擬三維人體資料集 RenderPeople。

3.1 定性結果比較

StructLDM 在 UBCFashion 資料集上與已有 3D GAN 方法做了對比,如 EVA3D、 AG3D 及 StyleSDF。相比於已有方法,StructLDM 可生成高質量、多樣化、視角一致的三維數字人,如不同膚色、不同髮型,以及服飾細節(如高跟鞋)。

圖片

StructLDM 在 RenderPeople 資料集上與已有 3D GAN 方法(如 EG3D, StyleSDF, 及 EVA3D)及擴散模型 PrimDiff 對比。相比於已有方法,StructLDM 可生成不同姿態、不同外觀的高質量三維數字人,並生成高質量面部細節。

圖片ECCV 2024 | 南洋理工三維數字人生成新正規化:結構擴散模型

3.2 定量結果比較

研究者在 UBCFashion, RenderPeople,及 THUman 2.0 上與已知方法做了定量結果比較,在每個資料集上隨機選取 5 萬張影像計算 FID ,StructLDM 可大幅降低 FID。此外,User Study 顯示大約 73% 的使用者認為 StructLDM 生成的結果在面部細節和全身影像質量上比 AG3D 更有優勢。

圖片

3.3 應用

3.3.1 可控性生成

StructLDM 支援可控性生成,如相機視角、姿態、體型控制,以及三維虛擬試衣,並可在二維隱空間插值

圖片

3.3.2 組合式生成

StructLDM 支援組合式生成,如把①②③④⑤部分組合起來可生成新的數字人,並支援不同的編輯任務,如身份編輯、衣袖(4)、裙子(5)、三維虛擬試衣(6)以及全身風格化(7)。

圖片ECCV 2024 | 南洋理工三維數字人生成新正規化:結構擴散模型

3.3.3 編輯網際網路圖片

StructLDM 可對網際網路圖片進行編輯,首先透過 Inversion 技術得到對應的 UV latent,然後透過 UV latent 編輯可對生成的數字人進行編輯,如編輯鞋、上衣、褲子等。

圖片

3.4 消融實驗

3.4.1 隱空間擴散

StructLDM 提出的隱空間擴散模型可用於不同編輯任務,如組合式生成。下圖探究了擴散模型引數(如擴散步數和噪聲尺度)對生成結果的影響。StructLDM 可透過控制擴散模型引數來提高生成效果。

圖片

3.4.2 一維與二維人體表徵

研究者對比了一維與二維 latent 人體表徵效果,發現二維 latent 可生成高頻細節(如衣服紋理及面部表情),加入對抗式學習可同時提高圖片質量和保真度。

圖片

3.4.3 結構感知的歸一化

為提高擴散模型學習效率,StructLDM 提出了結構感知的 latent 歸一化技術 (structure-aligned normalization),即對每個 latent 做逐畫素歸一化。研究發現,歸一化後的 latent 分佈更接近於高斯分佈,以此更利於擴散模型的學習。

圖片

相關文章