CVPR 2024 | 跳舞時飛揚的裙襬,AI也能高度還原了,南洋理工提出動態人體渲染新正規化

机器之心發表於2024-04-22

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

在日常活動中,人的運動經常引起衣服的附屬運動 (secondary motion of clothes) 並因此產生不同的衣服褶皺,而這需要對人體及衣服的幾何、運動(人體姿態及速度動力學等)及外觀同時進行動態建模。由於此過程涉及複雜的人與衣服的非剛體物理互動,導致傳統三維表徵往往難以應對。

近年從影片序列中學習動態數字人渲染已取得了極大的進展,現有方法往往把渲染視為從人體姿態到影像的神經對映,採用 「運動編碼器—運動特徵—外觀解碼器」的正規化。而該正規化基於影像損失做監督,過於關注每一幀影像重建而缺少對運動連續性的建模,因此對複雜運動如 「人體運動及衣服附屬運動」難以有效建模。

為解決這一問題,來自新加坡南洋理工大學 S-Lab 團隊提出運動—外觀聯合學習的動態人體重建新正規化,並提出了基於人體表面的三平面運動表徵 (surface-based triplane),把運動物理建模和外觀建模統一在一個框架中,為提升動態人體渲染質量開闢了新的思路。該新正規化可有效對衣服附屬運動建模,並可用於從快速運動的影片(如跳舞)中學習動態人體重建,以及渲染運動相關的陰影。在渲染效率上比三維體素渲染方法快 9 倍,LPIPS 影像質量提高約 19 個百分點。

圖片

  • 論文標題:SurMo: Surface-based 4D Motion Modeling for Dynamic Human Rendering
  • 論文地址:https://arxiv.org/pdf/2404.01225.pdf
  • 專案主頁:https://taohuumd.github.io/projects/SurMo
  • Github 連結:https://github.com/TaoHuUMD/SurMo
CVPR 2024 | 跳舞時飛揚的裙襬,AI也能高度還原了,南洋理工提出動態人體渲染新正規化
方法概覽

圖片

針對已有正規化「運動編碼器—運動特徵—外觀解碼器」只關注於外觀重建而忽略運動連續性建模的缺點,提出了新正規化 SurMo :「①運動編碼器—運動特徵——②運動解碼器、③外觀解碼器」。如上圖所示,該正規化分為三個階段:

  • 區別於已有方法在稀疏三維空間對運動建模,SurMo 提出基於人體表面流形場(或緊湊的二維紋理 UV 空間)的四維(XYZ-T)運動建模,並透過定義在人體表面的三平面(surface-based triplane)來表徵運動。
  • 提出運動物理解碼器去根據當前運動特徵(如三維姿態、速度、運動軌跡等)預測下一幀運動狀態,如運動的空間偏導—表面法向量和時間偏導—速度,以此對運動特徵做連續性建模。
  • 四維外觀解碼,對運動特徵在時序上解碼以此渲染三維自由視點影片,主要透過混合體素—紋理神經渲染方式實現 (Hybrid Volumetric-Textural Rendering, HVTR [Hu et al. 2022]).

SurMo 可基於重建損失和對抗損失端到端訓練,從影片中學習動態人體渲染。

實驗結果

該研究在 3 個資料集,共 9 個動態人體影片序列上進行了實驗評估: ZJU-MoCap [Peng et al. 2021], AIST++ [Li, Yang et al. 2021] MPII-RRDC [Habermann et al. 2021] .

新視點時序渲染

該研究在 ZJU-MoCap 資料集上探究在新視點下對一段時序的動態渲染效果 (time-varying appearances),特別研究了 2 段序列,如下圖所示。每段序列包含相似的姿態但出現在不同的運動軌跡中,如①②,③④,⑤⑥。SurMo 可對運動軌跡建模,因此生成隨時間變化的動態效果,而相關的方法生成的結果只取決於姿態,在不同軌跡下衣服的褶皺幾乎一樣。

圖片

圖片

渲染運動相關的陰影及衣服附屬運動

SurMo 在 MPII-RRDC 資料集上探究了運動相關的陰影及衣服附屬運動,如下圖所示。該序列在室內攝影棚拍攝,在燈光條件下,由於自遮擋問題,表演者身上會出現與運動相關的陰影。

SurMo 在新視點渲染下,可恢復這些陰影,如①②,③④,⑦⑧。而對比方法 HumanNeRF [Weng et al.] 則無法恢復與運動相關的陰影。此外,SurMo 可重建隨運動軌跡變化的衣服附屬運動,如跳躍運動中不同的褶皺 ⑤⑥,而 HumanNeRF 無法重建該動態效果。

圖片

渲染快速運動的人體

SurMo 也從快速運動的影片中渲染人體,並恢復與運動相關的衣服褶皺細節,而對比方法則無法渲染出這些動態細節。

圖片

消融實驗

(1)人體表面運動建模

該研究對比了兩種不同的運動建模方式:目前常用的在體素空間 (Volumetric space) 的運動建模,以及 SurMo 提出的在人體表面流形場的運動建模 (Surface manifold) ,具體比較了 Volumetric triplane 與 Surface-based triplane,如下圖所示。

圖片

可以發現,Volumetric triplane 是一種稀疏表達,僅有大約 21-35% 的特徵用於渲染,而 Surface-based triplane 特徵利用率可達 85%,因此在處理自遮擋方面更有優勢,如(d)所示。同時 Surface-based triplane 可透過體素渲染中過濾部分遠離表面的點實現更快的渲染,如圖(c)所示。

圖片

同時,該研究論證 Surface-based triplane 可比 Volumetric triplane 在訓練過程收斂更快,在衣服褶皺細節、自遮擋上均有明顯優勢,如上圖所示。

(2)動力學學習

SurMo 透過消融實驗研究了運動建模的效果,如下圖所示。結果顯示,SurMo 可解耦運動的靜態特性(如某一幀下固定姿態)及動態特性(如速度)。例如當改變速度的時候,貼身衣服褶皺不變,如①,而寬鬆衣服褶皺則受速度影響較大,如②,這與日常人們的觀測相一致。

圖片

相關文章