3D大模型助力,15分鐘即可訓練高質量、個性化的數字人模型,程式碼已開放

机器之心發表於2024-10-31

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文的作者主要來自於浙江大學和位元組跳動。第一作者是浙江大學計算機學院的博士生葉振輝,導師為趙洲教授,主要研究方向是說話人影片合成,並在 NeurIPS、ICLR、ACL 等會議發表相關論文。共一作者是來自浙江大學計算機學院的碩士生鍾添芸。

個性化精品數字人(Personalized Talking Face Generation)強調合成的數字人影片在感官上與真人具有極高的相似性(不管是說話人的外表還是神態)。目前業界主流的個性化精品數字人通常屬於在單個目標人資料上從頭訓練的小模型,雖然這種小模型能夠有效地學到說話人的外表和說話風格,這種做法存在低訓練效率、低樣本效率、低魯棒性的問題。相比之下,近年來許多工作專注於單圖驅動的通用數字人大模型,這些模型僅需單張圖片輸入即可完成數字人制作,但仍存在外表相似度較低、無法模仿目標人說話風格等問題。

為了連線個性化數字人小模型和單圖驅動通用數字人大模型兩個領域之間的空白,浙江大學與位元組跳動提出了 MimicTalk 演算法。透過(1)將單圖驅動的通用 3D 數字人大模型 Real3D-Portrait (ICLR 2024) 適應到目標數字人的高效微調策略和(2)具有上下文學習能力的人臉動作生成模型,MimicTalk 可以生成相比原有方法更高質量、更具表現力的數字人影片。此外,單個數字人模型的訓練時間可以被壓縮到 15 分鐘以內,相比現有最高效的同類方法快了 47 倍。

MimicTalk 演算法被人工智慧頂級會議 NeurIPS 2024 錄用,目前已開放原始碼和預訓練權重。
圖片
  • 論文標題:MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes

  • 論文連結:https://arxiv.org/pdf/2410.06734

  • 專案主頁:https://mimictalk.github.io/

  • 程式碼連結:https://github.com/yerfor/MimicTalk

話不多說直接看效果,以下影片中的數字人模型都透過從 3D 數字人大模型進行 1000 步微調(5 分鐘訓練時間)得到。
3D大模型助力,15分鐘即可訓練高質量、個性化的數字人模型,程式碼已開放
模型技術原理

深悉 MimicTalk 模型的內在原理,還要回到開頭提到的個性化數字人兩個核心目標:(1)外表上與真人相似;(2)說話風格上與真人相似。

MimicTalk 分別使用(1)基於通用 3D 數字人大模型微調的高質量人臉渲染器和(2)一個具有上下文學習能力的人臉動作生成模型來實現它們。
圖片
圖 2. MimicTalk 包含一個高質量人臉渲染器(紫色)和一個能夠模仿說話風格的動作生成器(藍色)

對於第一個問題,傳統方法通常從頭訓練一個小規模的 NeRF 模型來記憶目標人的外表特徵,但這種做法通常導致較長的訓練時間(數個小時)、較高的資料量要求(數分鐘)、較低的魯棒性(對極端條件無法輸出正確的結果)。針對這一問題,團隊首次提出採用一個單圖驅動的通用 3D 數字人大模型作為基礎模型,並提出了一個「動靜結合」的高效率微調方案。

他們發現通用大模型的輸出通常存在牙齒、頭髮等靜態細節不足,且肌肉運動等動態細節不真實的問題。因此針對靜態細節和動態細節的特性設計了動靜結合的微調方案。

具體來說,研究者發現現有的 3D 數字人通用模型通常會將 3D 人臉的靜態細節儲存在一個 3D 人臉表徵(tri-plane)中作為模型的輸入,而 3D 人臉的動態細節,則透過模型內部的引數進行儲存。因此,MimicTalk 在個性化數字人渲染器的訓練過程中,不僅會更新儲存靜態細節的 3D 人臉表徵,還透過 LoRA 技術對通用模型的引數進行了可拆卸的高效微調。
圖片
圖 2. 將通用 3D 數字人大模型適應到單個目標人,動靜結合的高效微調方案

在實現影像上與真人的高度相似後,下一個問題是如何生成與真人說話風格相似的面部動作。傳統方法通常會額外訓練一個說話風格編碼器,但是由於模型內部資訊瓶頸的存在通常會效能損失。與之相比,受啟發大語言模型、語音合成等領域的啟發,MimicTalk 首次提出從上下文中學習目標人說話風格的訓練正規化。在訓練階段,Flow Matching 模型透過語音軌道和部分未被遮擋的人臉動作軌道的資訊,對被遮擋的人臉動作進行去噪。在推理階段,給定任意音訊 - 影片對作為說話人風格提示,模型都能生成模仿該說話風格的人臉動作。
圖片
圖 3. 能在上下文中學習目標人說話風格的人臉動作生成模型

模型的應用前景

總體來看,MimicTalk 模型首次實現了高效率的個性化精品數字人影片合成。可以預見的是,隨著技術的不斷迭代、普及,在智慧助手、虛擬現實、視訊會議等多個應用場景中都將會出現虛擬人的身影。而藉助 MimicTalk 演算法,個性化高質量數字人的訓練成本被「打了下去」,人們將會享受到更真實、更舒適的互動體驗。隨著各個領域的大模型技術的興起,擁抱大模型的超強能力並與垂直領域中的特殊場景、需求相結合,已經成為了技術演進的大勢所趨。而 MimicTalk 模型為後續基於數字人通用模型的個性化數字人演算法研究工作提供了參考。但現階段 MimicTalk 也並不是完美無缺的,由於依賴通用大模型的結果作為初始化,對基礎模型的質量有較高的要求,此外從推理效率上看與現有小模型還存在一定差距。

總而言之,過去幾年,隨著個性化數字人技術的不斷進步,口型精度、影像質量已然不斷提高;而 MimicTalk 模型的提出,進一步解決了制約個性化數字人的訓練成本問題。讓我們一同期待虛擬人技術的加速發展,使用者也將獲得更加極致的視覺體驗和生活便利。

相關文章