位元組整新活!照片+音訊讓蒙娜麗莎秒變播客主理人

机器之心發表於2024-12-24
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者來自位元組跳動智慧創作數字人團隊,介紹了名為「INFP」的互動式人像生成技術。利用該技術生成的智慧體能像真人一樣在多輪對話中實現自由的聽說行為以及無縫的狀態切換。

在大語言模型和 AIGC 的熱潮下,科研人員對構建「視覺對話智慧體」(Visual Chat Agent)展現出極大興趣。其中,可實時互動的人像生成技術(Audio-Driven Real-Time Interactive Head Generation)是實現鏈路中極為關鍵的一環。它確保了在與使用者的多輪對話過程中,智慧體形象能夠像真人一樣提供自然、逼真的行為和視覺反饋,令使用者獲得沉浸式的互動體驗。位元組整新活!照片+音訊讓蒙娜麗莎秒變播客主理人位元組整新活!照片+音訊讓蒙娜麗莎秒變播客主理人
之前的人像生成 / 驅動技術大多面向的是對話場景中的「單一方向互動」,如:說話人像生成(Talking Head Generation)或傾聽人像生成(Listening Head Generation),因此無法直接應用於智慧體的構建。近期陸續有一些工作開始關注研究互動式的人像生成,但它們都需要顯式地指定「說話」或「傾聽」的狀態,且無法像真人一樣在多輪對話中實現自由的聽說行為以及無縫的狀態切換。

近日,位元組跳動提出了一套面向二元對話場景的互動式人像生成技術 INFP,該方案僅需輸入一段雙軌對話音訊(分別來自智慧體本身和對話夥伴的說話內容),即可實時驅動單張肖像照片生成相應的對話影片,且能夠在多輪對話中生成自然的人物行為和反饋,例如表情、眼神、口型、姿態變化以及流暢的說話 - 傾聽狀態切換。
圖片
  • 論文連結:https://arxiv.org/pdf/2412.04037
  • 專案網頁:https://grisoon.github.io/INFP

技術方案
圖片
INFP 包含 2 個階段:

1. Motion-Based Head Imitation:在第一階段,模型從大量對話影片中學習如何提取對話時的互動和運動行為,包括非語言動作(non-verbal motion)和語言動作(verbal motion),並將其對映到運動隱空間(motion latent space)。對映後的運動編碼(motion latent code)可以用來驅動肖像照片,生成相應的影片。一個好的運動隱空間應該具備高度的解耦性,即頭部姿勢、面部表情和情緒應該與外觀完全解耦。為此,文章提出對輸入影像進行面部結構離散化和麵部畫素遮罩處理。

2. Audio-Guided Motion Generation:在第二階段,模型將雙軌對話音訊輸入對映到第一階段預訓練的運動隱空間,以獲得相應的運動潛碼。該部分由一個互動運動引導模型(Interactive Motion Guider)和一個條件擴散模型(Conditional Ddiffusion Transformer)組成。前者將來自智慧體及其對話夥伴的音訊作為輸入,從可學習的記憶庫(Learnable Memory Bank)中檢索語言和非語言動作,以構建互動式動作特徵。後者利用互動式運動特徵作為條件,與其他訊號一起透過去噪生成運動潛碼。

實驗結果

在實驗章節中,文中從多個方面詳細對比了 INFP 和其它市面上 SOTA 方案,以此來證明該方法的有效性。
圖片
此外,文中頁分別對比了 INFP 和 Talking Head Generation 以及 Listening Head Generation 方法,以此證明該方法在「單一互動」場景中的生成效果依然可以做到 SOTA。
圖片
圖片
效果展示

動作多樣性效果展示位元組整新活!照片+音訊讓蒙娜麗莎秒變播客主理人位元組整新活!照片+音訊讓蒙娜麗莎秒變播客主理人位元組整新活!照片+音訊讓蒙娜麗莎秒變播客主理人非真人效果展示 位元組整新活!照片+音訊讓蒙娜麗莎秒變播客主理人位元組整新活!照片+音訊讓蒙娜麗莎秒變播客主理人即時互動 demo 效果展示 位元組整新活!照片+音訊讓蒙娜麗莎秒變播客主理人位元組整新活!照片+音訊讓蒙娜麗莎秒變播客主理人
安全說明

此工作僅以學術研究為目的,會嚴格限制模型的對外開放和使用許可權,防止未經授權的惡意利用。

團隊介紹

位元組跳動智慧創作數字人團隊,智慧創作是位元組跳動 AI & 多媒體技術團隊,覆蓋了計算機視覺、音影片編輯、特效處理等技術領域,藉助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實現了前沿演算法 - 工程系統 - 產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。其中數字人方向專注於建設行業領先的數字人生成和驅動技術,豐富智慧創作內容生態。

目前,智慧創作團隊已透過位元組跳動旗下的雲服務平臺火山引擎向企業開放技術能力和服務。更多大模型演算法相關崗位開放中。

相關文章