位元組整新活！照片+音訊讓蒙娜麗莎秒變播客主理人

机器之心發表於2024-12-24

原文網址 : https://www.jiqizhixin.com/articles/2024-12-24-3

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者來自位元組跳動智慧創作數字人團隊，介紹了名為「INFP」的互動式人像生成技術。利用該技術生成的智慧體能像真人一樣在多輪對話中實現自由的聽說行為以及無縫的狀態切換。

在大語言模型和 AIGC 的熱潮下，科研人員對構建「視覺對話智慧體」（Visual Chat Agent）展現出極大興趣。其中，可實時互動的人像生成技術（Audio-Driven Real-Time Interactive Head Generation）是實現鏈路中極為關鍵的一環。它確保了在與使用者的多輪對話過程中，智慧體形象能夠像真人一樣提供自然、逼真的行為和視覺反饋，令使用者獲得沉浸式的互動體驗。位元組整新活！照片+音訊讓蒙娜麗莎秒變播客主理人

之前的人像生成 / 驅動技術大多面向的是對話場景中的「單一方向互動」，如：說話人像生成（Talking Head Generation）或傾聽人像生成（Listening Head Generation），因此無法直接應用於智慧體的構建。近期陸續有一些工作開始關注研究互動式的人像生成，但它們都需要顯式地指定「說話」或「傾聽」的狀態，且無法像真人一樣在多輪對話中實現自由的聽說行為以及無縫的狀態切換。

近日，位元組跳動提出了一套面向二元對話場景的互動式人像生成技術 INFP，該方案僅需輸入一段雙軌對話音訊（分別來自智慧體本身和對話夥伴的說話內容），即可實時驅動單張肖像照片生成相應的對話影片，且能夠在多輪對話中生成自然的人物行為和反饋，例如表情、眼神、口型、姿態變化以及流暢的說話 - 傾聽狀態切換。

論文連結：https://arxiv.org/pdf/2412.04037
專案網頁：https://grisoon.github.io/INFP

技術方案

INFP 包含 2 個階段：

1. Motion-Based Head Imitation：在第一階段，模型從大量對話影片中學習如何提取對話時的互動和運動行為，包括非語言動作（non-verbal motion）和語言動作（verbal motion），並將其對映到運動隱空間（motion latent space）。對映後的運動編碼（motion latent code）可以用來驅動肖像照片，生成相應的影片。一個好的運動隱空間應該具備高度的解耦性，即頭部姿勢、面部表情和情緒應該與外觀完全解耦。為此，文章提出對輸入影像進行面部結構離散化和麵部畫素遮罩處理。

2. Audio-Guided Motion Generation：在第二階段，模型將雙軌對話音訊輸入對映到第一階段預訓練的運動隱空間，以獲得相應的運動潛碼。該部分由一個互動運動引導模型（Interactive Motion Guider）和一個條件擴散模型（Conditional Ddiffusion Transformer）組成。前者將來自智慧體及其對話夥伴的音訊作為輸入，從可學習的記憶庫（Learnable Memory Bank）中檢索語言和非語言動作，以構建互動式動作特徵。後者利用互動式運動特徵作為條件，與其他訊號一起透過去噪生成運動潛碼。

實驗結果

在實驗章節中，文中從多個方面詳細對比了 INFP 和其它市面上 SOTA 方案，以此來證明該方法的有效性。

此外，文中頁分別對比了 INFP 和 Talking Head Generation 以及 Listening Head Generation 方法，以此證明該方法在「單一互動」場景中的生成效果依然可以做到 SOTA。

效果展示

動作多樣性效果展示非真人效果展示 即時互動 demo 效果展示

安全說明

此工作僅以學術研究為目的，會嚴格限制模型的對外開放和使用許可權，防止未經授權的惡意利用。

團隊介紹

位元組跳動智慧創作數字人團隊，智慧創作是位元組跳動 AI & 多媒體技術團隊，覆蓋了計算機視覺、音影片編輯、特效處理等技術領域，藉助公司豐富的業務場景、基礎設施資源和技術協作氛圍，實現了前沿演算法 - 工程系統 - 產品全鏈路的閉環，旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。其中數字人方向專注於建設行業領先的數字人生成和驅動技術，豐富智慧創作內容生態。

目前，智慧創作團隊已透過位元組跳動旗下的雲服務平臺火山引擎向企業開放技術能力和服務。更多大模型演算法相關崗位開放中。

GitHub 熱點速覽 Vol.16：化身蒙娜麗莎和賈伯斯對話
2020-04-20
Github
蒙娜麗莎.gif：三星新研究用一張影象合成動圖，無需3D建模
2019-05-23
3D
PIFuHD 讓照片秒變 3D 模型
2020-11-11
3D模型
AI在用｜一款AI影片換臉神器，讓安吉麗娜·朱莉秒變「女版」馬斯克
2024-05-20
AI馬斯克
免費！位元組這款AI音樂神器，30秒速成抖音神曲
2024-08-06
AI
播客接棒線上音訊的盈利夢
2022-05-27
音訊
“梅麗莎”病毒背後的神祕黑客
2018-12-12
黑客
30秒出服裝設計稿，森馬用Serverless+AIGC 整“新活”!
2024-04-29
ServerAIGC
美麗天天秒模式開發_美麗天天秒商城系統搭建
2021-12-13
模式
人臉照片秒變藝術肖像畫：清華大學提出APDrawingGAN CVPR 2019 oral paper
2019-06-12
位元組跳動“玩心”變重
2019-06-13
掌握 tar 命令讓你秒變大牛
2023-03-29
30 秒出服裝設計稿，森馬用函式計算+AIGC 整“新活”!
2024-04-30
函式AIGC
萊莎是這樣誕生的！《萊莎的鍊金工房》人設分享設計變遷
2019-08-19
音訊驅動人像影片模型：位元組Loopy、CyberHost研究成果揭秘
2024-09-12
音訊模型OOP
【秒懂音視訊開發】08_音訊錄製
2021-03-17
音訊
Python字元與位元組新編
2021-06-11
Python字元
sketch-code讓草圖秒變HTML
2018-09-07
HTML
位元組跳動再啟音樂夢
2021-09-22
新華三用科技讓體彩更“絢麗”
2018-05-11
ECCV 2018 | GANimation讓圖片秒變GIF表情包，秒殺StarGAN
2018-08-09
【秒懂音視訊開發】13_音訊重取樣
2021-04-09
音訊
2025，誰會成為 AI Agent 的新入口？｜播客《編碼人聲》
2025-01-09
AI
Mac音訊格式批處理轉換推薦，“Fission”讓音訊編輯變得簡單！
2020-11-26
Mac音訊
LM Studio讓你的Mac秒變AI神器！
2024-11-05
MacAI
溫故知新，基於播客形式學習英語之EnglishPod 365, Elementary集合41-50(音訊、原文、講解)
2024-11-17
音訊
溫故知新，基於播客形式學習英語之EnglishPod 365, Elementary初級B集合(音訊、原文、講解)
2024-10-24
音訊
荔枝財報背後：騰訊、位元組跳動、快手們都盯上了線上音訊
2020-11-16
音訊
音樂領域：騰訊、網易、位元組跳動“三路出擊”
2022-12-26
手握15億月活，位元組跳動跳向何方？
2019-07-12
WAV音訊檔案按秒切片段
2024-05-01
音訊
音訊“黑科技”上新，華為雲會議讓“雲端”聲音更真切！
2022-11-25
音訊
OpenAI：可從15秒的音訊中克隆出聲音
2024-03-30
OpenAI音訊
【秒懂音視訊開發】06_重識聲音
2021-03-10
8500億遊戲行業變天，位元組跳動殺入騰訊腹地
2020-04-07
遊戲行業
最全電腦快捷鍵，讓你秒變職場達人！提升效率很重要！轉需！
2018-12-24
基於HDPHP的視訊播客開發視訊
2020-04-04
PHP
抖音電商新的解決方案-成都香播播助力抖音電商發展
2021-10-09

位元組整新活！照片+音訊讓蒙娜麗莎秒變播客主理人

相關文章