Open main menu
IT人
音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘
机器之心
發表於
2024-09-12
原文網址 :
https://www.jiqizhixin.com/articles/2024-09-12-7
音訊
模型
OOP
近期,來自
位元組跳動
的
影片生成
模型 Loopy,一經發布就在 X 上引起了廣泛的討論。Loopy 可以僅僅透過一張圖片和一段音訊生成逼真的肖像影片,對聲音中呼吸,嘆氣,挑眉等細節都能生成的非常自然,讓網友直呼哈利波特的魔法也不過如此。
Loopy 模型採用了 Diffusion
影片生成
框架。輸入一張圖片和一段音訊,就可以生成相應的影片。不但可以實現準確的音訊和口型同步,還可以生成細微自然的表情動作,例如人物跟隨情緒節奏做出抬眉、吸氣、憋嘴停頓、嘆氣、肩膀運動等非語言類動作也能很好地被捕捉到;在唱歌時也能表現得活靈活現,駕馭不同風格。
柔和
高昂
rap
更多豐富風格的展示,可移步專案主頁:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634
在不同的圖片風格上,Loopy 也都表現得不錯,像古風畫像、粘土風格、油畫風格、3D 素材以及側臉的情況等等。
Loopy 技術方案
具體來說,Loopy 是如何僅需音訊,就能實現這樣生動的效果呢?
Loopy 框架中分別對外觀資訊(對應圖中左上角)和音訊資訊(圖中左下角)做了相應的方法設計,在外觀上團隊引入了 inter/intra- clip temporal layers 模組,透過 inter-clip temporal layer 來捕捉跨時間片段的時序資訊,透過 intra-clip temporal layer 來捕捉單個片段內的時序資訊,透過分而治之的方式更好建模人物的運動資訊。
同時為了進一步的提升效果,團隊設計了 Temporal Segment Module 使得 inter-clip temporal layer 可以捕捉長達 100 幀以上的時序資訊,從而可以更好的基於資料學習長時運動資訊依賴,拋棄了空間模版的限制,最終生成更好的人像運動。這就不難理解為什麼 Loopy 可以僅僅依靠音訊,不需要任何空間輔助訊號就可以生成自然逼真的人像影片了。
除此以外,為了能夠捕捉到細膩的表情變化,團隊設計了一個名為 audio to latents(A2L)的模組,用來增強音訊和頭部運動之間的關聯關係。這個 A2L 模組在訓練過程中會隨機選取音訊、表情
引數
、運動
引數
中的一個,將其轉化為 motion latents,作為 diffusion model 的運動控制訊號。在測試的時候,只需要音訊就能夠得到 motion latents。透過這種方式,可以藉助與肖像運動強相關的條件(表情
引數
、運動
引數
)來幫助較弱相關的條件(audio)生成更好的 motion latents,進而實現對細微生動的肖像運動及表情的生成。
Loopy 在不同場景下都和近期的方法做了數值對比,也體現了相當的優勢:
CyberHost 半身人像版模型,手部動作也能驅動
除此以外,該團隊近期還推出了一個名為 CyberHost 的半身人像版本。這款模型是首個採用端到端演算法框架進行純音訊驅動的半身
影片生成
系統,將驅動範圍從肖像擴大到了半身,不僅表情自然、口型準確,也能生成和音訊同步的手部動作,這在該領域是一個重大突破。
手部動作生成一直是
影片生成
技術中的難題,鮮有模型能實現穩定的效果。特別是在純音訊驅動的場景下,由於缺乏骨架資訊輸入,保持手部動作的穩定性更具挑戰。CyberHost 透過專門設計的 Codebook Attention 來強化對人臉和手部等關鍵區域的結構先驗學習,在純音訊驅動下的手部生成質量甚至超越了許多基於影片驅動的方法。
Codebook Attention 引入了一系列可學習的時空聯合
隱變數
引數
,專注於在訓練過程中學習資料集中區域性區域的結構特徵和運動模式。同時,該機制還提取了關鍵區域的外觀特徵,強化了區域性 ID 的一致性。團隊將這一機制應用於臉部和手部區域,並在 Denoising U-Net 的各個階段進行插入,提升了對關鍵區域的建模能力。
此外,CyberHost 還設計了一系列基於人體結構先驗的訓練策略,旨在減少音訊驅動下人體動作生成的不確定性。這些策略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用於限制
影片生成
中人體的運動範圍。而 Hand Clarity Score 透過計算區域性畫素的 laplacian 運算元來控制生成手部的清晰度,規避手部運動模糊帶來的效果劣化。
更多細節見論文以及專案主頁:
CyberHost: https://cyberhost.github.io/, https://arxiv.org/pdf/2409.01876
團隊介紹
位元組跳動
智慧創作數字人團隊,智慧創作是
位元組跳動
AI & 多媒體技術團隊,覆蓋了
計算機視覺
、音影片編輯、特效處理等技術領域,藉助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實現了前沿演算法 - 工程系統 - 產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。其中數字人方向專注於建設行業領先的數字人生成和驅動技術,豐富智慧創作內容生態。
目前,智慧創作團隊已透過
位元組跳動
旗下的雲服務平臺火山引擎向企業開放技術能力和服務。更多大模型演算法相關崗位開放中。
相關文章
【論文速讀】位元組跳動音樂生成模型 Seed-Music
2024-10-15
模型
位元組跳動再啟音樂夢
2021-09-22
音樂領域:騰訊、網易、位元組跳動“三路出擊”
2022-12-26
耳朵沒錯,是聲音太真了,位元組豆包語音合成成果Seed-TTS技術揭秘
2024-06-26
TTS
荔枝財報背後:騰訊、位元組跳動、快手們都盯上了線上音訊
2020-11-16
音訊
揭秘位元組跳動業務背後的分散式資料治理思路
2023-03-14
分散式
LeCun贊轉!類Sora模型能否理解物理規律?位元組豆包大模型團隊系統性研究揭秘
2024-11-08
LeCun
Sora
大模型
即夢AI首發,位元組自研影片生成模型Seaweed開放使用
2024-11-08
AI
模型
中信建投:孤獨的騰訊,跳動的位元組(位元組跳動篇-附下載)
2019-07-02
(乾貨)Ai音響和Linux音訊驅動小談
2018-11-15
AI
Linux
音訊
Android音訊驅動學習(一) Audio HAL
2020-11-16
Android
音訊
AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片
2025-02-05
AI
視覺
圖靈
音訊
火山引擎 DataLeap:揭秘位元組跳動資料血緣架構演進之路
2023-03-02
架構
位元組跳動入局遊戲,再造一個抖音
2019-11-07
遊戲
抖音的母公司位元組跳動正在快速增長
2021-06-30
位元組跳動視訊編解碼面經
2019-11-20
位元組跳動VS騰訊:世紀之戰
2019-07-18
與位元組、小米、移動雲等企業一起揭秘 RocketMQ 實踐之道
2022-07-28
MQ
位元組跳動打遊戲,抖音平臺當先鋒?
2019-09-03
遊戲
位元組影片生成模型 PixelDance上線即夢AI,使用者可免費體驗
2024-11-18
模型
LDA
AI
聲網Agora Lipsync 技術揭祕:通過實時語音驅動人像模擬真人說話
2022-02-18
Go
Voodoo、騰訊的王炸組合能否“幹掉”位元組跳動?
2020-08-19
Odoo
Flutter(十) 音訊+影片播放
2023-05-06
Flutter
音訊
位元組跳動上海招人
2019-01-16
不要神化位元組跳動
2020-11-04
JAVA動態位元組碼
2019-02-17
Java
學Linux驅動: 應該先了解驅動模型
2020-06-02
Linux
模型
linux核心匯流排驅動模型-驅動篇
2020-11-03
Linux
模型
位元組跳動BitsAI-CR:基於LLM的程式碼審查系統技術揭秘
2025-02-03
AI
Windows 11重新安裝音訊驅動程式的教程
2021-12-25
Windows
音訊
位元組跳動-技術美術(抖音特效開發)一面
2020-07-18
特效
行為驅動模型-Behave
2020-08-05
模型
位元組跳動近日申請多個“位元組遊戲”商標
2020-04-16
遊戲
markdown插入圖片、音訊影片
2023-05-07
音訊
攪局者,位元組跳動
2019-10-30
位元組跳動“玩心”變重
2019-06-13
再見了,位元組跳動
2022-01-13
位元組跳動ios面經
2020-12-25
iOS