音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘

机器之心發表於2024-09-12
近期,來自位元組跳動影片生成模型 Loopy,一經發布就在 X 上引起了廣泛的討論。Loopy 可以僅僅透過一張圖片和一段音訊生成逼真的肖像影片,對聲音中呼吸,嘆氣,挑眉等細節都能生成的非常自然,讓網友直呼哈利波特的魔法也不過如此。

圖片

圖片

圖片

Loopy 模型採用了 Diffusion 影片生成框架。輸入一張圖片和一段音訊,就可以生成相應的影片。不但可以實現準確的音訊和口型同步,還可以生成細微自然的表情動作,例如人物跟隨情緒節奏做出抬眉、吸氣、憋嘴停頓、嘆氣、肩膀運動等非語言類動作也能很好地被捕捉到;在唱歌時也能表現得活靈活現,駕馭不同風格。音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘 柔和音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘 高昂 音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘
rap

更多豐富風格的展示,可移步專案主頁:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634

在不同的圖片風格上,Loopy 也都表現得不錯,像古風畫像、粘土風格、油畫風格、3D 素材以及側臉的情況等等。
音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘
Loopy 技術方案

具體來說,Loopy 是如何僅需音訊,就能實現這樣生動的效果呢?

圖片

Loopy 框架中分別對外觀資訊(對應圖中左上角)和音訊資訊(圖中左下角)做了相應的方法設計,在外觀上團隊引入了 inter/intra- clip temporal layers 模組,透過 inter-clip temporal layer 來捕捉跨時間片段的時序資訊,透過 intra-clip temporal layer 來捕捉單個片段內的時序資訊,透過分而治之的方式更好建模人物的運動資訊。

圖片

同時為了進一步的提升效果,團隊設計了 Temporal Segment Module 使得 inter-clip temporal layer 可以捕捉長達 100 幀以上的時序資訊,從而可以更好的基於資料學習長時運動資訊依賴,拋棄了空間模版的限制,最終生成更好的人像運動。這就不難理解為什麼 Loopy 可以僅僅依靠音訊,不需要任何空間輔助訊號就可以生成自然逼真的人像影片了。

圖片

除此以外,為了能夠捕捉到細膩的表情變化,團隊設計了一個名為 audio to latents(A2L)的模組,用來增強音訊和頭部運動之間的關聯關係。這個 A2L 模組在訓練過程中會隨機選取音訊、表情引數、運動引數中的一個,將其轉化為 motion latents,作為 diffusion model 的運動控制訊號。在測試的時候,只需要音訊就能夠得到 motion latents。透過這種方式,可以藉助與肖像運動強相關的條件(表情引數、運動引數)來幫助較弱相關的條件(audio)生成更好的 motion latents,進而實現對細微生動的肖像運動及表情的生成。

Loopy 在不同場景下都和近期的方法做了數值對比,也體現了相當的優勢:

圖片

圖片

CyberHost 半身人像版模型,手部動作也能驅動

除此以外,該團隊近期還推出了一個名為 CyberHost 的半身人像版本。這款模型是首個採用端到端演算法框架進行純音訊驅動的半身影片生成系統,將驅動範圍從肖像擴大到了半身,不僅表情自然、口型準確,也能生成和音訊同步的手部動作,這在該領域是一個重大突破。

手部動作生成一直是影片生成技術中的難題,鮮有模型能實現穩定的效果。特別是在純音訊驅動的場景下,由於缺乏骨架資訊輸入,保持手部動作的穩定性更具挑戰。CyberHost 透過專門設計的 Codebook Attention 來強化對人臉和手部等關鍵區域的結構先驗學習,在純音訊驅動下的手部生成質量甚至超越了許多基於影片驅動的方法。

圖片音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘圖片音訊驅動人像影片模型:位元組Loopy、CyberHost研究成果揭秘

Codebook Attention 引入了一系列可學習的時空聯合隱變數引數,專注於在訓練過程中學習資料集中區域性區域的結構特徵和運動模式。同時,該機制還提取了關鍵區域的外觀特徵,強化了區域性 ID 的一致性。團隊將這一機制應用於臉部和手部區域,並在 Denoising U-Net 的各個階段進行插入,提升了對關鍵區域的建模能力。

圖片

此外,CyberHost 還設計了一系列基於人體結構先驗的訓練策略,旨在減少音訊驅動下人體動作生成的不確定性。這些策略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用於限制影片生成中人體的運動範圍。而 Hand Clarity Score 透過計算區域性畫素的 laplacian 運算元來控制生成手部的清晰度,規避手部運動模糊帶來的效果劣化。

更多細節見論文以及專案主頁:
CyberHost: https://cyberhost.github.io/, https://arxiv.org/pdf/2409.01876

團隊介紹

位元組跳動智慧創作數字人團隊,智慧創作是位元組跳動 AI & 多媒體技術團隊,覆蓋了計算機視覺、音影片編輯、特效處理等技術領域,藉助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實現了前沿演算法 - 工程系統 - 產品全鏈路的閉環,旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。其中數字人方向專注於建設行業領先的數字人生成和驅動技術,豐富智慧創作內容生態。

目前,智慧創作團隊已透過位元組跳動旗下的雲服務平臺火山引擎向企業開放技術能力和服務。更多大模型演算法相關崗位開放中。

相關文章