AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片

机器之心發表於2025-02-05

還記得半年前在 X 上引起熱議的肖像音訊驅動技術 Loopy 嗎?升級版技術方案來了,位元組跳動數字人團隊推出了新的多模態數字人方案 OmniHuman, 其可以對任意尺寸和人物佔比的單張圖片結合一段輸入的音訊進行影片生成,生成的人物影片效果生動,具有非常高的自然度。

如對下面圖片和音訊:

圖片AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片OmniHuman 生成的人物可以在影片中自然運動: AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片從專案主頁上可以看到 OmniHuman 對肖像、半身以及全身這些不同人物佔比、不同圖片尺寸的輸入都可以透過單個模型進行支援,人物可以在影片中生成和音訊匹配的動作,包括演講、唱歌、樂器演奏以及移動。對於人物影片生成中常見的手勢崩壞,也相比現有的方法有顯著的改善。 AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片作者也展示模型對非真人圖片輸入的支援,可以看到對動漫、3D 卡通的支援也很不錯,能保持特定風格原有的運動模式。據悉,該技術方案已落地即夢 AI,相關功能將於近期開啟測試。 AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片
更多細節和展示效果,請檢視:

  • 論文專案主頁:https://omnihuman-lab.github.io/
  • 技術報告:https://arxiv.org/abs/2502.01061

研究問題

基於擴散 Transformer(DiT)的影片生成模型透過海量影片 - 文字資料訓練,已能輸出逼真的通用影片內容。其核心優勢在於從大規模資料中學習到的強大通用知識,使模型在推理時展現出優異的泛化能力。在細分的人像動畫領域,現有技術主要聚焦兩類任務:音訊驅動的面部生成(如語音口型同步)和姿勢驅動的身體運動合成(如舞蹈動作生成)。2023 年後端到端訓練方案的突破,使得現有技術方案通常能夠對具有固定尺寸和人像比例的輸入影像生成動畫,實現精準的口型同步與微表情捕捉。

然而,技術瓶頸日益凸顯:當前模型依賴高度過濾的訓練資料(如固定構圖、純語音片段),雖保障了訓練穩定性,卻引發 "溫室效應"— 模型僅在受限場景(如固定構圖、真人形象)中表現良好,難以適應不同畫面比例、多樣化風格等複雜輸入。更嚴重的是,現有資料清洗機制在排除干擾因素時,往往也丟失了大量有價值的資料,導致生成效果自然度低、質量差。

這種困境導致技術路線陷入兩難:直接擴大資料規模會因訓練目標模糊(如音訊訊號與肢體運動的弱相關性)導致模型效能下降;而維持嚴格篩選策略又難以突破場景限制。如何既能保留有效運動模式學習,又能從大資料規模學習中受益成為當前研究重點。

技術方案

據技術報告,OmniHuman,面向端到端人像驅動任務中高質量資料稀缺的問題,採用了一種 Omni-Conditions Training 的混合多模態訓練策略,並相應的設計了一個 OmniHuman 模型,透過這種混合多模態訓練的設計,可以將多種模態的資料一起加入模型進行訓練,從而大幅度的增加了人像驅動模型的可訓練資料,使得模型可以從大規模資料中受益,對各種類似的輸入形式有了比較好的支援。

Omni-Conditions Training. 在模型訓練過程中,作者將多種模態按照和運動的相關性進行區分,依序進行混合條件訓練。這個多模態訓練遵循兩個原則:

原則 1: 較強條件的任務可以利用較弱條件的任務及其資料來擴充套件訓練資料規模。例如,由於口型同步準確性、姿態可見性和穩定性等過濾標準,音訊和姿態條件任務中排除的資料可以用於文字和影像條件任務。因此,在早期階段捨棄音訊和姿態條件,在後期逐步加入。

原則 2: 條件越強,訓練比例應越低。較強的運動相關條件(如姿態)由於歧義較少,訓練效果通常優於較弱的條件(如音訊)。當兩種條件同時存在時,模型傾向於依賴較強條件進行運動生成,導致較弱條件無法有效學習。因此,需要確保較弱條件的訓練比例高於較強條件。

基於以上原則設計他們構建了多個階段的訓練過程,依次增加文字、影像、音訊以及姿態模態參與模型訓練,並降低對應的訓練佔比。
圖片
圖片
OmniHuman 技術框架圖

Omni-Conditions Model. 除了 Omni-Conditions Training 訓練策略以外,OmniHuman 採用了基於 DiT 架構的影片生成框架,使得模型相容多種模態的條件注入方式,包括文字、影像、音訊和姿態,多模態的條件被區分為兩類:驅動條件和外觀條件。

對於驅動條件,作者對音訊特徵透過 cross attention 實現條件注入,對於姿態特徵透過 Heatmap 特徵編碼後和 Noise 特徵進行拼接實現條件注入,對於文字特徵,則保持了 MMDiT 的條件注入方式。

對於外觀條件,作者沒有像現有工作一樣採用一個單獨的參考圖網路 (Reference Net),而是直接利用去噪聲網路 (Denoising Net) 對輸入影像進行特徵編碼,複用了 backbone 的特徵提取方式,參考圖特徵會和 Noise 特徵進行拼接實現條件注入

效果對比

作者給出了和目前行業領先的方案的效果對比,透過單個模型同時對比了針對不同人物佔比的專有模型,仍然可以取得顯著的整體效果優勢。
圖片
除了數值分析以外,作者也分析基於 Omni-Conditions Training 可以改善在人體手勢生成、多樣性輸入影像上的影片生成效果,並展示了混合多模態訓練可以使得單個模型同時相容多種模態驅動,生成可控的生動人像影片的例子。

結論

OmniHuman 是一個端到端的多模態條件人像影片生成框架,能夠基於單張影像和運動訊號(如音訊、影片或兩者)生成人像動畫影片。它提出了一個多模態混合訓練的技術方案,並調研了具體的訓練策略,設計了相應的多模態混合控制的人像影片生成模型,從而克服了以往方法面臨的高質量資料稀缺問題,從大規模資料訓練中受益,學習自然的運動模式。OmniHuman 顯著優於現有方法,能夠從弱訊號(尤其是音訊)生成生動的人類影片。它支援任意縱橫比的影像(如肖像、半身或全身),在各種場景下提供生動、高質量的結果。

團隊介紹

位元組跳動智慧創作數字人團隊,智慧創作是位元組跳動 AI & 多媒體技術中臺,透過建設領先的計算機視覺、音影片編輯、特效處理等技術,支援抖音、剪映、頭條等公司內眾多產品線;同時為外部 ToB 合作伙伴提供業界最前沿的智慧創作能力與行業解決方案。其中數字人方向專注於建設行業領先的數字人生成和驅動技術,豐富智慧創作內容生態。

相關文章