CVPR 2025|復旦&微軟開源StableAnimator: 首個端到端ID一致性人類影片生成,Github Star破千

机器之心發表於2025-03-19

圖片第一作者、第二作者分別為復旦大學研究生塗樹源、邢楨,通訊作者為復旦大學吳祖煊副教授。

近年來,擴散模型在影像與影片合成領域展現出強大能力,為影像動畫技術的發展帶來了新的契機。特別是在人物影像動畫方面,該技術能夠基於一系列預設姿態驅動參考影像,使其動態化,從而生成高度可控的人體動畫影片。此類技術在多個應用場景中展現出巨大潛力,包括:(1)影視行業:為動畫製作提供高效解決方案,使虛擬角色的動畫生成更加精細與便捷。(2)遊戲行業:賦予遊戲角色和虛擬人物自然流暢的動作表現,增強互動體驗,使虛擬世界更加真實。(3)自媒體內容創作:助力短影片創作者與數字藝術家擴充創意邊界,實現高度定製化的動態形象設計。

人像動畫生成的關鍵在於:基於參考影像和輸入的動作序列合成動態影片,同時確保人物身份特徵(尤其是面部資訊)的一致性。然而,現有方法在處理複雜動作變化時仍然面臨諸多挑戰:(1)身份一致性受損,面部區域在劇烈動作下易產生形變和失真,難以保持穩定的個體特徵。(2)影片質量下降,當前最先進的人像動畫生成模型(如 MimicMotion 和 ControlneXt)依賴外部換臉工具(FaceFusion)進行後處理,這種方式雖能改善區域性細節,但往往降低整體影片的視覺質量。(3)空間與時間建模的矛盾,即便已有眾多專注於身份一致性的影像生成模型,直接將其嵌入影片擴散模型卻常導致建模衝突。其根本原因在於,影片擴散模型引入時間建模層後,原本穩定的空間特徵分佈被擾動,而基於影像 的 ID 保護方法通常依賴於靜態的空間特徵分佈,這種失衡導致身份保持能力下降,並在 ID 還原與影片流時序暢度之間產生難以調和的矛盾。

為了解決上述問題,我們提出了 StableAnimator 框架,以實現高質量和高保真的 ID 一致性人類影片生成,目前程式碼已開源,包括推理程式碼和訓練程式碼。

圖片

  • 論文地址:https://arxiv.org/abs/2411.17697

  • 專案主頁:https://francis-rings.github.io/StableAnimator/

  • 專案程式碼:https://github.com/Francis-Rings/StableAnimator

  • 專案 Demo: https://www.bilibili.com/video/BV1X5zyYUEuD

CVPR 2025|復旦&微軟開源StableAnimator: 首個端到端ID一致性人類影片生成,Github Star破千方法簡介

如圖所示,StableAnimator 在 Stable Video Diffusion (SVD) 這一常用骨幹模型的基礎上進行構建,以高效處理使用者輸入的參考影像,生成符合輸入姿態序列的影片。其關鍵流程包括三條並行的特徵提取與融合路徑:(1)參考影像首先透過凍結的 VAE 編碼器轉換為潛變數特徵,這些特徵被複制以匹配影片幀數,並與主要潛變數拼接,以確保時序一致性。(2)影像同時經過 CLIP 影像編碼器,提取全域性外觀嵌入,這些嵌入分別輸入至去噪 U-Net 的每個交叉注意力層以及 StableAnimator 專門設計的面部編碼器,以增強生成影像的外觀一致性。(3)此外,影像還經過 ArcFace 進行面部特徵提取,生成的面部嵌入進一步由 StableAnimator 的面部編碼器最佳化,以提升面部對齊度和身份一致性,最佳化後的嵌入最終輸入至去噪 U-Net 以指導生成過程。同時,PoseNet 結構(類似於 AnimateAnyone)負責提取輸入姿態序列的運動特徵,並將其新增至噪聲潛變數特徵中,以確保生成影片的姿態精準匹配輸入序列。

在推理階段,StableAnimator 採用去噪生成策略,將原始輸入影片幀替換為隨機噪聲,同時保持其他輸入資訊不變,以確保生成過程的靈活性和泛化能力。其核心創新在於引入了一種基於 Hamilton-Jacobi-Bellman(HJB)方程的面部最佳化方法,以提升身份一致性並徹底擺脫對外部換臉工具的依賴。具體而言,該方法將 HJB 方程的求解過程嵌入到去噪步驟中,透過計算 HJB 方程的最優解,引導 U-Net 在潛變數特徵的分佈調整上朝向更高的身份一致性方向收斂。這樣一來,去噪過程不僅僅是對隨機噪聲的純粹去除,更是一個動態最佳化過程,使生成的影片在保持高質量的同時,實現面部特徵的精準保留,從而在身份一致性與影片保真度之間達到更優的平衡。

StableAnimator 的核心技術點包括以下三個方面:

(1)全域性內容感知面部編碼器(Global Content-aware Face Encoder):該編碼器創新性地將面部特徵與全域性影像佈局深度融合,利用多層交叉注意力機制,使面部嵌入特徵精準對齊參考影像的整體上下文。透過這種方式,它有效過濾掉與身份無關的背景噪聲,確保面部建模更加穩定,從而提高面部特徵的一致性和清晰度。

(2)分佈感知的身份介面卡(Distribution-aware ID Adapter):針對擴散模型中時序層對空間特徵分佈的干擾問題,該介面卡引入了一種分佈對齊策略。具體而言,它透過計算面部特徵和全域性影像特徵的均值與方差,確保二者在整個去噪過程中保持一致性,避免特徵偏移和失真。該介面卡的設計使得面部特徵能夠無縫適配時序建模層,同時維持影片整體的空間一致性和視覺質量。

(3)基於 Hamilton-Jacobi-Bellman (HJB) 方程的面部最佳化:此最佳化過程僅在推理階段啟用,並不會影響 U-Net 的引數更新。StableAnimator 透過在擴散推理過程中引入 HJB 方程最佳化,使面部特徵的調整遵循最優路徑選擇原則。HJB 最佳化過程與去噪步驟並行進行,使最佳化後的變數對去噪路徑施加約束,從而促使模型在生成過程中保留更高的身份一致性,同時顯著減少面部區域的細節損失,確保影片的高質量輸出。

生成結果示例

圖片

圖片

圖片

圖片

請點選訪問專案主頁(https://francis-rings.github.io/StableAnimator/)獲取以上示例的高畫質原影片。

實驗對比分析

1. 與 SOTA 方法的定性對比實驗

圖片

現有方法在處理面部和身體變形以及服裝變化方面存在明顯侷限。例如,Disco、MagicAnimate、AnimateAnyone 和 Champ 在姿態轉換過程中容易導致面部特徵扭曲或服裝結構丟失,而 Unianimate 在動作匹配方面表現良好,能夠精準調整參考影像的姿態,但仍難以保證身份一致性。同時,MimicMotion 和 ControlNeXt 在保留服裝細節方面具有優勢,但在身份特徵一致性上仍然存在缺陷。相比之下,StableAnimator 透過精確建模姿勢序列驅動影像動畫化,在動態生成過程中不僅保持了參考影像的身份特徵完整性,而且確保了生成結果的細節準確性和生動性,充分展現了在身份一致性和高質量動畫生成方面的顯著優勢。

2. 與 SOTA 方法的定量對比實驗

圖片

StableAnimator 在 TikTok 資料集和 Unseen100 資料集上與當前最先進(SOTA)的人像影像動畫模型進行了定量對比。其中,Unseen100 資料集從主流影片網站額外收集的 100 個影片組成,相較於 TikTok 資料集,Unseen100 具有更復雜的動作資訊和更精細的主體外觀,尤其是包含位置變化和麵部表情動態變化(如搖頭動作),使得保持身份一致性更具挑戰性。為了確保公平性,所有模型均在 StableAnimator 的訓練集上進行訓練後,再在 Unseen100 上進行評估。對比實驗結果表明,StableAnimator 在面部質量(CSIM)和影片保真度(FVD)方面均超越所有對比模型,同時保持了較高的單幀質量。特別是,相較於當前最優的 Unianimate,StableAnimator 在 TikTok 和 Unseen100 資料集上的 CSIM 分別提升了 36.9% 和 45.8%,而這一顯著的身份一致性提升並未以犧牲影片保真度和單幀質量為代價,充分驗證了其在高質量人像動畫生成中的卓越效能。

3. 與 SOTA 方法在長影片生成的對比實驗

圖片

圖片CVPR 2025|復旦&微軟開源StableAnimator: 首個端到端ID一致性人類影片生成,Github Star破千CVPR 2025|復旦&微軟開源StableAnimator: 首個端到端ID一致性人類影片生成,Github Star破千CVPR 2025|復旦&微軟開源StableAnimator: 首個端到端ID一致性人類影片生成,Github Star破千CVPR 2025|復旦&微軟開源StableAnimator: 首個端到端ID一致性人類影片生成,Github Star破千

相關文章