AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本論文作者主要來自於騰訊光子工作室團隊,一作何炫華 (hexuanhua@mail.ustc.edu.cn) 是中國科技大學在讀的研究生,他的研究方向為影像 / 影片生成模型與底層視覺;作者劉權德 (qdliu0226@gmail.com)、錢湦鉅 (thesouthfrog@gmail.com),目前就職於騰訊光子工作室,博士均畢業於香港中文大學。
近年來,定製化的人物生成技術在社群中引起了廣泛關注。一系列創新性的模型,如 IP-Adapter、Photomaker、InstantID 等,已在影像生成領域取得了令人矚目的成果。這些定製化內容生成方法逐漸成為主流,其一個重要的優勢便是即插即用,取代了那些需要逐例微調的 Dreambooth,LoRA 等方法。
然而,儘管在影像生成領域取得了巨大的成功,這些方法在影片生成領域卻遇到了阻礙。相較於影像,影片生成模型的訓練需要更大的算力投入。同時,在影片資料集方面,迄今為止仍缺乏類似影像生成領域高質量的文字 - 影片配對人臉資料集。此外,如何提取人物身份一致性的特徵也是一個難題。
為了應對這些挑戰,騰訊光子近期釋出的工作 ID-Animator,提出了一種文字驅動的人物影片生成框架。該框架旨在根據給定的一張參考圖片,生成一致性的角色 定製化影片。透過這一創新性技術,研究者可以期待在不久的將來,人們將能夠更輕鬆地實現定製化的人物影片生成,從而為各種應用場景帶來更加豐富的視覺體驗。
論文地址: https://arxiv.org/abs/2404.15275
Github 地址: https://github.com/ID-Animator/ID-Animator
Huggingface 地址: https://huggingface.co/spaces/ID-Animator/ID-Animator
首先,讓我們直觀感受一下 ID-Animator 生成的影片效果,能夠輕鬆的讓不同的角色做起豐富的動作:ID-Animator 不僅能生成 ID 一致的人類影片,還具備人臉特徵融合的能力:
此外,ID-Animator 還可以相容開源社群上的多種權重,為影片生成帶來更多可能性:
方法概覽
研究團隊提出的方法可以概括為三個核心元件,如圖所示。這三個部分包括:面向 ID 的影片資料集重構流程、隨機人臉參考的訓練方法,以及 ID-Animator 模型框架。透過這三個關鍵組成部分,ID-Animator 成功實現了高保真的一致性人物影片生成。
ID-Animator 框架
ID-Animator 框架由一個輕量級的人臉介面卡模組和一個影片生成主幹網路組成。其影片生成主幹網路權重在訓練過程中保持固定,無需微調。人臉介面卡模組則由交叉注意力模組和可學習的面部特徵查詢組成,負責從 CLIP 編碼的特徵中提取與身份相關的表徵,並將身份表徵注入主幹網路。利用這種輕量級的介面卡模組,ID-Animator 只需要很小的訓練開銷就能實現人物一致性的影片生成。
面向 ID 的資料集構建
為了應對以 ID 為核心的成對影片 - 文字資料集在影片生成領域的稀缺挑戰,研究者們提出了一套巧妙的資料集重構策略。他們利用現有的 Celebv-HQ 資料集,將其重構為以 ID 為中心的人類影片資料集。這一策略分為兩個主要步驟:文字重寫和麵部影像資源庫構建。
現有的 Celebv 資料集的文字描述採用固定模板,主要關注人物表情的變化,卻忽略了人物屬性與所處環境,同時缺乏對動作的描述,因此不適用於文字生成影片的訓練。為了解決這一問題,研究者們提出了一種新穎的文字重寫方法,旨在生成更貼切的人類影片描述文字。考慮到影片整體特徵和人物靜態屬性,他們採用了一種解耦式的文字重寫方法,分別描述人物屬性和環境,生成人類屬性描述;同時描述影片中人物的整體動作,生成動作描述。最後,藉助大型語言模型將兩種描述整合,生成連貫且豐富的全新文字。
如圖所示,重寫後的文字描述更接近人類的語言風格,並能更好地描述人物的運動和屬性。這一創新性方法為影片生成領域提供了一個更實用、更高質量的資料集基礎。
為了進一步提升生成影片的身份保持能力,研究者們引入了一種隨機面部提取技術。這種技術的特點在於,它並不直接採用整個影片幀作為生參考影像,而是構建資料集時專門針對人臉區域進行隨機取樣,從而形成一個獨立的面部影像資源庫。這一策略有效地過濾了大量非身份決定性的視覺資訊,如背景變化、衣著裝飾等,使得生成模型能夠更加專注於學習和重現個體的面部特徵與表情細節。
隨機參考人臉訓練方法
利用資料集面部資源庫,研究者們提出了一種隨機參考人臉的訓練方法。這種方法的核心在於利用與影片內容弱相關的參考影像作為條件輸入,引導模型在生成影片內容時,更多地關注指令指導的動作和 ID 無關特徵。
具體操作上,研究者們從人臉資源庫中隨機選取參考影像,使得每次訓練迭代都能為模型提供一個新的、與目標影片序列關聯較弱的面部影像作為參考。這種方法實現了影片內容與人臉參考影像的解耦,有助於模型更好地學習和生成符合指令的動作,同時減弱與身份無關的特徵的影響。
實驗結果
與 IP-Adapter 對比
研究者們首先將 ID-Animator 與常用的零樣本定製化影像生成模型 IP-Adapter 的變體進行對比。將零樣本定製化影像生成模型直接應用於影片生成時,可能會導致指令跟隨能力和 ID 一致性的降低。為了證明 ID-Animator 的優越效能,研究者們展示了在 3 個名人和普通人上的對比結果。
如圖所示,ID-Animator 在影片場景下展現出了更強大的指令跟隨能力和 ID 保真度。
應用展示
上下文重塑:ID-Animator 能夠利用文字引導,動態調整角色的多維度屬性,包括髮型、服飾、性別,執行特定的動作和改變角色所處環境等。
ID 特徵融合: ID-Animator 能夠將不同身份的特徵以不同比例混合,從而生成結合兩種身份特徵的影片。
與 ControlNet 結合:ID-Animator 具有與 ControlNet 等現有細粒度條件模組的相容性,這意味著使用者能透過上傳特定的引導影像或影像序列,精確指引影片中每一幀的生成細節。
社群模型推理:ID-Animator 能夠和 Civitai 社群的多種模型相容,即使在未曾訓練過的模型權重上也能保持有效性,能夠生成多種風格的影片。
更多詳細內容,請閱讀原論文。