曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包

机器之心發表於2024-06-26

日前,曠視科技釋出了一項新的開源 AI 人像影片生成框架 ——MegActor。基於該框架,使用者只需輸入一張靜態的肖像圖片,以及一段影片(演講、表情包、rap)檔案,即可生成一段表情豐富、動作一致的 AI 人像影片。MegActor 所生成的影片長度,取決於給定的驅動影片的長度。與阿里 EMO、微軟 VASA 等最新湧現的 AI 影片模型不同,曠視 MegActor 將採用開源的方式,提供給開發者社群使用。MegActor 能夠呈現出絲毫畢現的效果,面部細節更加豐富自然,畫質更出色。 曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包為了進一步展示其泛化性,MegActor 甚至可以讓 VASA 裡面的人物肖像和它們的影片彼此組合生成,得到表情生動的影片生成結果。 曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包即使是對比阿里 EMO 的官方 Case,MegActor 也能生成近似的結果。 曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包

總的來說,不管是讓肖像開口說話,讓肖像進行唱歌 Rap,還是讓肖像模仿各種搞怪的表情包,MegActor 都可以得到非常逼真的生成效果。曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包
  • 論文:https://arxiv.org/abs/2405.20851
  • 程式碼地址:https://github.com/megvii-research/megactor

  • 專案地址:https://megactor.github.io/

MegActor 是曠視研究院的最新研究成果。曠視研究院,是曠視打造的公司級研究機構。曠視研究院旨在透過基礎創新突破 AI 技術邊界,以工程創新實現技術到產品的快速轉化。經過多年發展,曠視研究院已成為全球規模領先的人工智慧研究院。

在目前的人像影片生成領域,許多工作通常使用高質量的閉源自採資料進行訓練,以追求更好的效果。而曠視研究院始終堅持全面開源,確保實際效果的可復現性。MegActor 的訓練資料全部來自公開可獲取的開源資料集,配合開原始碼,使得感興趣的從業者可以從頭開始完整復現這些令人驚豔的效果。

為了完全復刻原始影片的表情和動作,MegActor 採用了原始影像進行驅動,這與多數廠商使用 sketch、pose、landmark 的中間表示皆然不同,能夠捕捉到細緻的表情和運動資訊。

曠視開源的AI人像影片生成太炸了!輸入照片即可模仿任意表情包

曠視科技研究總經理範浩強表示,在 AI 影片生成領域,我們發現目前主流的骨骼關鍵點控制方式不僅要求使用者提供難以獲取的專業控制訊號,同時生成影片相較於原肖像的保真程度也不盡如人意。透過一系列研究發現,使用原影片進行驅動,不僅將幫助使用者降低控制訊號的門檻,更能生成更加保真且動作一致的影片。

具體來說,MegActor 主要由兩個階段構成:

  • 使用了一個 ReferenceNet 對參考影像進行特徵提取,負責得到參考影像的外觀和背景等資訊;
  • 使用了一個 PoseGuider,對輸入的影片進行運動和表情資訊提取,負責將運動和表情資訊遷移到參考影像上。

儘管相較於使用音訊或 landmark 等表示方式,使用原始影片進行驅動能帶來更加豐富的表情細節和運動資訊。然而,使用原始影片進行驅動依然存在兩大核心技術挑戰:一是 ID 洩露問題;二是原始影片中的背景和人物皺紋等無關資訊會干擾影響合成表現。

為此,MegActor 開創性地採用了條件擴散模型。首先,它引入了一個合成資料生成框架,用於建立具有一致動作和表情但不一致身份 ID 的影片,以減輕身份洩露的問題。其次,MegActor 分割了參考影像的前景和背景,並使用 CLIP 對背景細節進行編碼。這些編碼的資訊隨後透過文字嵌入模組整合到網路中,從而確保了背景的穩定性。

在資料訓練方面,曠視研究院團隊僅使用公開的資料集進行訓練,處理了 VFHQ 和 CeleV 資料集進行訓練,總時長超過 700 小時。同時,為了避免 ID 洩露問題,MegActor 還使用換臉和風格化方法 1:1 生成合成資料,實現表情和動作一致、但 ID 不一致的資料。此外,為了提高對大範圍動作和誇張表情的模仿能力,團隊使用注視檢測模型對資料進行處理,獲取大約 5% 的高質量資料進行 Finetune 訓練。

透過採用一系列新的模型框架和訓練方法,曠視研究院團隊僅使用了不到 200 塊 V100 顯示卡小時的訓練時長,最終實現的具體特性包括:

  • 可以根據輸入的影片生成任意持續時間的模仿影片,同時保證角色身份的一致性
  • 支援各種驅動影片,如演講、唱歌、表情包等
  • 支援不同的畫風(照片、傳統繪畫、漫畫、AI 數字人等)

與音訊生成的方法相比,MegActor 生成的影片,不僅能確保表情和動作一致,更能達到同樣的自然程度。

目前,MegActor 已經完全開源,供廣大開發者和使用者即開即用。

相關文章