日前,曠視科技釋出了一項新的開源 AI 人像影片生成框架 ——MegActor。基於該框架,使用者只需輸入一張靜態的肖像圖片,以及一段影片(演講、表情包、rap)檔案,即可生成一段表情豐富、動作一致的 AI 人像影片。MegActor 所生成的影片長度,取決於給定的驅動影片的長度。與阿里 EMO、微軟 VASA 等最新湧現的 AI 影片模型不同,曠視 MegActor 將採用開源的方式,提供給開發者社群使用。MegActor 能夠呈現出絲毫畢現的效果,面部細節更加豐富自然,畫質更出色。 為了進一步展示其泛化性,MegActor 甚至可以讓 VASA 裡面的人物肖像和它們的影片彼此組合生成,得到表情生動的影片生成結果。 即使是對比阿里 EMO 的官方 Case,MegActor 也能生成近似的結果。
論文:https://arxiv.org/abs/2405.20851 程式碼地址:https://github.com/megvii-research/megactor
專案地址:https://megactor.github.io/
使用了一個 ReferenceNet 對參考影像進行特徵提取,負責得到參考影像的外觀和背景等資訊; 使用了一個 PoseGuider,對輸入的影片進行運動和表情資訊提取,負責將運動和表情資訊遷移到參考影像上。
可以根據輸入的影片生成任意持續時間的模仿影片,同時保證角色身份的一致性 支援各種驅動影片,如演講、唱歌、表情包等 支援不同的畫風(照片、傳統繪畫、漫畫、AI 數字人等)