有了阿里的 EMO,AI 生成或真實的影像「動起來說話或唱歌」變得更容易了。
最近,以 OpenAI Sora 為代表的文生影片模型又火了起來。
而除了文字生成影片之外,以人為中心的影片合成也一直是研究的焦點,比如專注於說話人頭部(Talking Head)的影片生成,它的目標是根據使用者提供的音訊片段來生成面部表情。
從技術上來看,生成表情需要捕獲說話人微妙和多樣化的面部動作,由此對此類影片合成任務提出了重大挑戰。
傳統方法通常會對最終的影片輸出施加限制,以簡化任務。比如,一些方法使用 3D 模型來限制面部關鍵點, 另一些方法則從原始影片中提取頭部運動的序列以指導整體運動。這些限制雖然降低了影片生成的複雜性,但也往往限制了最終面部表情的豐富度和自然度。
在阿里智慧計算研究院近日的一篇論文中,研究者透過關注音訊提示和麵部動作之間的動態和細微聯絡,來增強說話人頭部影片生成的真實度、自然度和表現力。
研究者發現,傳統方法往往無法捕捉完整範圍的說話人表情和不同說話人獨特的面部風格。基於此,他們提出了 EMO(全稱為 Emote Portrait Alive)框架,該框架可以直接利用音訊 - 影片合成方法,不再需要中間 3D 模型或面部標誌。
論文標題:EMO: Emote Portrait Alive- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
論文地址:https://arxiv.org/pdf/2402.17485.pdf
專案主頁:https://humanaigc.github.io/emote-portrait-alive/
就效果而言,阿里的方法可以確保整個影片的無縫幀過渡,並保持身份一致,進而產生表現力強和更加逼真的角色化身影片,在表現力和真實感方面顯著優於當前 SOTA 方法。
比如 EMO 可以讓 Sora 生成的東京女郎角色開口唱歌,歌曲為英國 / 阿爾巴尼亞雙國籍女歌手 Dua Lipa 演唱的《Don't Start Now》。EMO 支援包括英文、中文在內等不同語言的歌曲,可以直觀地識別音訊的音調變化,生成動態、表情豐富的 AI 角色化身。比如讓 AI 繪畫模型 ChilloutMix 生成的小姐姐唱陶喆的《Melody》。
EMO 還能讓角色化身跟上快節奏的 Rap 歌曲,比如讓小李子來一段美國說唱歌手 Eminem 的《哥斯拉》(Godzilla)。當然,EMO 不僅僅能讓角色開口唱歌,還支援各種語言的口語音訊,將不同風格的肖像畫、繪畫以及 3D 模型和 AI 生成的內容製作成栩栩如生的動畫影片。比如奧黛麗赫本的談話。
最後,EMO 還能實現不同角色之間的聯動,比如《狂飆》高啟強聯動羅翔老師。
方法概覽
給定人物肖像的單張參考影像,本文方法可以生成與輸入語音音訊片段同步的影片,還能保留人物非常自然的頭部運動和生動的表情,並且與所提供的聲音音訊的音調變化相協調。透過建立一系列無縫的級聯影片,該模型有助於生成具有一致身份和連貫運動的長時間說話肖像影片,這對於現實應用至關重要。
網路 Pipeline
方法概覽如下圖所示。主幹網路接收多幀噪聲潛在輸入,並嘗試在每個時間步驟中將它們去噪為連續的影片幀,主幹網路具有與原始 SD 1.5 版本相似的 UNet 結構配置,具體而言
與之前的工作相似,為了確保生成幀之間的連續性,主幹網路嵌入了時間模組。
為了保持生成幀中人像的 ID 一致性,研究者部署了一個與主幹網路並行的 UNet 結構,稱為 ReferenceNet,它輸入參考影像以獲取參考特徵。
為了驅動角色說話時的動作,研究者使用了音訊層來編碼聲音特徵。
為了使說話角色的動作可控且穩定,研究者使用臉部定位器和速度層提供弱條件。
對於主幹網路,研究者沒有使用提示嵌入,因此,他們將 SD 1.5 UNet 結構中的交叉注意力層調整為參考注意力層。這些修改後的層將從 ReferenceNet 獲取的參考特徵作為輸入,而非文字嵌入。
訓練策略
訓練過程分為三個階段:
第一階段是影像預訓練,其中主幹網路、ReferenceNet 和麵部定位器被納入訓練過程中,在這個階段,主幹網路以單一幀作為輸入,而 ReferenceNet 處理來自同一影片剪輯的不同的、隨機選擇的幀。主幹網路和 ReferenceNet 都從原始 SD 初始化權重。
在第二階段,研究者引入了影片訓練,並且加入了時間模組和音訊層,從影片剪輯中取樣 n+f 個連續幀,其中起始的 n 幀為運動幀。時間模組從 AnimateDiff 初始化權重。
最後一個階段整合了速度層,研究者只在這個階段訓練時間模組和速度層。這種做法是為了故意忽略訓練過程中的音訊層。因為說話人的表情、嘴部運動和頭部運動的頻率主要受音訊的影響。因此,這些元素之間似乎存在相關性,模型可能會根據速度訊號而不是音訊來驅動角色的運動。實驗結果表明,同時訓練速度層和音訊層削弱了音訊對角色運動的驅動能力。
實驗結果
實驗過程中參與比較的方法包括 Wav2Lip、SadTalker、DreamTalk。
圖 3 展示了本文方法與先前方法的比較結果。可以觀察到,當提供單個參考影像作為輸入時,Wav2Lip 通常會合成模糊的嘴部區域並生成以靜態頭部姿態和最小眼部運動為特徵的影片。就 DreamTalk 而言,其結果可能會扭曲原始面孔,也會限制面部表情和頭部運動的範圍。與 SadTalker 和 DreamTalk 相比,該研究提出的方法能夠生成更大範圍的頭部運動和更生動的面部表情。
該研究進一步探索了各種肖像風格的頭像影片生成,如現實、動漫和 3D。這些角色使用相同的聲音音訊輸入進行動畫處理,結果顯示,生成的影片在不同風格之間產生大致一致的唇形同步。
圖 5 表明本文方法在處理具有明顯音調特徵的音訊時能夠生成更豐富的面部表情和動作。例如下圖第三行,高音調會引發角色更強烈、更生動的表情。此外,藉助運動幀還可以擴充套件生成的影片,即根據輸入音訊的長度生成持續時間較長的影片。如圖 5 和圖 6 所示,本文方法即使在大幅運動中也能在擴充套件序列中保留角色的身份。
表 1 結果表明本文方法在影片質量評估方面具有顯著優勢: