讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了

机器之心發表於2024-02-29

原文網址 : https://www.jiqizhixin.com/articles/2024-02-29-8

Sora阿里

有了阿里的 EMO，AI 生成或真實的影像「動起來說話或唱歌」變得更容易了。

最近，以 OpenAI Sora 為代表的文生影片模型又火了起來。

而除了文字生成影片之外，以人為中心的影片合成也一直是研究的焦點，比如專注於說話人頭部（Talking Head）的影片生成，它的目標是根據使用者提供的音訊片段來生成面部表情。

從技術上來看，生成表情需要捕獲說話人微妙和多樣化的面部動作，由此對此類影片合成任務提出了重大挑戰。

傳統方法通常會對最終的影片輸出施加限制，以簡化任務。比如，一些方法使用 3D 模型來限制面部關鍵點，另一些方法則從原始影片中提取頭部運動的序列以指導整體運動。這些限制雖然降低了影片生成的複雜性，但也往往限制了最終面部表情的豐富度和自然度。

在阿里智慧計算研究院近日的一篇論文中，研究者透過關注音訊提示和麵部動作之間的動態和細微聯絡，來增強說話人頭部影片生成的真實度、自然度和表現力。

研究者發現，傳統方法往往無法捕捉完整範圍的說話人表情和不同說話人獨特的面部風格。基於此，他們提出了 EMO（全稱為 Emote Portrait Alive）框架，該框架可以直接利用音訊 - 影片合成方法，不再需要中間 3D 模型或面部標誌。

論文標題：EMO: Emote Portrait Alive- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
論文地址：https://arxiv.org/pdf/2402.17485.pdf
專案主頁：https://humanaigc.github.io/emote-portrait-alive/

就效果而言，阿里的方法可以確保整個影片的無縫幀過渡，並保持身份一致，進而產生表現力強和更加逼真的角色化身影片，在表現力和真實感方面顯著優於當前 SOTA 方法。

比如 EMO 可以讓 Sora 生成的東京女郎角色開口唱歌，歌曲為英國 / 阿爾巴尼亞雙國籍女歌手 Dua Lipa 演唱的《Don't Start Now》。讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了 EMO 支援包括英文、中文在內等不同語言的歌曲，可以直觀地識別音訊的音調變化，生成動態、表情豐富的 AI 角色化身。比如讓 AI 繪畫模型 ChilloutMix 生成的小姐姐唱陶喆的《Melody》。讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了

EMO 還能讓角色化身跟上快節奏的 Rap 歌曲，比如讓小李子來一段美國說唱歌手 Eminem 的《哥斯拉》（Godzilla）。讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了當然，EMO 不僅僅能讓角色開口唱歌，還支援各種語言的口語音訊，將不同風格的肖像畫、繪畫以及 3D 模型和 AI 生成的內容製作成栩栩如生的動畫影片。比如奧黛麗赫本的談話。讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了

最後，EMO 還能實現不同角色之間的聯動，比如《狂飆》高啟強聯動羅翔老師。讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了

方法概覽

給定人物肖像的單張參考影像，本文方法可以生成與輸入語音音訊片段同步的影片，還能保留人物非常自然的頭部運動和生動的表情，並且與所提供的聲音音訊的音調變化相協調。透過建立一系列無縫的級聯影片，該模型有助於生成具有一致身份和連貫運動的長時間說話肖像影片，這對於現實應用至關重要。

網路 Pipeline

方法概覽如下圖所示。主幹網路接收多幀噪聲潛在輸入，並嘗試在每個時間步驟中將它們去噪為連續的影片幀，主幹網路具有與原始 SD 1.5 版本相似的 UNet 結構配置，具體而言

與之前的工作相似，為了確保生成幀之間的連續性，主幹網路嵌入了時間模組。
為了保持生成幀中人像的 ID 一致性，研究者部署了一個與主幹網路並行的 UNet 結構，稱為 ReferenceNet，它輸入參考影像以獲取參考特徵。
為了驅動角色說話時的動作，研究者使用了音訊層來編碼聲音特徵。
為了使說話角色的動作可控且穩定，研究者使用臉部定位器和速度層提供弱條件。

對於主幹網路，研究者沒有使用提示嵌入，因此，他們將 SD 1.5 UNet 結構中的交叉注意力層調整為參考注意力層。這些修改後的層將從 ReferenceNet 獲取的參考特徵作為輸入，而非文字嵌入。

訓練策略

訓練過程分為三個階段：

第一階段是影像預訓練，其中主幹網路、ReferenceNet 和麵部定位器被納入訓練過程中，在這個階段，主幹網路以單一幀作為輸入，而 ReferenceNet 處理來自同一影片剪輯的不同的、隨機選擇的幀。主幹網路和 ReferenceNet 都從原始 SD 初始化權重。

在第二階段，研究者引入了影片訓練，並且加入了時間模組和音訊層，從影片剪輯中取樣 n+f 個連續幀，其中起始的 n 幀為運動幀。時間模組從 AnimateDiff 初始化權重。

最後一個階段整合了速度層，研究者只在這個階段訓練時間模組和速度層。這種做法是為了故意忽略訓練過程中的音訊層。因為說話人的表情、嘴部運動和頭部運動的頻率主要受音訊的影響。因此，這些元素之間似乎存在相關性，模型可能會根據速度訊號而不是音訊來驅動角色的運動。實驗結果表明，同時訓練速度層和音訊層削弱了音訊對角色運動的驅動能力。

實驗結果

實驗過程中參與比較的方法包括 Wav2Lip、SadTalker、DreamTalk。

圖 3 展示了本文方法與先前方法的比較結果。可以觀察到，當提供單個參考影像作為輸入時，Wav2Lip 通常會合成模糊的嘴部區域並生成以靜態頭部姿態和最小眼部運動為特徵的影片。就 DreamTalk 而言，其結果可能會扭曲原始面孔，也會限制面部表情和頭部運動的範圍。與 SadTalker 和 DreamTalk 相比，該研究提出的方法能夠生成更大範圍的頭部運動和更生動的面部表情。

該研究進一步探索了各種肖像風格的頭像影片生成，如現實、動漫和 3D。這些角色使用相同的聲音音訊輸入進行動畫處理，結果顯示，生成的影片在不同風格之間產生大致一致的唇形同步。

圖 5 表明本文方法在處理具有明顯音調特徵的音訊時能夠生成更豐富的面部表情和動作。例如下圖第三行，高音調會引發角色更強烈、更生動的表情。此外，藉助運動幀還可以擴充套件生成的影片，即根據輸入音訊的長度生成持續時間較長的影片。如圖 5 和圖 6 所示，本文方法即使在大幅運動中也能在擴充套件序列中保留角色的身份。

表 1 結果表明本文方法在影片質量評估方面具有顯著優勢：

超10秒高解析度，北大Open Sora影片生成更強了，還支援華為晶片
2024-04-08
Sora晶片
影片生成SORA隨想
2024-04-25
Sora
阿里「軌跡可控版Sora」，告別「抽卡」，讓影片生成更符合物理規律
2024-08-04
阿里Sora
京東官宣換新Logo京東JOY變胖回應：幸福生活指數變高罷了
2022-02-28
Go
Sora AI影片生成器
2024-07-30
SoraAI
46秒AI生成真人影片爆火，遭線上打假「換口型、聲音」
2024-03-28
AI
Open Sora 釋出！開源的高效復現類 Sora 影片生成方案
2024-03-20
Sora
單鏡頭16秒720p高畫質影片一鍵生成，開源版Sora又有新驚喜了
2024-06-18
Sora
Sora 時代的 AI 影片生成何去何從？
2024-03-07
SoraAI
2019京東商品短影片報告
2020-03-08
京東走上了阿里的老路網友：下一個強勢“阿里”指日可待
2018-07-12
阿里
OpenAI 為 ChatGPT 使用者推出 Sora 影片生成器
2024-12-11
OpenAIChatGPTSora
京東、阿里：健康版圖再博弈
2022-10-09
阿里
殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！
2024-06-18
谷歌AI
京東的18歲，劉強東的29年
2021-06-18
京東雲“殺”出來了
2022-07-15
國產影片大模型奮起直追 Pika、阿里同日釋出“對口型”利器
2024-03-04
大模型阿里
一個支援Sora模型文字生成影片的Web客戶端
2024-02-26
Sora模型Web客戶端
「Sora平替」來了！一鍵生成5秒影片，還免費，我們實測：很頂！
2024-05-21
Sora
阿里、京東被曝全面“縮招”，網際網路寒冬真的來了？
2018-11-15
阿里
劉強東曬出跑之後京東菜又來了！日本技術種植UO
2022-03-20
茅臺回應“京東假茅臺風波”：信任劉強東京東能查明真相
2022-03-20
京東零售CEO徐雷升任京東集團總裁向劉強東彙報
2021-09-06
東京灣區崛起的啟示
2019-09-30
網際網路寒冬真的來了？阿里、京東被曝已全面“縮招”
2018-10-23
阿里
財報相繼出爐：阿里、京東、拼多多走向了三岔口
2020-08-27
阿里
京東健康IPO：槍口對準阿里健康
2020-09-25
阿里
阿里、京東、拼多多C2M博弈
2020-10-27
阿里
京東三高系統建設
2024-09-06
京東短網址高可用提升最佳實踐 | 京東雲技術團隊
2023-05-18
京東取消部分商品7天無理由退貨劉強東膨脹了還是無奈？
2018-05-16
直擊JDD | 共建智慧新城京東雲讓城市生活變得簡單美好
2019-11-20
全日程釋出｜Sora之後的影片生成技術與應用
2024-04-01
Sora
如何讓照片中的人物笑起來？HMS Core影片編輯服務一鍵微笑功能，讓人物笑容更自然
2022-07-28
阿里、京東、蘇寧易購位居全球零售品牌75強（附完整榜單）
2019-05-16
阿里
如何在影片中更改人物的聲音，Movavi Video Suite 2021使用方法
2020-12-01
IDEUI
WorldGPT來了：打造類Sora影片AI智慧體，「復活」圖文
2024-03-21
GPTSoraAI智慧體
《賽博朋克2077》是如何將人物表情和口型本地化的？
2020-12-25

讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了

相關文章