阿里巴巴推出EMO:會說話的肖像

banq發表於2024-02-28


阿里巴巴集團智慧計算研究院推出:EMO:Emote Portrait Alive - 在弱條件下使用音影片擴散模型生成富有表現力的肖像影片

我們提出了 EMO,一種富有表現力的音訊驅動的肖像影片生成框架。輸入單個參考影像和聲音音訊,例如說話和唱歌,我們的方法可以生成具有表情豐富的面部表情和各種頭部姿勢的聲音頭像影片,同時,我們可以根據輸入影片的長度生成任意持續時間的影片。

透過專注於音訊線索和麵部運動之間的動態和細微差別的關係,解決了增強說話頭部影片生成中的真實感和表現力的挑戰。我們確定了傳統技術的侷限性,這些技術往往無法捕捉到人類表情的全部頻譜和個人面部風格的獨特性。

為了解決這些問題,我們提出了EMO,一個新的框架,利用直接的音訊到影片的合成方法,繞過中間的3D模型或面部標誌的需要。我們的方法確保了整個影片中的無縫幀轉換和一致的身份保留,從而產生了高度表現力和逼真的動畫。

實驗結果表明,EMO不僅能夠產生令人信服的說話影片,而且還能產生各種風格的唱歌影片,在表現力和真實感方面明顯優於現有的最先進的方法。

效果點選標題

相關文章