騰訊混元聯合港科大及清華推出「Follow Your Emoji」, 一鍵讓照片變表情包

新闻助手發表於2024-06-14

圖生影片又有新玩法。

騰訊混元聯合港科大、清華大學聯合推出肖像動畫生成框架「Follow Your Emoji」,可以透過人臉骨架資訊生成任意風格的臉部動畫,一鍵建立“表情包”。基於演算法革新和資料積累,「Follow Your Emoji」可以支援對臉部進行精細化的控制,包括眉毛,眼珠,翻白眼等細節,動物表情包也可以輕鬆“拿捏”。

騰訊混元聯合港科大及清華推出「Follow Your Emoji」, 一鍵讓照片變表情包

Follow Your Emoji不僅支援單個表情多肖像的生成,也支援單個肖像多表情的生成。

騰訊混元聯合港科大及清華推出「Follow Your Emoji」, 一鍵讓照片變表情包

近年來,擴散模型展示了比舊的對抗式(GAN)方法更好的生成能力。一些方法利用強大的基礎擴散模型進行高質量影片和影像生成, 但這些基礎模型無法直接在動畫過程中保留參考肖像的身份特徵並有效地對肖像進行目標表情建模,導致影片結果顯示出失真和不現實的偽影,特別是在動畫化不常見領域肖像(如卡通、雕塑和動物)。這是肖像動畫任務的主要挑戰之一。

descript

圖:論文整體流程圖,上半部分是訓練流程,下半部分是測試流程

本研究中,研究員提出了一個新穎的基於擴散模型的肖像動畫框架Follow-Your-Emoji。演算法上有兩大主要創新。

首先,引入了表情感知骨架這一表情控制訊號,能夠有效地引導動畫生成。具體來看,研究員們透過肖像(面部)3D關鍵點來定位資訊,由於3D關鍵點具有固有的規範屬性,可以有效地將目標動作與參考肖像對齊,避免出現失真,導致生成的影片臉部變形。

其次,該研究還提出了一種面部細粒度損失函式,以幫助模型專注於捕捉微妙的表情變化和參考照片中肖像的詳細外觀。具體地,作者首先利用面部掩模和表情掩模與作者的表情感知訊號,然後計算這些掩模區域中地面真實值和預測結果之間的空間距離,來實現表情包對原肖像的高度還原。

為了訓練模型,本項研究還構建了一個高質量的表情訓練資料集,其中包含18種誇張的表情和來自115位主體的20分鐘真人影片。同時,研究採用了漸進式生成策略,使方法能夠擴充套件到具有高保真度和穩定性的長期動畫合成。

descript

圖:論文的定量實驗結果和定性試驗結果展示,相比之前的方法,Follow-Your-Emoji可以實現更好的效果

最後,為了解決肖像動畫領域缺乏基準測試的問題,研究還引入了一個名為EmojiBench的綜合基準測試,其中包括410個各種風格的肖像動畫影片,展示了廣泛的面部表情和頭部姿勢。使用EmojiBench對Follow-YourEmoji進行了全面評估,評估結果表明,本方法在處理訓練領域之外的肖像和動作時表現出色,與現有的基準方法相比,本方法在定量和定性上均表現更好,提供了出色的視覺保真度身份表現和精確的動作渲染。

網站:Follow-Your-Emoji: Freestyle Portrait Animation

論文:[2406.01900] Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation

相關文章