蒙娜麗莎.gif:三星新研究用一張影象合成動圖,無需3D建模

機器之心發表於2019-05-23
蒙娜麗莎開口說話你見過嗎?這位神祕的畫中人也能做出各種 gif 表情?來自三星莫斯科 AI 中心和 Skolkovo 科學技術研究所的研究人員建立了一個模型,利用這個模型可以從一張影象中生成人物頭像的動圖,而且是開口說話的動圖。而且,這一模型沒有采用 3D 建模等傳統方法。

開口說話的蒙娜麗莎好像看著沒那麼高冷。

蒙娜麗莎.gif:三星新研究用一張影象合成動圖,無需3D建模

除了蒙娜麗莎,研究人員還生成了風情萬種的瑪麗蓮·夢露。

蒙娜麗莎.gif:三星新研究用一張影象合成動圖,無需3D建模

他們生成的名人頭部動畫包括瑪麗蓮·夢露、愛因斯坦、蒙娜麗莎以及 Wu Tang Clan 的 RZA 等。

近年來出現了很多利用 AI 模擬人臉的研究。2018 年,華盛頓大學的研究人員分享了他們建立的 ObamaNet,它是一種基於 Pix2Pix 的脣語口型模型,以美國前總統奧巴馬的視訊進行訓練。去年秋天,加州大學伯克利分校的研究人員開發出一個模型,使用 YouTube 視訊來訓練 AI 資料集,生成的人物可以做跳舞或後空翻等雜技動作。

為了建立個性化模型,上面這些研究需要在大量個人資料上進行訓練。但是,在許多實際場景中,我們需要從個人的少量甚至是一張影象中學習。因此在這項研究中,三星和 Skolkovo 研究所的研究人員只用少量甚至一張影象或畫作就合成了人物開口說話狀態的頭部動畫。

研究人員利用了 Few-shot learning 等技術,主要合成頭部影象和麵部 landmark,可應用於電子遊戲、視訊會議或者三星 Galaxy S10 上現在可用的數字替身(digital avatar)。這種虛擬現實專案的數字替身技術可用於建立 deepfake 影象和視訊。

Few-shot 學習意味著該模型在僅使用幾幅甚至一幅影象的情況下模擬人臉。研究人員使用 VoxCeleb2 視訊資料集進行元訓練(meta trainning)。在元學習過程中,系統建立了三種神經網路:將幀對映到向量的嵌入器網路、在合成視訊中對映面部特徵點的生成器網路以及評估生成影象真實性和姿態的判別器網路。

聯合三種網路,該系統能在大型視訊資料集上執行長時間的元學習過程。待元學習收斂後,就能構建 few-shot 或 one-shot 的神經頭像特寫模型。該模型將未見過的目標任務視為對抗學習問題,這樣就能利用已學習的高質量生成器與判別器。

論文作者表示:「至關重要的一點是,儘管需要調整數千萬引數,該系統能夠因人而異地初始化生成器和判別器引數,因此訓練可以在僅藉助幾幅影象的情況下快速完成。這種方法能夠快速學習新面孔甚至是人物肖像畫和個性化的頭像特寫模型。」

該論文已被 2019 CVPR 會議接收,本屆會議將於六月份在加利福尼亞州的長灘舉行。

論文:Few-Shot Adversarial Learning of Realistic Neural Talking Head Models

蒙娜麗莎.gif:三星新研究用一張影象合成動圖,無需3D建模

論文地址:https://arxiv.org/abs/1905.08233

新穎的對抗學習架構

在這項研究中,研究者提出了一種新系統,可以只使用少量影象(即 Few shot learning)和有限的訓練時間,構建「頭像特寫」模型。實際上,研究者的模型可以基於單張影象(one-shot learning)生成合理的結果,而且在新增少量新樣本後,模型能生成保真度更高的個性化影象。

與很多同類工作相同,研究者的模型使用卷積神經網路構建頭像特性,它通過一個序列的卷積運算直接合成視訊幀,而不是通過變形(warping)。研究者模型建立的頭像特寫可以實現大量不同的姿態,其效能顯著高於基於變形(warping-based)的系統。

通過在頭像特寫語料庫上的大量預訓練(meta-learning),模型能獲得 few-shot 學習的能力。當然這需要語料庫足夠大,且頭部特寫視訊對應不同的說話者與面孔。在元學習過程中,研究者的系統模擬了 few-shot 學習任務,並學習將面部 landmark 位置轉換到逼真的個性化照片。在 few-shot 學習中,他們只需要提供轉換目標的少量訓練影象就可以。

隨後,轉換目標的少量影象可視為一個新的對抗學習問題,其高複雜度的生成器與判別器都通過元學習完成了預訓練。新的對抗問題最終會完成收斂,即在少量訓練迭代後能生成真實和個性化的影象。

元學習架構

下圖 2 展示了研究者方法中的元學習階段,簡單而言它需要訓練三個子網路。注意,若我們有 M 個視訊序列,那麼 x_i(t) 表示第 i 個視訊的第 t 幀。

  • 第一個子網路 embedder E:它會輸入視訊幀 x_i(s) 以及對應的 landmark 影象 y_i(s),該網路會將輸入對映到 N 維向量 e hat_i(s) 中。

  • 第二個子網路 generator G:它會輸入新的 landmark 影象 y_i(t),且 embedder 看不到其對應的視訊幀;該網路還會輸入 embedder 輸出的 e hat_i,並希望能輸出合成的新視訊幀 x hat_i(t)。

  • 第三個子網路 discriminator D:它會輸入視訊幀 x_i(t)、對應的 landmark 影象 y_i(t),以及訓練序列的索引 i。該網路希望判斷視訊幀 x_i(t) 到底是不是第 i 個視訊中的內容,以及它到底匹不匹配對應的 landmark 影象 y_i(t)。

蒙娜麗莎.gif:三星新研究用一張影象合成動圖,無需3D建模

圖 2:元學習架構的整體結構,主要包含嵌入器(embedder)、生成器和判別器三大模組。

嵌入器網路希望將頭像特寫影象與對應的人臉 landmark 對映到嵌入向量,該向量包含獨立於人臉姿態的資訊。生成器網路通過一系列卷積層將輸入的人臉 landmark 對映到輸出幀中,其生成結果會通過嵌入向量以及自適應例項歸一化進行調整。在元學習中,研究者將相同視訊一組視訊幀傳遞到嵌入器,並對嵌入向量求均值以便預測生成器的自適應引數。

隨後,研究者將不同幀的 landmark 輸入到生成器中,並對比標註影象和生成影象之間的差別。模型的整體優化目標包括感知和對抗兩種損失函式,後者通過條件對映判別器實現。

此外,元學習的三大子網路在原論文中都有具體的表示式,讀者可具體查閱原論文 3.2 章。

Few-shot 學習過程

一旦元學習完成收斂,那麼系統就能學習到如何合成新目標的頭像特寫序列,即使元學習中不曾見過這個人。當然,除了要提供新目標的一些影象樣本,我們還需要提供新目標的 landmark,合成過程是以這些目標 landmark 為條件的。

很自然地,我們可以使用元學習收斂後的嵌入器(embedder),用來估計新頭像特寫序列的嵌入向量:

蒙娜麗莎.gif:三星新研究用一張影象合成動圖,無需3D建模

一種比較直觀的想法是使用上面的嵌入向量,以及預訓練的生成器生成新的視訊幀與對應 landmark 影象。理論上這樣也能生成真實的影象,但真實性並不是太強。為此,研究者還需要一個精調過程以生成更完美的影象,即 few-shot 學習過程。

精調過程可視為前面元學習過程的簡化版,它只在單個視訊序列和較少的幀上完成訓練。精調過程主要包含判別器與生成器兩個模組,這裡嵌入器是不需要調整的。

其中生成器還是根據 landmark 合成視訊幀,只不過對應具體人物的生成器引數 ψ'會和原來一般人物引數ψ共同優化,以學習生成目標人物的某些特徵。判別器和元學習階段也差不多,只不過會增加一個新引數以學習更好地預測真實度分數。

實驗

研究者在定性和定量評估實驗中用到了兩個資料集:VoxCeleb1 和 VoxCeleb2。後者的視訊數量大約是前者的 10 倍。VoxCeleb1 用於與基線和控制變數研究作對比,VoxCeleb2 用於展示本文中所提方法的全部潛力。實驗結果如下表所示:

蒙娜麗莎.gif:三星新研究用一張影象合成動圖,無需3D建模

如表 1 所示,基線模型在兩個相似度度量標準上始終優於三星的方法。三星研究人員認為,這是方法本身所固有的:X2Face 在優化期間使用 L_2 損失函式,因此 SSIM 得分較高。另一方面,Pix2pixHD 只最大化了感知度量,沒有 identity preservation 損失,導致 FID 最小化,但從 CSIM 一欄中可以看出,Pix2pixHD 的 identity 不匹配更大。

此外,這些度量標準和人類的感知並沒有特別緊密的關聯,因為這些方法都會產生恐怖谷偽影(uncanny valley artifact),這從圖 3 和使用者研究結果中可以看出。另一方面,餘弦相似度與視覺質量有更好的相關性,但仍然傾向於模糊、不太真實的影象,這也可以通過表 1 與圖 3 中的結果對比來看出。

蒙娜麗莎.gif:三星新研究用一張影象合成動圖,無需3D建模

圖 3:在 VoxCeleb1 資料集上的結果。對於每一種對比方法,研究者在一個元訓練或預訓練期間未見過的人物視訊上執行 one-shot 和 few-shot 學習。他們將訓練的幀數設為 T(最左邊的數字)。Source 列顯示了訓練幀之一。

接下來,研究者擴充套件了可用的資料,開始在視訊數目更多的 VoxCeleb2 上訓練模型。他們訓練了兩種模型:FF(前饋)和 FT。前者訓練 150 個 epoch,沒有嵌入匹配損失 LMCH,因此用的時候不進行微調。後者訓練 75 個 epoch,但有 LMCH,支援微調。

他們對這兩種模型都進行了評估,因為它們可以在 few-shot 學習速度和結果質量之間進行權衡。與在 VoxCeleb1 上訓練的小型模型相比,二者都得到了很高的分數。值得注意的是,FT 模型在 T=32 的設定下達到了使用者研究準確率的下界,即 0.33,這是一個完美的分數。兩種模型的結果如圖 4 所示:

蒙娜麗莎.gif:三星新研究用一張影象合成動圖,無需3D建模

圖 4:三星最好的模型在 VoxCeleb2 資料集上的結果。

最後,研究者展示了模型在照片或畫像上的結果。為此,研究者評估了在 one-shot 設定下訓練的模型,任務姿態來自 VoxCeleb2 資料集的測試視訊。他們使用 CSIM 度量給這些視訊排序,並在原始影象和生成影象之間進行計算。這使得研究者可以發現擁有相似標誌幾何特徵的人臉,並將它們由靜態變為動態。結果見圖 5 和圖 1.

蒙娜麗莎.gif:三星新研究用一張影象合成動圖,無需3D建模

圖 5:使靜止的照片栩栩如生。

相關文章