CVPR2022 前沿研究成果解讀:基於生成對抗網路的深度感知人臉重演演算法

阿里雲視訊雲發表於2022-04-22

憑藉在人臉生成領域的紮實積累和前沿創新,阿里雲視訊雲與香港科技大學合作的最新研究成果《基於生成對抗網路的深度感知人臉重演演算法 》(Depth-Aware Generative Adversarial Network for Talking Head Video Generation)被 CVPR2022 接收。本文為最新研究成果解讀。

論文題目:《Depth-Aware Generative Adversarial Network for Talking Head Video Generation》
arxiv連結:https://arxiv.org/abs/2203.06605

人臉重演演算法將使視訊編解碼有新突破?

近年來隨著視訊直播的大火,越來越多的人開始關注視訊雲領域。而視訊傳輸的低延遲,高畫質,一直是難以平衡的兩個點。當前直播延時最低可以降到 400ms 以內,但是在視訊會議等各場景的需求不斷增加的情況下,比如遠端 PPT 演示,我們對畫質和延遲的平衡有著更高的要求。而突破直播延遲的關鍵是編解碼技術的提升,人臉重演演算法與編解碼技術的結合,在視訊會議場景的應用中將使頻寬需求大幅減少,而獲得更具身臨其境的體驗,這是邁向超低延時優畫質視訊會議非常重要的一步。

人臉重演(face reenactment/talking head)演算法是指,利用一段視訊來驅動一張影像,使影像中的人臉能夠模仿視訊中人物的面部姿態、表情和動作,實現靜態影像視訊化的效果。

圖 1

人臉重演發展現狀

目前的人臉重演方法嚴重依賴於從輸入影像中學習到的 2D 表徵。然而,我們認為稠密的 3D 幾何資訊(例如:畫素級深度圖)對於人臉重演非常重要,因為它可以幫助我們生成更準確的 3D 人臉結構,並將噪聲和複雜背景與人臉區分開來。不過,稠密的視訊 3D 標註代價高昂。

研究動機&創新點

在本文中,我們介紹了一種自監督的 3D 幾何學習方法,可以在不需要任何 3D 標註的情況下,從視訊中估計出頭部深度(depth maps)。我們進一步利用深度圖來輔助檢測人臉關鍵點,從而捕捉頭部的運動。此外,深度圖還用於學習一種 3D 感知的跨模態注意力(3D-aware cross-model attention),以指導運動場(motion field)的學習和特徵的形變。


圖 2

圖 2 展示了本文提出的 DA-GAN 的 pipeline,它主要包含三部分:

(1)深度估計網路\( F_d \),我們通過自監督的方式估計稠密的人臉深度圖;

(2)關鍵點檢測網路\( F_{kp} \),我們將由深度圖表徵的 3D 幾何特徵與由 RGB 圖的外觀特徵進行拼接,以預測更為準確的人臉關鍵點;

(3)人臉合成網路,它又可以分為一個特徵形變模組和一個跨模態注意力模組。

特徵形變模組將輸入的稀疏關鍵點轉化為稀疏運動場(sparse motion field),隨後學習得到稠密運動場(dense motion field),並用其對影像特徵進行扭曲(warping)。

跨模態注意力模組利用深度特徵學習得到注意力圖(attention maps),以捕捉更多動作細節並修正人臉結構。兩個模組的結構可見圖 3 和圖 4。


圖 3


圖 4

實驗結果

定量實驗

我們在 VoxCeleb1[1] 和 CelebV[2] 資料集上進行了實驗。

我們使用 structured similarity (SSIM) 和 peak signal-to-noise ratio (PSNR) 來評估結果幀和驅動幀的相似度;

使用 average keypoint distance (AKD) 和 average euclidean distance (AED)[3] 來評估關鍵點的準確性,使用 CSIM[4] 來評估身份保持;

使用 PRMSE 來評估頭姿保持,使用 AUCON 來評估姿態保持。

定量對比


表 1


表 2


表 3

表 1 和表 2 是 DA-GAN 與主流人臉重演方法在 VoxCeleb1 資料集上的定量對比,表 3 是 DA-GAN 與主流人臉重演方法在 CelebV 資料集上的定量對比。

定性對比

圖 5 是 GA-GAN 與主流人臉重演方法的定性對比。實驗表明,本文提出的 DA-GAN 在各項指標以及生成效果上上均優於其它演算法。


圖 5

消融實驗(Ablation study)

圖 6 是 ablation study 的結果,可以看到,自監督深度估計和跨模態注意力模組都顯著提升了合成人臉的細節和微表情。


圖 6

研究總結

通過以上的的結果,可以看出人臉重演演算法可以實現更為精細的人臉細節和微表情合成。在視訊會議場景中,用 talking head 的方法,在通訊過程中可以只傳輸關鍵點座標,而不需要傳輸每幀影像,在接收端可以通過輸入關鍵點恢復每一幀的影像,大幅降低頻寬需求,從而獲得畫質優良的低延時視訊會議體驗。

「視訊雲技術」你最值得關注的音視訊技術公眾號,每週推送來自阿里雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群,和業內大咖一起探討音視訊技術,獲取更多行業最新資訊。

相關文章