CVPR 2019 | 德國馬普所提出端到端模型RingNet,基於單張影像進行3D人臉重建

機器之心發表於2019-06-18

計算機視覺領域頂級會議 CVPR 於 6 月 16 日-20 日在美國加州長灘舉行。CVPR 2019 共收到 5165 篇有效提交論文,相比去年增加了 56%;接收論文 1300 篇,接收率接近 25.2%。

據機器之心瞭解,德國馬克思·普朗克研究所共有 16 篇論文入選 CVPR 2019,本文簡要介紹了其中一篇。該研究提出一個端到端神經網路 RingNet,可基於單張影像進行三維人臉重建。

在這項工作中,我們提出了端到端神經網路 RingNet,用來學習基於單張照片的三維面部重建,這項任務必須同時對光照、頭部姿勢、表情、面部毛髮、化妝和遮擋的變化具有魯棒性。而實現這種魯棒性需要大量的 in-the-wild 圖片,然而這些圖片往往缺乏用於監督的真實三維面部資料。

為了在沒有任何 2D 到 3D 監督的情況下訓練神經網路,我們提出了 RingNet,它學習基於單個影像計算 3D 面部形狀。我們的關鍵發現是同一個人的三維面部形狀總是恆定的,無論其不同圖片中表情、姿勢、光線等條件如何變化。所以 RingNet 利用了同一個人的多張圖片並自動檢測其 2D 臉部特徵。它使用一種全新的形狀一致性損失函式,對於同一個人鼓勵三維面部形狀相似,不同的人則反之。我們使用 FLAME 模型(引數化面部模型)來表徵三維面部結構以實現對不同表情的解離。在推理階段,我們的方法可以在輸入單個圖片後直接輸出 FLAME 的引數,這些引數可直接用於動畫生成。此外,我們還建立了一個全新的基準資料集「not quite in-the-wild」(NoW),其中包含對於每個實驗物件的三維頭部掃描資料和在大量不同條件下的高畫質圖片。在評估了公開可用的方法後,我們發現 RingNet 比其他使用三維資料監督的方法更加準確。資料集、模型和結果已經開放並可用於研究目的。

地址:https://ringnet.is.tue.mpg.de/

CVPR 2019 | 德國馬普所提出端到端模型RingNet,基於單張影像進行3D人臉重建RingNet 在訓練過程中使用人物 A 的多張影像和人物 B 的一張影像作為輸入,然後識別出相同人物影像之間的形狀一致性和不同人物影像之間的形狀不一致性。

研究貢獻

這是第一個僅透過單張面部影像進行全臉、頭部與頸部重建的工作; 

提出了端到端的神經網路 RingNet,可在不同視角、光線條件、解析度和遮擋的情況下,在面部區域上實現形狀一致性;

全新的形狀一致性損失函式

NoW,一個用於定性和定量評估 3D 面部重建方法的基準資料集;

資料集、模型和結果已經開放並可用於研究目的,以鼓勵定量比較。

對於學界:

雖然在這個工作中我們僅將 RingNet 用於面部資料,但這個想法本身具有普適性,可以用於其他三維重建任務。鑑於目前這個領域缺乏統一的定量反饋,我們引入了三維面部重建基準挑戰 NoW 以及標準化評估指標,並邀請該領域的其他研究人員一起參與我們的挑戰,超越單純的視覺比較。

對於工業界:

由於我們的模型可以基於單個影像重建包括頸部和整個頭部的三維資料,因此它可被用於動畫行業或大量 face app,大家可以訪問我們的 GitHub 頁面,並透過結合 RingNet 和 VOCA 專案來製作一些有趣的 app。例如,可以先用 RingNet 建立基於照片的三維面部模板,再用 VOCA 來生成基於音訊的動畫。

侷限性

僅依賴 2D landmark 會在一定程度上限制三維重建的質量,採用密集關聯性則會顯著提高質量。

關於 Challenge NoW 的更多細節

基準的目標是給 3D 面部重建領域引入標準評估度量,以測量其在視角、光照和常見遮擋變化下的準確性和魯棒性。

為了應對挑戰,我們引入了 NoW 資料集。該資料集目前包含 100 個被試的 2054 張照片,均使用 iPhone X 拍攝,併為每個被試單獨進行了 3D 頭部掃描。頭部掃描將作為評估的真值資料。在選取被試時,我們考慮了年齡、BMI 及性別分佈(55 名女性、45 名男性)。

圖片

CVPR 2019 | 德國馬普所提出端到端模型RingNet,基於單張影像進行3D人臉重建

我們將獲取的資料分為四個類別:自然面容(620 影像)、表情面容(675 影像)、面部遮擋(528 影像)以及自拍(231 影像)。前三類包含所有物件在多視角情況下的自然表情和部分遮擋的面部照片,視角範圍從正面檢視到側面檢視。表情面容包含不同的表情,如快樂、悲傷、驚訝、厭惡和恐懼。面部遮擋則包含不同種類的遮擋,如眼鏡、太陽鏡、面部毛髮、帽子或頭巾。對於自拍類別,我們要求被試使用 iPhone 前置攝像頭自拍,並不對其面部表情加以約束。室內和室外拍攝的照片可提供自然光和人造光的變化。我們在「Download」頁面中提供面部區域的裁剪資訊。

掃描

對於每個被試,我們使用主動式立體掃描系統(3dMD LLC,Atlanta)來獲取自然面容條件下的三維頭部資料。這套多相機系統包括六個灰度立體相機對、六個彩色相機、五個散斑圖案投影儀和六個白色 LED 皮膚。重建後,每個被試的三維幾何體包含大約 120K 頂點。在掃描期間被試會佩戴頭髮帽以避免頭髮在面部或頸部區域中的遮擋以及掃描噪聲。

所有類別的挑戰是在給定單個單眼影像的情況下重建自然面容條件下的三維面部結構。值得注意的是,由於面部表情存在於若干圖片中,所以參加挑戰的方法需要具有對錶情解離的能力。關於挑戰的全部內容,參見https://ringnet.is.tue.mpg.de/challenge。


論文:Learning to Regress 3D Face Shape and Expression from an Image without 3D Supervision

作者:Soubhik Sanyal、Timo Bolkart、Haiwen Feng、Michael J. Black
論文連結:https://ps.is.tuebingen.mpg.de/uploads_file/attachment/attachment/509/paper_camera_ready.pdf
專案頁面:https://ringnet.is.tue.mpg.de/
GitHub頁面:https://github.com/soubhiksanyal/RingNet

相關文章