馬克斯·普朗克電腦科學研究所、史丹佛大學等近期提出了一種新型的面部三維重建模型,效果驚豔。該模型基於自監督學習,使用了來自 YouTube 抓取的 6000 多個名人的影片片段進行訓練;其能以任意幀數重建人臉面部,適用於單目和多幀重建。特別是,該模型可以完全從零開始學習,將面部的多種特徵分離再重新組合,結構化程度很高。
論文展示地址:https://gvv.mpi-inf.mpg.de/projects/FML19/
如下圖所示,最右邊的重建人臉除了沒有皺紋以外,身份特徵和麵部表情都和原人相當一致,陰影效果也高度還原。只是眼睛部分似乎不太對,顯得渾濁無神,看看影片會更清楚。
這個合成效果也很不錯,表情動態很到位。只是可能原人的眼神實在太有戲,AI 也表示無力模仿。
值得注意的是,這個面部重建模型的 pipeline 很複雜,但又幾乎無處不在使用深度學習。重建面部不能很好地還原皺紋,可能是因為自監督學習過程中多幀影像面部動作的正則化作用,但從另一方面來看,這也使得身份重建更加魯棒。
簡言之,研究者把面部分解成了反照率、三維幾何形狀和光照等特徵,再進行組合重建。如下圖所示,overlay 是最終合成結果。
圖 1:本文提出了基於 in-the-wild 影片資料的深度網路的多幀自監督訓練,以聯合學習面部模型和 3D 面部重建。該方法成功地解糾纏了面部形狀、外觀、表情和場景光照。
如下圖所示,研究者還提供了 200 多個重建結果展示。
展示地址:https://gvv.mpi-inf.mpg.de/projects/FML19/visualizeResults.html
以下是和其它已有方法的比較。從圖中的效果看來,該模型合成的各種特徵都能很好地貼合面部,不受側面視角影響。
除了還原度以外,其相對於其它方法可以更好地分離不同特徵。
圖 8:與 Tran 等人 [62] 的方法對比。我們可以估計更好的幾何形狀,並將反射與光照分離。注意 Tran 等人的方法不能分離反射和光照(或陰影)。
研究者使用了 VoxCeleb2 多幀影片資料集來訓練模型。該資料集包含從 Youtube 抓取的 6000 多個名人的超過 140k 部影片。他們一共從這個資料集取樣了 N=404k 的多幀影像第 l 個多幀影像由 M=4 幀的從同一部影片中的同一個人提取組成的,以避免不必要的變化,例如年齡和飾物。
引言
從視覺資料重建面部在視覺和圖形中具有廣泛的應用,包括面部跟蹤、情感識別以及與多媒體相關的互動式影像/影片編輯任務。面部影像和影片無處不在,因為智慧裝置、消費者和專業相機提供了連續且幾乎無窮無盡的來源。當在沒有受控場景定位、照明或侵入式裝置(例如,自我中心照相機或演員身上的動作追蹤標記)的情況下捕獲這樣的資料時,其屬於「in-the-wild」影像。通常,in-the-wild 資料具有低解析度、噪聲或包含運動和焦點模糊,使得重建問題比在受控設定中更難。來自 in-the-wild 單目 2D 影像和影片資料的三維人臉重建涉及解糾纏面部形狀身份(中性幾何)、皮膚外觀(或反照率)和表情,以及估計場景光照和相機引數。其中一些屬性,例如反照率和光照,在單目影像中不易分離。此外,由於面部毛髮、太陽鏡和大幅頭部旋轉導致的不良場景照明、深度模糊以及遮擋使得 3D 面部重建變得複雜化。
為了解決困難的單目三維人臉重建問題,大多數現有方法依賴於現有的強大的先驗模型,這些模型充當了其他不適定問題的正則化因子。儘管這些方法實現了令人印象深刻的面部形狀和反照率重建,但其使用的面部模型引入了固有的偏差。例如,3D Morphable Model(3DMM)基於相對較小規模的白種人演員的 3D 鐳射掃描集,從而限制了泛化到一般的現實世界身份和種族。隨著基於 CNN 的深度學習的興起,人們已經提出了各種技術,其除了 3D 重建之外還從單目影像執行面部模型學習。然而,這些方法嚴重依賴於已有的 3DMM 來解決單目重建設定的固有深度模糊。而有另一些工作就不需要類似 3DMM 的面部模型,基於照片集。然而,這些方法需要同一個目標的非常大量(例如,≈100)的面部影像,因此它們對訓練集有很高的要求。
在本文中,研究者介紹了一種方法,該方法使用從網際網路影片中抓取的剪輯來學習全面的人臉身份模型。該面部身份模型包括兩個部分:一個部件表徵面部身份的幾何形狀(modulo expressions),另一個部件表徵根據反照率的面部外觀。由於其對訓練資料的要求很低,該方法可以使用幾乎無窮無盡的社群資料,從而獲得具有更好泛化性的模型,而用鐳射掃描類似的一大群人進行模型建造幾乎是不可能的。與大多數以前的方法不同,該模型不需要已有的形狀標記和反照率模型作為初始化,而是從頭開始學習。因此,該方法適用於沒有現有模型,或者難以從 3D 掃描建立這樣的模型(例如,對於嬰兒的面部)的情況。
從技術角度來看,本研究的主要貢獻之一是提出了新型的多幀一致性損失,這確保了面部身份和反照率重建在同一主體的幀之間是一致的。透過這種方式,可以避免許多單目方法中存在的深度模糊,並獲得更準確和更魯棒的面部幾何和反照率模型。此外,透過在本研究的學習面部識別模型和現有的 blendshape expression 模型之間強加正交性,該方法可以自動將面部表情從基於身份的幾何變化中解糾纏,而不需要求助於大量的手工製作的先驗。
總之,本研究基於以下技術貢獻:
一種深度神經網路,其從包含每個目標的多個幀的無約束影像的大資料集中學習面部形狀和外觀空間,例如多檢視序列,甚至單目影片。
透過投影到 blendshapes 的 nullspace 上進行顯式的混合形狀(blendshape)和身份的分離,從而實現多幀一致性損失。
基於 Siamese 網路的新型多幀身份一致性損失,具有處理單目和多幀重建的能力。
完整影片演示和方法解讀
論文:FML: Face Model Learning from Videos
論文地址:https://gvv.mpi-inf.mpg.de/projects/FML19/paper.pdf
摘要:基於單目影像的面部三維重建是計算機視覺中長期存在的問題。由於影像資料是 3D 面部的 2D 投影,因此產生的深度模糊性使問題變得不適定。大多數現有方法依賴於由有限的 3D 面部掃描構建的資料驅動的先驗。相比之下,我們提出了一種深度網路的基於影片的多幀自監督訓練,其(i)在形狀和外觀上學習面部身份模型,同時(ii)聯合學習重建 3D 面部。我們只使用從網際網路收集的未經標記(in-the-wild)影片片段來學習面部模型。幾乎無窮無盡的訓練資料來源可以學習高度通用的 3D 人臉模型。為了實現這一點,我們提出了一種新穎的多幀一致性損失,確保在目標面部的多個幀上保持一致的形狀和外觀,從而最小化深度模糊。在測試時,我們可以使用任意數量的幀,這樣我們就可以執行單目和多幀重建。
圖 2:訓練 pipeline 圖示。給定多幀輸入展示人不同的面部表情、頭部姿勢和光照下,我們的方法首先估計每幀的這些引數。此外,它聯合獲得控制面部形狀和外觀的共享身份引數,同時學習基於圖形的幾何和 per-vertex 外觀模型。我們使用可微分網格變形層與可微分面部渲染器相結合來實現基於模型的面部自編碼器。
圖 4:透過從 in-the-wild 資料學習最優模型,我們的方法可以生成面部幾何的高質量單目重建、反照率和光照。這使得我們也能重建面部毛髮(鬍子、眉毛等)和妝容。
圖 5:單目與多幀重建。為清晰起見,所有結果均以正面和中性表情展示。多檢視重建改善了一致性和質量,尤其是在部分影像被遮擋的區域中。
圖 7:與 [48,52,60] 的比較。這些方法受(合成)訓練集和/或基礎 3D 臉部模型的限制。我們的最佳學習模型可以產生更準確的結果,因為它是從大量真實影像中學習的。
圖 9:與 Booth 等人 [12] 的紋理模型對比。[12] 不能分離陰影,而我們的方法可以估計反照率模型。
表 2:FaceWarehouse 上的幾何誤差。我們的方法與 [59] 和 [58] 相當,並且優於 [60] 和 [32]。請注意,與這些方法相比,我們在訓練期間不需要預先計算的面部模型,而是從頭開始學習。它接近 [24] 的離線高質量方法,同時速度提高了幾個數量級,不需要特徵檢測。