日前,美圖影像實驗室(MTlab, Meitu Imaging & Vision Lab)推出「10000 點 3D 人臉關鍵點技術」——利用深度學習技術實現 10000 點的人臉五官精細定位,該項技術可以在 VR 遊戲中構建玩家人臉的 3D 遊戲角色並且驅動,也可以應用於虛擬試妝試戴和醫療美容領域等。本文為美圖影像實驗室 MTlab 基於該技術為雷鋒網 AI 科技評論提供的獨家解讀。正文如下:

  簡介

  在計算機視覺領域,人臉關鍵點定位在視覺和圖形中具有廣泛的應用,包括面部跟蹤、情感識別以及與多媒體相關的互動式影像視訊編輯任務。目前行業內常用的是 2D 人臉關鍵點技術,然而,2D 人臉點定位技術由於無法獲取深度資訊,不能分析使用者的立體特徵,比如蘋果肌,法令紋等更加細緻的使用者資訊,也無法分析出使用者當前的姿態和表情。為了能夠給使用者的自拍新增動畫效果,如面具、眼鏡、3D 帽子等物品,並且提供更加智慧的 AI 美顏美型效果,需要一套特殊的感知技術,實時跟蹤每個使用者的微笑、眨眼等表面幾何特徵。因此,美圖影像實驗室 MTlab 研發人員研發了 10000 點人臉關鍵點技術,將面部影像提升到三維立體空間,將使用者的姿態、臉型以及表情分解開來,實時跟蹤使用者當前的姿態、表情、五官特徵改變後的面部形態,調整後的影像更加自然美觀。

  基於 3DMM 的人臉關鍵點定位方法

  1. 三維形變模型 (3DMM)

  1999 年,瑞士巴塞爾大學的科學家 Blanz 和 Vetter 提出了一種十分具有創新性的方法——三維形變模型 (3DMM)。三維形變模型建立在三維人臉資料庫的基礎上,以人臉形狀和人臉紋理統計為約束,同時考慮了人臉的姿態和光照因素的影響,生成的人臉三維模型精度較高。

  3DMM

  如上圖所示 3DMM 的主要思想是:一張人臉模型可以由已有的臉部模型進行線性組合。也就是說,可以通過改變係數,在已有人臉基礎上生成不同人臉。假設建立 3D 變形的人臉模型由 m 個人臉模型組成,其中每一個人臉模型都包含相應的臉型和紋理兩種向量,這樣在表示新的 3D 人臉模型時,就可以採用以下方式:

  其中表示平均臉部形狀模型,表示 shape 的 PCA 部分,表示對應臉型係數。

  Blanz 和 Vetter 提出的 3DMM 雖然解決了人臉變形模型的表達問題,但其在人臉表情表達上依然存在明顯不足。2014 年時,FacewareHouse 這篇論文提出並公開了一個人臉表情資料庫,使得 3DMM 有了更強的表現力,人臉模型的線性表示可以擴充為:

  在原來的臉型資料基礎上,增加了表情,表示對應的表情係數,係數讓實時表情 Tracking 成為了可能。

  2. 美圖 MT3DMM 模型

  為了能夠更加精細地刻畫不同人臉的 3D 形狀,並且適用於更廣泛的人種,MTlab 的研發團隊採用先進的 3D 掃描裝置採集了 1200 個不同人物、每人 18 種表情的 3D 人臉資料,其中男女各半,多為中國人,年齡分佈在 12~60 歲,模型總數超過 20000 個,基於這些資料,建立了基於深度神經網路的 MT3DMM 模型。相比於目前主流的 3DMM 模型,MT3DMM 具有表情豐富,模型精度高,並且符合亞洲人臉分佈的特點,是目前業界精度最高的 3D 人臉模型之一。鄭州最好的婦科醫院:http://mobile.zzchxb110.com/

  3DMM 模型,代表了一個平均臉,也同時包含了與該平均臉的偏差資訊。例如,一個胖臉在一個瘦臉模型基礎上,通過調整五官比例可以得到胖臉模型。利用這種相關性,計算機只需要利用使用者的臉與平均人臉的偏差資訊,就能夠生成專屬於使用者的 3D 模型。不僅如此,這些偏差還包括大致的年齡、性別和臉部長度等引數。但是,這樣也存在一個問題,世界上的人臉千變萬化,要將所有人臉與平均人臉的偏差都儲存下來,3DMM 模型需要整合大量面部的資訊,然而目前的開源模型在模仿不同年齡和種族人臉方面的能力十分有限。

  如下圖 BFM 的人臉資料基本都是外國人臉,跟亞洲人臉的資料分佈存在差異;Facewarehouse 的資料主要是亞洲人臉,但是用 Kinect 掃描的模型則存在精度較低的問題;SFM 開源的資料只包含了 6 種表情,並且模型的精度較低,無法滿足我們的需求;LSFM 資料包含了較多的人臉資料,但是不包含表情,無法用於使用者表情跟蹤。