CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達

深度學習大講堂發表於2019-09-02

編者按:著名心理學家Paul Ekman和研究夥伴W.V.Friesen,通過對臉部肌肉動作與對應表情關係的研究,於1976年創制了“面部運動編碼系統”,而利用微表情的“讀心術”正是基於這一研究體系。由於該領域有限的資料集和高昂的標註成本,有監督學習的方法往往會導致模型過擬合。本文中,將為大家介紹中科院計算所VIPL組的CVPR2019新作:作者提出了一種基於視訊流的自監督特徵表達方法,通過利用巧妙的自監督約束訊號, 得到提純的面部動作特徵用於微表情識別。

1.研究背景

面部運動編碼系統 (FACS,Facial Action Coding System)從人臉解剖學的角度,定義了44個面部動作單元(Action Unit,簡稱AU)用於描述人臉區域性區域的肌肉運動,如圖1所示,AU9表示“皺鼻”,AU12表示“嘴角拉伸”。各種動作單元之間可以自由組合,對應不同的表情。如“AU4(降低眉毛)+AU5(上眼瞼上升)+AU24(嘴脣相互按壓)”這一組合對應“憤怒”這一情緒狀態。

面部動作單元能夠客觀、精確、細粒度地描述人臉表情。然而昂貴的標註代價在很大程度上限制了AU識別問題的研究進展,其原因在於不同的AU分佈在人臉的不同區域,表現為不同強度、不同尺度的細微變化。具體來說,為一分鐘的人臉視訊標註一個AU,需要耗費一名AU標註專家30分鐘。目前學術界已釋出的AU資料集只包含了有限的採集物件,以及有限的人臉影像(如2017年CMU釋出的GFT資料集有96個人,約35,000張人臉影像)。

CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達圖1. 面部動作單元示例當前已有的工作多采用人臉區域分塊注意力機制等方法學習人臉區域性區域的AU特徵,這類方法在訓練階段需要利用精確標註的AU標籤,由於目前業界釋出的AU資料集人數及影像總量不足,採用監督學習方法訓練得到的模型往往呈現出在特定資料集上的過擬合現象,這無疑限制了其實際使用效果。

我們提出了一種能夠在不依賴AU標籤的前提下,從人臉視訊資料中自動學習AU表徵的方法(Twin-Cycle Autoencoder,簡稱TCAE)。TCAE用於後續的AU識別任務時,只需要利用訓練資料訓練一個分類器即可,顯著減少了所需的訓練資料,並提升了模型的泛化能力。

2.方法概述

如圖2所示,該方法以兩幀人臉影像(源圖,目標圖)之間的運動資訊為監督訊號,驅使模型提取出用於解碼運動資訊的影像特徵。這個方法的理念在於,模型只有感知理解了人臉影像中各個面部動作單元的狀態(AU是否啟用),才能夠將源圖的面部動作轉換為目標影像的面部動作。

CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達圖2. TCAE 設計圖考慮到兩幀人臉影像之間的運動資訊包含了AU以及頭部姿態的運動分量,TCAE通過利用巧妙的自監督約束訊號,使得模型能夠分離出AU變化引起的運動分量,以及頭部姿態變化引起的運動分量,從而得到提純的AU特徵。與其他監督方法,TCAE可以利用大量的無標註人臉視訊,這類視訊是海量的。與半監督或者弱監督方法相比, TCAE採用了自監督訊號進行模型訓練,避免了對資料或者標籤的分佈做出任何假設。

3.演算法詳解

如圖3所示,TCAE包含四個階段,分別是特徵解耦,影像重建,AU迴圈變換,以及姿態(pose)迴圈變換。

給定兩張人臉影像,TCAE在特徵解耦階段使用編碼器得到每張影像的AU特徵以及姿態特徵,隨後,兩幀影像的AU特徵被送入AU解碼器,用於解碼出AU位移場;兩幀影像的姿態特徵被送入姿態解碼器,用於解碼出姿態位移場。考慮到AU的變化是稀疏的,且AU位移場的數值與姿態位移場相比更小,我們為AU位移場新增了L1約束:

CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達

在目標圖重建階段,TCAE通過線性組合AU位移場和pose位移場,得到源圖和目標圖之間的整體位移場,進行影像重建

CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達

在AU迴圈變換階段,僅變換了AU的人臉影像被重新變換到源圖,由此我們獲得一個畫素層面的一致性約束:

CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達

另外,對於變換了AU的人臉影像,其AU特徵應該接近目標影像的AU特徵,其姿態特徵應該和源圖的姿態特徵一致,由此我們獲得一個特徵層面的一致性約束:

CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達

同理,在pose迴圈變化階段,我們同樣可以獲得類似的畫素及特徵層面的一致性約束:

CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達
CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達
CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達圖3.  TCAE的四個階段示意圖,四個階段分別是特徵解耦,影像重建,AU迴圈變換,以及pose迴圈變換。4.實驗結果

多個資料集上的實驗證明,TCAE能夠成功提取出人臉影像的AU及姿態特徵。如圖4所示,給定兩張人臉影像(源圖,目標圖),TCAE能夠僅僅改變源圖的AU或者頭部姿態。視覺化的AU位移場呈現出運動方向的多樣性。

在AU識別任務上,TCAE取得了與監督方法可比的效能。表1及表2的結果表明,TCAE明顯優於其他自監督方法。在GFT資料集(該資料集存在大範圍的頭部姿態變化)上,TCAE的效能優於其他監督方法。 

CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達圖4. 視覺化結果
CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達表1. BP4D及DISFA資料集評測結果

(評測標準:F1 值 (%))

CVPR 2019 | 「識面知心」——基於自監督學習的微表情特徵表達表2.  GFT及EmotioNet資料集評測結果(評測標準:F1 值 (%) )

5.總結與展望

TCAE通過自監督的方法學習到了魯棒的AU表徵,實驗證明該AU表徵是魯棒的,適用於AU分類任務的。視覺化結果表明,TCAE具有潛在的人臉表情編輯價值。另外,TCAE在訓練階段使用了大量的無標籤資料(近6000人,約10,000,000張影像),由此可見使用自監督方法訓練模型時資料利用的效率需要進一步提高,這一點在BERT的實驗分析中也得到了印證:Good results on pre-training is >1,000x to 100,000 more expensive than supervised training。

論文資訊:

Yong Li, Jiabei Zeng, Shiguang Shan,  Xilin Chen.  “Self-Supervised Representation Learning From Videos for Facial Action Unit Detection”, IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2019) , pp. 10924-10933, Long Beach, California, USA, June 16-20, 2019.

論文連結:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Self-Supervised_Representation_Learning_From_Videos_for_Facial_Action_Unit_Detection_CVPR_2019_paper.pdf

作者簡介:

李勇,中國科學院計算技術研究所vipl課題組博士研究生,導師為常虹副研究員以及山世光研究員,研究方向為開放場景下的人臉表情分析。在攻讀博士學位期間,李勇在 CVPR, TIP 等會議及期刊上發表過多篇學術論文,其已發表的會議文章均被錄取為口頭報告。此外,李勇獲得ACM Multimedia 2017 親屬關係識別國際競賽冠軍。


相關文章