全球計算機視覺三大頂會之一 ECCV 2018 (European Conference on Computer Vision)即將於9月8 -14日在德國慕尼黑拉開帷幕。屆時,曠視首席科學家孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。而在此之前,曠視科技將陸續推出 ECCV 2018 接收論文系列解讀。本文是第 9 篇,一種通過學習區域性單應變換實現人臉校正的全新方法——GridFace。
論文名稱:《GridFace: Face Rectification via Learning Local Homography Transformations》
論文連結:https://arxiv.org/abs/1808.06210
導語
大千世界之中,人臉可謂是機器視覺識別技術的“第一號”目標,人臉識別順理成章成為人工智慧領域搶佔的技術高地;在這場最為激烈的機器視覺技術制高點的爭奪戰中,人臉識別技術不斷突破向前,甚至趕越人類水平。但是,在不受限環境中,人臉識別仍不能萬無一失,尤其是在人臉幾何變形的情況下。
有鑑於此,曠視科技創新性地提出 GridFace,通過學習區域性單應變換減少人臉變形,提升識別效能。一句話,先校正,再識別,過硬的校正技術使得人臉識別效能得到顯著提高。相關實驗結果已證明該方法的有效性和高效性。這一原創技術將進一步強化曠視科技攻克四大識別目標(人、臉、車、字)的能力,有利於補足 AI 原創技術矩陣,達成 AI+IoT 閉環戰略,持續為數字經濟發展提供新動能。
圖 1:GridFace人臉校正例項
背景
儘管深度學習在學界、業界均已獲得重大進展,但是依然無法聲稱,人臉識別技術的應用落地毫不受限。自然場景中,人臉識別面臨的現有挑戰之一是人臉幾何變形(facial geometric variations)。人臉在角度和對齊方面(由人臉檢測邊界框定位引入)的變形將從根本上影響人臉的表徵和識別的效能。
解決這一問題的常用方法之一是通過 2D 變換把人臉關鍵點標定到預定義模版(即 2D 平均人臉關鍵點或者 3D 平均人臉模型);但是這種預處理方法並不是針對識別優化的,並嚴重依賴手工調節的引數和精確的人臉關鍵點。
為此,近期一些工作藉助空間變換網路(Spatial Transformer Network/STN)實現端到端優化,可以兼顧人臉對齊和檢測/識別。但是,通過 STN 學習的變換使用整體引數模型,只能捕捉一些粗糙的幾何資訊,比如人臉定向,並有可能校正結果的明顯扭曲。
設計思想
有鑑於此,本文提出一種全新的方法,稱之為 GridFace,以減少人臉幾何變形,提升識別效能。如圖 2 所示,該系統包含兩個模組:校正模組和識別模組。
圖 2:GridFace 圖示
在校正模組中,研究者通過一個人臉校正網路評估一組區域性單應變換(local homography transformations),以校正輸入的人臉影象。研究者還通過一組可變形平面單元近似 3D 標準人臉形狀。當輸入一張帶有幾何變形的人臉,評估其區域性單應變換,以分別建模每個單元的扭曲。為鼓勵生成標準的視角,研究者加入一個基於標準視角人臉分佈的正則化。這一自然的人臉分佈並未被顯式建模。
相反,受到先前工作的啟發,研究者通過一個降噪自編碼器(Denoising Autoencoder)評估概率密度對數的梯度。識別模組把已校正的影象作為輸入,並通過度量學習學習可判別性表徵。
本文首先給出了這一方法的定量和定性結果,並在 4 個頗具挑戰性的公開基準 LFW、YTF、IJB-A 和 Multi-PIE 上進行評估。相較於最新的人臉轉正和識別工作,該方法在所有基準上取得了當前最優或者頗具競爭力的結果。本文貢獻總結如下:
1.通過減少帶有區域性單應變換的人臉幾何變形,本文提出一種提升人臉識別效能的全新方法。
2.本文引入一個人臉標準先驗和一個基於近似方法的降噪自編碼器以正則化人臉校正,完善校正質量。
3.在受限和不受限環境中開展的擴充套件實驗證明了該方法的優越性。
方法
另 I^X,I^Y 表示原始影象和校正影象。把原始影象 I^X 的座標系作為原始座標系,校正影象 I^Y 中的座標系作為校正座標系。另 p=和 q= 表示原始座標系和校正座標系中的點。通過 p̂ 和 q̂ 分別把單應座標系表示為 p̂=和 q̂=。在不損失通用性的前提下,研究者假設畫素的座標系被歸一化為 [0, 1) × [0, 1)。
概述
如上所述,GridFace 包含兩個部分,校正模組和識別模組。在校正過程中,帶有引數 θ 的校正網路 f_θ 通過非剛性影象扭曲把原始的人臉影象 I^X 對映到校正影象 I^Y。接著,識別網路 g_φ 由基於校正影象 I^Y 的度量學習訓練。標準視角下的自然人臉分佈被作為正則化引入訓練,用以鼓勵標準視角的人臉校正。
人臉校正網路
不同於最近的人臉轉正技術從抽象特徵中生成人臉,本文把校正過程定義為從原始影象到校準後的標準影象的畫素扭曲,如圖 3 所示。
圖 3:區域性單應變換
研究者通過把校正影象分割成 n^2 個非重疊單元以定義模版 Q:
對於每個單元,研究者通過評估區域性單應矩陣 計算原始影象中相應的可變形單元。具體而言,單應矩陣可寫為:
校正網路把原始影象 I^X 作為輸入,並預測 n^2 個殘差矩陣 。接著,獲得單元的校正影象 I^Y,同時單應矩陣 可寫為:
其中 p̂ 和 q̂ 是 p 和 q 的單應座標系。
把每一單元 的角點集合用 C 表示為 。由於分別評估所有的區域性單應矩陣,校正影象中的一個單元角點被對映到原始影象中的多個點(見圖 3)。為避免 I^X 中相鄰單元的邊界之間出現較大的不一致性,研究者進一步引入一個軟約束,稱之為可變形約束 L_de。具體而言,另 M_i 表示原始影象中 c_i 座標系的集合;接著新增一個軟約束 ,從而把 M_i 中每一對點之間的一致性強化為 。研究者把這一軟約束併入學習目標,並作為校正網路的可變形損失函式:
降噪自編碼器正則化
正則化鼓勵校正過程生成標準視角的人臉。研究者將其定義為一個影象先驗,它直接基於自然影象的標準視角人臉分佈 P_Y:
一般來講,這一優化至關重要。研究者沒有明確地建模這一分佈,而是考慮的梯度,並通過隨機梯度下降最大化它:
藉助於用於影象生成和復原的先前結果,研究者把先驗梯度近似為
這裡,(,)是在真實資料分佈 P_Y (本文的標準視角人臉)上訓練的最優降噪自編碼器。藉助這些結果,研究者通過在標準視角人臉資料集上訓練一個降噪自編碼器 h_ω 來優化公式 5,接著通過公式 7 評估反向傳播中已近似的梯度。
人臉識別網路
給定校正人臉 ,研究者利用深度卷積識別網路 g_φ 提取人臉表徵 。按照先前工作,研究者使用三元組損失函式(triplet loss)訓練識別網路。另 表示 3 張影象,形成一個人臉三元組,其中 和 來自同一個人,來自另外一個人。識別損失函式如下:
其中 是特徵表徵 x 和 y 之間的歐幾里得距離。超引數 α 控制三元組損失函式之內人內距離和人間距離之間的餘量(margin)。
總結一下,研究者通過最小化一個目標聯合優化校正網路和識別網路,包括一個可變形項,一個識別項和一個正則化項:
實驗
GridFace 所使用的資料集是社交網路人臉資料集(Social Network Face Dataset/SNFace),它包含大約 10M 張影象和 200K 張人臉。在本文的所有實驗中,研究者使用 GoogLeNet 作為識別網路,校正網路基於一個修改的 Inception 模組。降噪自編碼器基於一個卷積自編碼器架構而設計。網路細節請見表 1:
表 1:網路細節
人臉校正
本文所有方法的評估均在 SNFace 測試集上,研究者對比了若干個同類方法:baseline 模型沒有人臉校正;全域性模型 Grid-1 通過全域性單應變換實現人臉校正;沒有人臉先驗正則化的模型 Grid-8\reg 在訓練期間沒有正則化。
進而,為了對比在人臉識別技術中使用的 3D 人臉轉正技術,研究者藉助一項近期的人臉轉正技術(Hassner et al.)處理整個 SNFace 資料集以合成正面視角,並與這一在合成資料上(稱之為 baseline-3D)訓練的模型對比,以驗證本文方法人臉校正和聯合優化的有效性。
圖 4:SNFace 測試集的定量分析
表 2:SNFace 測試集的定量結果
圖 5:合成 2D 變換
表 3:合成 2D 變換之下的定量結果
評估結果
為驗證已學習模型的跨資料泛化能力,研究者在 4 個挑戰賽公開基準上做了實驗,即 LFW,YTF,Multi-PIE 和 IJB-A,它們涵蓋大角度、表情以及光照變化情況下的人臉校正。
圖 8:GridFace 在公開基準上的定性結果。左上:LFW;左下:YTF,右上:IJB-A,右下:Multi-PIE。
表 4:LFW 和 YTF 評估結果
表 5:Multi-PIE 評估結果
表 6:IJB-A 評估結果
結論
本文開發出一種稱之為 GridFace 的方法,以減少人臉幾何變形。藉助區域性單應變換,研究者提出一種全新的非剛性人臉校正方法,並通過把降噪自編碼器應用於自然的正面人臉分佈來正則化它。實驗結果表明該方法可大幅降低人臉變形,提升識別效能。
參考文獻
lAlain, G., Bengio, Y.: What regularized auto-encoders learn from the data- generating distribution. The Journal of Machine Learning Research 15(1), 3563– 3593 (2014)
lJaderberg, M., Simonyan, K., Zisserman, A., et al.: Spatial transformer networks. In: Advances in Neural Information Processing Systems 28. pp. 2017–2025 (2015)
lS ̈arela ̈, J., Valpola, H.: Denoising source separation. Journal of machine learning research 6(Mar), 233–272 (2005)
lChen, D., Hua, G., Wen, F., Sun, J.: Supervised transformer network for effi- cient face detection. In: European Conference on Computer Vision. pp. 122–138. Springer (2016)
lZhong, Y., Chen, J., Huang, B.: Toward end-to-end face recognition through align- ment learning. IEEE Signal Processing Letters 24(8), 1213–1217 (Aug 2017). https://doi.org/10.1109/LSP.2017.2715076