人臉識別是當前手機裝置中使用最廣泛的生物識別特徵之一。而損失函式在訓練用於人臉識別的 CNN 過程中有重要作用。因此,本文對用於人臉識別的多種損失函式進行了效能對比。
無約束人臉識別是計算機視覺領域中最難的問題之一。人臉識別在罪犯識別、考勤系統、人臉解鎖系統中得到了大量應用,因此已經成為人們日常生活的一部分。這些識別工具的簡潔性是其在工業和行政方面得到廣泛應用的主要原因之一。但是同時,這種易用性掩蓋了工具設計背後的複雜度和難度。很多科學家和研究人員仍然在研究多種技術以獲得準確、穩健的人臉識別機制,未來其應用範圍仍然會以指數級增加。2012 年,Krizhevsky 等人 [1] 提出 AlexNet,這一變革性研究是人臉識別領域的一項重大突破,AlexNet 贏得了 ImageNet 挑戰賽 2012 的冠軍。之後,基於 CNN 的方法在大部分計算機視覺問題中如魚得水,如影象識別、目標檢測、語義分割和生物醫療影象分析等。過去幾年研究者提出了多種基於 CNN 的方法,其中大部分方法處理問題所需的複雜度和非線性,從而得到更一般的特徵,然後在 LFW [12]、Megaface [13] 等主要人臉資料集上達到當前最優準確率。2012 年之後,出現了很多基於深度學習的人臉識別框架,如 DeepFace [14]、DeepID [15]、FaceNet [16] 等,輕鬆超越了手工方法的效能。
影象識別效能的提升伴隨著 CNN 深度的增加,如 GoogLeNet [17] 和 ResNet [4]。然而,研究發現,在深度到達一定程度後,效能趨向於飽和,即深度的增加幾乎不會再帶來效能的提升。同時,人臉識別的大規模應用成本高昂,因為其深度架構所需的計算成本很高。因此,近年來研究者也在研究 CNN 模型的其它方面,如損失函式、非線性、優化器等。其中一個重要研究是開發適合人臉識別的損失函式。關於損失函式的早期研究包括 Center Loss 和 Triplet Loss,主要用於減少當前樣本和正樣本之間的距離、增加當前樣本和負樣本之間的距離,從而更緊密地與人臉識別產生關聯。近期的損失函式(如 Soft-Margin Softmax Loss [19]、Congenerous Cosine Loss [20]、Minimum Margin Loss [21]、Range Loss [22]、L2-Softmax Loss [23]、Large-Margin Softmax Loss [24] 和 A-Softmax Loss [25])在更輕量級的 CNN 模型上展示出了強大效能,有些結果甚至優於大型 CNN 模型。
本論文對近期提出的用於深度人臉識別的損失函式進行了綜合效能對比。該研究實施了大量實驗,從不同方面(比如架構的影響(如深度和重量)、訓練資料集的影響)來判斷不同損失函式的效能。然後使用訓練準確率、測試準確率和收斂速率評估標準對結果進行分析。
論文:A Performance Comparison of Loss Functions for Deep Face Recognition
論文連結:https://arxiv.org/pdf/1901.05903.pdf
摘要:生物識別工具的出現及其在日常裝置中日漸增加的應用使得使用者驗證過程更加簡單,尤其是與之前使用的密碼和圖案解鎖相比。生物識別工具的易用性減少了人類手工勞作,促進更快、更自動的驗證過程。在不同的生物識別特徵中,人臉是無需使用者配合即可獲取的。此外,人臉識別是目前裝置中最廣泛應用的特徵之一,因此也應該是最需要優先解決的重要問題。按照近期趨勢,基於 CNN 的方法在多個計算機視覺任務中獲得了高度成功,包括人臉識別。其中損失函式被用於判斷網路的效能,損失函式在 CNN 訓練過程中發揮重要作用。如果網路在當前引數設定下無法獲得優秀效能的話,它就會生成大的損失。本文對用於人臉識別的不同損失函式進行了效能對比,如交叉熵損失、Angular Softmax、Additive-Margin Softmax、ArcFace 和 Marginal Loss。實驗所用 CNN 架構是 ResNet 和 MobileNet,訓練資料集為 CASIA-Webface 和 MS-Celeb-1M,測試資料集為 LFW 人臉資料集。
損失函式
本文對比了五種損失函式:交叉熵損失、Angular Softmax Loss、Additive-Margin Softmax Loss、ArcFace Loss 和 Marginal Loss。其中 Angular Softmax Loss 和 Additive-Margin Softmax Loss 等損失函式是專為人臉識別任務提出的。
交叉熵損失
Angular-Softmax Loss
Additive Margin Softmax Loss
ArcFace Loss
Marginal Loss
網路架構
ResNet 模型
圖 1a:ResNet 所用基礎殘差塊。b:MobileNet 使用兩個不同的卷積來減少計算量。D_k 表示濾波器大小,M 表示輸入維度。
表 1:ResNet50 架構的表格表示。第一二三列分別表示層命名、輸出大小和濾波器大小。
MobileNet
表 2:MobileNet 架構概覽。
效能評估和觀測
研究者使用 ResNet50 和 MobileNetv1 架構和上述損失函式,在 MS-Celeb-1M 和 CASIA-Webface 資料集上執行訓練,在 LFW 資料集上執行測試。作者提供了基於測試準確率、收斂速率和測試結果的對比。
圖 2:損失函式效能評估的訓練和測試框架。
圖 3:該研究中不同模型在 LFW 資料集上獲得的最高測試準確率。
圖 4:給定損失函式獲得最佳模型效能所需的最少 epoch 數量。
表 3:ResNet50 和 MobileNetv1 這兩個架構在 MS-Celeb-1M 和 CASIA-Webface 資料集上獲得的訓練準確率對比,和在 LFW 資料集上獲得的測試準確率對比。