【計算視覺】人臉屬性識別演算法 | 性別+種族+年齡+表情

CS青雀發表於2019-02-22

隨著社會的發展,快速有效的自動身份驗證在安防領域變的越來越迫切。由於生物特性是人的內在屬性,具有很強的自身穩定性和個體差異性,是身份驗證的最理想依據。利用人臉屬性進行身份驗證又是最自然直接的手段,相比其它人體生物特性,它具有直接、友好、方便的特點,更容易被使用者所接受且不易察覺。

一、人臉屬性識別與演算法

人臉是一種非常重要的生物特徵,具有結構複雜、細節變化多等特點,同時也蘊含了大量的資訊,比如性別、種族、年齡、表情等。一個正常的成年人可以輕易的理解人臉的資訊,但將同樣的能力賦予給計算機,並讓其代替人類進行類腦思考成為研究學者亟待攻克的科學課題!

人類可以通過使用相機等影象採集裝置和計算機組建一套與人體類似的系統,相機等影象採集裝置是“眼睛”,計算機是“大腦”。但是問題來了,這些單純的硬體設施並不足以讓機器完成理解人臉資訊的任務,這其中還需要載有思考能力,也就是我們平時所說的演算法。

目前主流的人臉屬性識別演算法主要包括:性別識別、種族識別、年齡估計、表情識別等。

二、性別識別

性別識別是利用計算機視覺來辨別和分析影象中的人臉性別屬性。多年來,人臉性別分類因其在人類身份認證、人機介面、視訊檢索以及機器人視覺中的潛在應用而備受關注。

性別分類是一個複雜的大規模二次模式分類問題,分類器將資料錄入並劃分男性和女性。目前最主要的性別識別方法主要有:基於特徵臉的性別識別演算法基於Fisher準則的性別識別方法基於Adaboost+SVM的人臉性別分類演算法三大類。

2.1 基於特徵臉的性別識別演算法

基於特徵臉(EigenFace)的性別識別演算法主要是使用PCA(主成分分析)。在計算過程中通過消除資料中的相關性,將高維影象降低到低維空間,而訓練集中的樣本則被對映成低維空間中的一點。當需要判斷測試圖片的性別時,就需要先將測試圖片對映到低維空間中,然後計算離測試圖片最近樣本點是哪一個,將最近樣本點的性別賦值給測試圖片即可。

2.2 基於Fisher準則的性別識別方法

基於Fisher準則的性別識別方法主要利用LDA(線性投影分析)的思想。它是通過將樣本空間中的男女樣本投影到過原點的一條直線上,並確保樣本在該線上的投影類內距離最小,類間距離最大,從而分離出識別男女的分界線。

2.3 基於Adaboost+SVM的人臉性別分類演算法

基於Adaboost+SVM的人臉性別分類演算法主要分為兩個階段:

2.3.1 訓練階段

通過對樣本影象進行預處理,提取影象的Gabor小波特徵,通過Adaboost分類器進行特徵降維,最後對SVM分類器進行訓練;

2.3.2 測試階段

通過對樣本影象進行預處理,提取影象的Gabor小波特徵,通過Adaboost分類器進行特徵降維,最後用訓練好的SVM分類器進行識別,輸出識別結果。

三、種族識別

準確的種族分類不僅可以有效地獲取人臉資料中的人臉特性,還可以獲取更多的人臉語義理解資訊。其難點就在於:如何準確的描述人臉資料的種族特性以及如何在特徵空間的基礎上實現準確的分類。基於Adaboost和SVM的人臉識別演算法為我們提供了一臂之力。

3.1 基於Adaboost和SVM的人臉種族識別演算法

基於Adaboost和SVM的人臉種族識別演算法通過提取人臉的膚色資訊和Gabor特徵,並通過Adaboost級聯分類器進行特徵學習,最後根據SVM分類器進行特徵分類。

、年齡估計

說到年齡估計的問題,定義並不明確。它既可以是分類問題,亦可是迴歸問題。如果將年齡分成幾類,比如:少年、青年、中年和老年時,年齡估計就是分類問題;如果精確的估計具體年齡時,年齡估計就是迴歸問題。

說到底,年齡估計是一個比性別識別更為複雜的問題。原因在於:人的年齡特徵在外表上很難準確地被觀察出來,即使是人眼也很難準確地判斷出一個人的年齡。再看人臉的年齡特徵,它通常表現在皮膚紋理、皮膚顏色、光亮程度和皺紋紋理等方面,而這些因素通常與個人的遺傳基因、生活習慣、性別和性格特徵和工作環境等方面相關。所以說,我們很難用一個統一的模型去定義人臉影象的年齡。若想要較好地估出人的年齡層,則需要通過大量樣本的學習,比如說年齡估計開始。

年齡估計大致分為預估和詳細評估兩個階段。

預估階段:

提取出照片中人臉的肌膚紋理特徵,對年齡範圍做一個大致的評估,得出一個特定的年齡段;

詳細評估階段:

通過支援向量機的方法,建立了對應於多個年齡段的多個模型分類器,並選擇合適的模型進行匹配。這其中,以一項融合LBP和HOG特徵的人臉年齡估計演算法最為人們所熟知。

4.1 融合LBP和HOG特徵的人臉年齡估計演算法

融合LBP和HOG特徵的人臉年齡估計演算法提取與年齡變化關係緊密的人臉的區域性統計特徵。LBP(區域性二值化模式)特徵和HOG(梯度直方圖)特徵,並用CCA(典型相關分析)的方法融合,最後通過SVR(支援向量機迴歸)的方法對人臉庫進行訓練和測試。

五、表情識別

人臉表情是情緒狀態和心理狀態表現出來的一種重要形式。心理學家研究表明,只有7%的資訊通過語言來表達,有38%按輔助語言來傳達,如節奏、語音、語調等,而佔比重最大的是人臉表情——達到總量的55%。也就是說,我們通過人臉表情可以得到很多有價值的資訊,比如人的意識和心理活動等,這也就是我們常說的人臉表情識別。

人臉表情識別是指研究一個自動、高效、準確的系統來識別人臉表情的狀態,進而通過人臉表情資訊瞭解人的情緒,比如高興、悲傷、憤怒、恐懼、驚訝、厭惡等。在演算法識別中,融合LBP 和區域性稀疏表示的人臉表情識別演算法最為著名。

5.1融合LBP 和區域性稀疏表示的人臉表情識別演算法

融合LBP 和區域性稀疏表示的人臉表情識別演算法包括:

首先,對規格化後的訓練集人臉影象進行特徵分割槽,對於沒個人臉分割槽計算該區域的LBP特徵,並採用直方圖統計方法整合該區域特徵向量,形成由特定人臉的區域性特徵組成的訓練集區域性特徵庫;

其次,對於測試人臉,同樣進行人臉影象規格化、人臉分割槽、區域性LBP特徵計算和區域性直方圖統計操作;

最後,對於測試人臉的區域性直方圖統計特徵,利用訓練集特徵庫進行區域性稀疏重構表示,並採用區域性稀疏重構殘差加權方法進行最終人臉表情分類識別。

智芯原動人臉屬性識別

智芯原動的人臉屬性識別演算法中使用了具有深度學習的卷積神經網路。卷積神經網路是一種特殊的深層的神經網路模型,它是將人工神經網路和深度學習技術相結合而產生的一種新型人工神經網路方法,具有區域性感受區域、層次結構化、特徵提取和分類過程結合的全域性訓練的特點,在影象識別領域獲得了廣泛的應用。

卷積神經網路的特殊性體現在兩個方面。

1、它的神經元之間的連線是非全連線的;

2、同一層中某些神經元之間的連線的權重是共享的。

這種非全連線和權值共享的網路結構降低了網路模型的複雜度,減少了權值的數量,這種網路結構對平移、旋轉、傾斜、比例縮放等具有高度不變性。

優勢:智芯原動的人臉屬性識別演算法很大程度上解決了裝飾物、姿態、表情、光源帶來的難點,並對影象質量、環境複雜度的要求較低,可以準確識別人臉的性別、種族、年齡、表情和佩戴的飾品(例如眼鏡、耳環等),其人臉屬性識別準確率96%以上。

轉自:https://www.sohu.com/a/124787315_607256 (2017)

相關文章