本文內容涵蓋人臉識別發展歷程、市場研究、核心技術、商業應用以及產業落地、個人看法等乾貨研究。注意,本文乾貨滿滿,約有2萬7千字,強烈建議大家先收藏後學習!
01 發展史
1. 人臉識別的理解
人臉識別(Face Recognition)是一種依據人的面部特徵(如統計或幾何特徵等),自動進行身份識別的一種生物識別技術,又稱為面像識別、人像識別、相貌識別、面孔識別、面部識別等。通常我們所說的人臉識別是基於光學人臉影像的身份識別與驗證的簡稱。
人臉識別利用攝像機或攝像頭採集含有人臉的影像或影片流,並自動在影像中檢測和跟蹤人臉,進而對檢測到的人臉影像進行一系列的相關應用操作。技術上包括影像採集、特徵定位、身份的確認和查詢等等。簡單來說,就是從照片中提取人臉中的特徵,比如眉毛高度、嘴角等等,再透過特徵的對比輸出結果。
2. 人臉識別的發展簡史
第一階段(1950s—1980s)初級階段
人臉識別被當作一個一般性的模式識別問題,主流技術基於人臉的幾何結構特徵。這集中體現在人們對於剪影(Profile)的研究上,人們對面部剪影曲線的結構特徵提取與分析方面進行了大量研究。人工神經網路也一度曾經被研究人員用於人臉識別問題中。較早從事 AFR 研究的研究人員除了布萊索(Bledsoe)外還有戈登斯泰因(Goldstein)、哈蒙(Harmon)以及金出武雄(Kanade Takeo)等。總體而言,這一階段是人臉識別研究的初級階段,非常重要的成果不是很多,也基本沒有獲得實際應用。
第二階段(1990s)高潮階段
這一階段儘管時間相對短暫,但人臉識別卻發展迅速,不但出現了很多經典的方法,例如Eigen Face, Fisher Face和彈性圖匹配;並出現了若干商業化運作的人臉識別系統,比如最為著名的 Visionics(現為 Identix)的 FaceIt 系統。 從技術方案上看, 2D人臉影像線性子空間判別分析、統計表觀模型、統計模式識別方法是這一階段內的主流技術。
第三階段(1990s末~現在)
人臉識別的研究不斷深入,研究者開始關注面向真實條件的人臉識別問題,主要包括以下四個方面的研究:1)提出不同的人臉空間模型,包括以線性判別分析為代表的線性建模方法,以Kernel方法為代表的非線性建模方法和基於3D資訊的3D人臉識別方法。2)深入分析和研究影響人臉識別的因素,包括光照不變人臉識別、姿態不變人臉識別和表情不變人臉識別等。3)利用新的特徵表示,包括區域性描述子(Gabor Face, LBP Face等)和深度學習方法。4)利用新的資料來源,例如基於影片的人臉識別和基於素描、近紅外影像的人臉識別。
02 市場研究
1. 全球人臉識別市場
前瞻根據人臉識別行業發展現狀;到2016年,全球生物識別市場規模在127.13億美元左右,其中人臉識別規模約26.53億美元,佔比在20%左右。預計到2021年,全球人臉識別市場預計將達到63.7億美元,按預計期間的複合增長率達17.83%。
2. 中國人臉識別市場
前瞻根據人臉識別行業發展現狀,估算我國人臉識別市場規模約佔全球市場的10%左右。2010-2016年,我國人臉識別市場規模逐年增長,年均複合增長率達27%。2016年,我國人臉識別行業市場規模約為17.25億元,同比增長27.97%,增速較上年上升4.64個百分點。
3. 國內主要玩家分佈
3.1 中國部分人臉識別公司(排名不分先後)
3.2 四大獨角獸介紹及對比細分領域
(1)曠視科技:
2014年,獲阿里巴巴旗下螞蟻金服投資,主攻金融和監控兩大行業,有子公司曠視智安;團隊成員除了幾名來自清華校友外,還有來自美國哥倫比亞大學、英國牛津大學和美國南加州大學的科研及開發人員,截至目前員工僅有100餘人。
在金融、安防、零售領域分別開始了商業化探索成功發育出Face++Financial,Face++Security,Face++BI等垂直人臉驗證解決方案,主要將人臉識別應用在網際網路產品上,自己做研發,在美圖秀秀、淘寶等網際網路領域得到良好的應用,在金融領域的市場一直佔據沙發前排陣營;2016年獲得上億元C輪融資,最後選擇透過計算機視覺技術與NLP技術的結合,製造出能“識別萬物”的智慧機器人,提供硬體模組,裡面內建他們家的演算法。目前正在準備啟動IPO的步伐,VIE架構讓他們得以繞過A股,不用達到連續三年盈利的標準實現快速上市。
(2)商湯科技:
SenseTime(商湯科技),獲IDG資本投資,主攻金融、移動網際網路、安防監控三大行業;由香港中文大學的湯曉歐建立,“商湯”中的湯指的就是湯曉歐本人,湯曉鷗及其研究團隊所開發的DeepID演算法率先將深度學習應用到人臉識別上,在技術指標上實現了新的突破。主要案例是圍繞各個美化軟體與直播平臺製作人臉貼圖,重點強化了人臉識別的關鍵點檢測及跟蹤技術。
團隊有300多號,也從當初toC轉向toB領域;成立於2014年的商湯科技選擇另闢蹊徑,選擇用“四大美女”這個話題讓人們躁動起來,到最後四大美女走了三個;商湯的網路都是自己設計的,這樣對於深度學習網路的掌控力就會更強,提供SaaS服務的同時,可以透過SaaS把背後的資料拿到,再進行更多更細緻的分析再次提升服務質量。
(3)雲從科技
2015年4月,周曦拿到戰略投資成立雲從科技,同年針對金融和銀行業推出了40多種解決方案,包含從演算法、產品、銷售、售後的全產業鏈打造,針對農行、建行、交行、中行及多地公安提供定製化服務。團隊成員除了來自中科大的校友外,還來自中國科學院各大研究所、UIUC、IBM、NEC、MicroSoft等全球頂尖學府及研究機構。
截止2016年11月,成立一年半,研發團隊擴充套件為200餘名,核心產品是人臉識別系統及IBIS整合生物識別平臺,還具備3D模型、紅外活體、靜默活體等技術,可根據場景需求自由調節。選擇連線硬體、開發與技術,屬於全產業鏈模式,因為人臉識別系統多數情況下需要深度定製,只有這樣,才能在客戶提出需求的情況下迅速反饋,修改,統一使用者體驗。
(4)依圖科技:
2012 年九月,朱瓏與他的好友林晨曦在創立依圖科技,這家從事人工智慧創新性研究的創企從影像識別入手,首先與全國省市級公安系統合作,對車輛品牌、型號等進行精準識別,隨後擴充套件到人像識別,透過靜態人像比對技術和動態人像比對技術,協助公安系統進行人員身份核查、追逃、監控、關係挖掘等。
發展近6年,依圖科技的產品已經應用到全國二十多個省市地區的安防領域,安防領域之外,依圖也進入智慧城市領域和健康醫療領域,它要協助政府構建"城市大腦",也希望將醫療領域的巨大知識鴻溝縮小,改善醫患體驗。
(5)細分領域對比表
(6)主要客戶對比
4. 商業模式
4.1 人臉識別商業模式設計步驟
4.2 人臉識別盈利模式
03 人臉識別的流程及主要技術
1. 人臉識別系統組成
2. 人臉識別的一般流程
2.1 人臉採集
(1)簡介
不同的人臉影像透過攝像鏡頭採集得到,比如靜態影像、動態影像、不同的位置、不同表情等,當採集物件在裝置的拍攝範圍內時,採集裝置會自動搜尋並拍攝人臉影像。
(2)人臉採集的主要影響因素
- 影像大小:人臉影像過小會影響識別效果,人臉影像過大會影響識別速度。非專業人臉識別攝像頭常見規定的最小識別人臉畫素為60*60或100*100以上。在規定的影像大小內,演算法更容易提升準確率和召回率。影像大小反映在實際應用場景就是人臉離攝像頭的距離。
- 影像解析度:越低的影像解析度越難識別。影像大小綜合影像解析度,直接影響攝像頭識別距離。現4K攝像頭看清人臉的最遠距離是10米,7K攝像頭是20米。
- 光照環境:過曝或過暗的光照環境都會影響人臉識別效果。可以從攝像頭自帶的功能補光或濾光平衡光照影響,也可以利用演算法模型最佳化影像光線。
- 模糊程度:實際場景主要著力解決運動模糊,人臉相對於攝像頭的移動經常會產生運動模糊。部分攝像頭有抗模糊的功能,而在成本有限的情況下,考慮透過演算法模型最佳化此問題。
- 遮擋程度:五官無遮擋、臉部邊緣清晰的影像為最佳。而在實際場景中,很多人臉都會被帽子、眼鏡、口罩等遮擋物遮擋,這部分資料需要根據演算法要求決定是否留用訓練。
- 採集角度:人臉相對於攝像頭角度為正臉最佳。但實際場景中往往很難抓拍正臉。因此演算法模型需訓練包含左右側人臉、上下側人臉的資料。工業施工上攝像頭安置的角度,需滿足人臉與攝像頭構成的角度在演算法識別範圍內的要求。
2.2 人臉檢測
(1)簡介
在影像中準確標定出人臉的位置和大小,並把其中有用的資訊挑出來(如直方圖特徵、顏色特徵、模板特徵、結構特徵及Haar特徵等),然後利用資訊來達到人臉檢測的目的。
(2)人臉關鍵點檢測(人臉對齊)
自動估計人臉圖片上臉部特徵點的座標。
(3)主流方法
基於檢測出的特徵採用Adaboost學習演算法(一種用來分類的方法,它把一些比較弱的分類方法合在一起,組合出新的很強的分類方法)挑選出一些最能代表人臉的矩形特徵(弱分類器),按照加權投票的方式將弱分類器構造為一個強分類器,再將訓練得到的若干強分類器串聯組成一個級聯結構的層疊分類器,有效地提高分類器的檢測速度。
最近人臉檢測演算法模型的流派包括三類及其之間的組合:viola-jones框架(效能一般速度尚可,適合移動端、嵌入式上使用),dpm(速度較慢),cnn(效能不錯)。
2.3 人臉影像預處理
(1)簡介
基於人臉檢測結果,對影像進行處理並最終服務於特徵提取的過程。
(2)原因
系統獲取的原始影像由於受到各種條件的限制和隨機干擾,往往不能直接使用,必須在影像處理的早期階段對它進行灰度矯正、噪聲過濾等影像預處理。
(3)主要預處理過程
人臉對準(得到人臉位置端正的影像),人臉影像的光線補償,灰度變換、直方圖均衡化、歸一化(取得尺寸一致,灰度取值範圍相同的標準化人臉影像),幾何校正、中值濾波(圖片的平滑操作以消除噪聲)以及銳化等。
2.4 人臉特徵提取
(1)簡介
人臉識別系統可使用的特徵通常分為視覺特徵、畫素統計特徵、人臉影像變換系數特徵、人臉影像代數特徵等。人臉特徵提取就是針對人臉的某些特徵進行的,也稱人臉表徵,它是對人臉進行特徵建模的過程
(2)人臉特徵提取的方法
- 基於知識的表徵方法(主要包括基於幾何特徵法和模板匹配法):根據人臉器官的形狀描述以及它們之間的距離特性來獲得有助於人臉分類的特徵資料,其特徵分量通常包括特徵點間的歐氏距離、曲率、和角度等。人臉由眼睛、鼻子、嘴、下巴等區域性構成,對這些區域性和他們之間結構關係的幾何描述,可作為識別人臉的重要特徵,這些特徵被稱為幾何特徵。
- 基於代數特徵或統計學習的表徵方法:基於代數特徵方法的基本思想是將人臉在空域內的高維描述轉化為頻域或者其他空間內的低維描述,其表徵方法為線性投影表徵方法和非線性投影表徵方法。基於線性投影的方法主要有主成分分析法或稱K-L變化、獨立成分分析法和Fisher線性判別分析法。非線性特徵提取方法有兩個重要的分支:基於核的特徵提取技術和以流形學習為主導的特徵提取技術。
2.5 匹配與識別
提取的人臉特徵值資料與資料庫中存貯的特徵模板進行搜尋匹配,透過設定一個閾值,將相似度與這一閾值進行比較,來對人臉的身份資訊進行判斷。
3. 人臉識別的主要方法
3.1 Eigen Face(特徵臉)
MIT實驗室的特克(Turk)和潘特(Pentland)提出的“特徵臉”方法無疑是這一時期內最負盛名的 人臉識別方法。其後的很多人臉識別技術都或多或少與特徵臉有關係,現在特徵臉已經與歸一化的協相關量(Normalized Correlation)方法一道成為人臉識別的效能測試基準演算法。
人臉識別特徵臉演算法文件:
https://blog.csdn.net/zizi7/article/details/52757300
3.2 Fisher Face(漁夫臉)
貝爾胡米爾(Belhumeur)等提出的 Fisherface 人臉識別方法是這一時期的另一重要成果。該方法首先採用主成分分析(PCA)對影像表觀特徵進行降維。在此基礎上,採用線性判別分析(LDA)的方法 變換降維後的主成分以期獲得“儘量大的類間散度和儘量小的類內散度”。該方法目前仍然是主流的人臉識別方法之一,產生了很多不同的變種,比如零空間法、子空間判別模型、增強判別模型、直接的LDA 判別方法以及近期的一些基於核學習的改進策略。
Fisher Face演算法文件:
https://blog.csdn.net/zizi7/article/details/52999432
3.3 EGM(彈性圖匹配)
其基本思想是用一個屬性圖來描述人臉:屬性圖的頂點代表面部關鍵特徵點,其屬性為相應特徵點處 的多解析度、多方向區域性特徵——Gabor變換12特徵,稱為Jet;邊的屬性則為不同特徵點之間的幾何 關係。對任意輸入人臉影像,彈性圖匹配透過一種最佳化搜尋策略來定位預先定義的若干面部關鍵特徵點,同時提取它們的Jet特徵,得到輸入影像的屬性圖。最後透過計算其與已知人臉屬性圖的相似度來完成識別過程。該方法的優點是既保留了面部的全域性結構特徵,也對人臉的關鍵區域性特徵進行了建模。
彈性圖匹配演算法文件:
https://blog.csdn.net/real_myth/article/details/44828219
3.4 基於幾何特徵的方法
幾何特徵可以是眼、鼻、嘴等的形狀和它們之間的幾何關係(如相互之間的距離)。這些演算法識別速 度快,需要的記憶體小,但識別率較低。
3.5 基於神經網路的方法
神經網路的輸入可以是降低解析度的人臉影像、區域性區域的自相關函式、區域性紋理的二階矩等。這類方法同樣需要較多的樣本進行訓練,而在許多應用中,樣本數量是很有限的。
3.6 基於線段Hausdorff 距離(LHD) 的方法
心理學的研究表明,人類在識別輪廓圖(比如漫畫)的速度和準確度上絲毫不比識別灰度圖差。LHD是基於從人臉灰度影像中提取出來的線段圖的,它定義的是兩個線段集之間的距離,與眾不同的是,LHD並不建立不同線段集之間線段的一一對應關係,因此它更能適應線段圖之間的微小變化。實驗結果表明,LHD在不同光照條件下和不同姿態情況下都有非常出色的表現,但是它在大表情的情況下識別效果不好。
3.7 基於支援向量機(SVM) 的方法
近年來,支援向量機是統計模式識別領域的一個新的熱點,它試圖使得學習機在經驗風險和泛化能力上達到一種妥協,從而提高學習機的效能。支援向量機主要解決的是一個2分類問題,它的基本思想是試圖把一個低維的線性不可分的問題轉化成一個高維的線性可分的問題。通常的實驗結果表明SVM有較好的識別率,但是它需要大量的訓練樣本(每類300個),這在實際應用中往往是不現實的。而且支援向量機訓練時間長,方法實現複雜,該函式的取法沒有統一的理論。
4. 技術發展方向
- 結合三維資訊:二維和三維資訊融合使特徵更加魯棒
- 多特徵融合:單一特徵難以應對複雜的光照和姿態變化
- 大規模人臉比對:面向海量資料的人臉比對與搜尋
- 深度學習:在大資料條件下充分發揮深度神經網路強大的學習能力
5. 人臉識別資料庫
- Yale人臉資料庫
- ORL人臉資料庫
- CMU PIE人臉資料庫
- FERET人臉資料庫
- MIT資料庫
- BANCA人臉資料庫
- CAS-PEAL人臉資料庫
- JAFE表情資料庫
- Cohn-Kanade表情資料庫
- MMI表情資料庫
6. 技術指標
6.1 人臉檢測中的關鍵指標
例子:在攝像頭某張抓拍影像中,一共有100張人臉,演算法檢測出80張人臉,其中75張是真實人臉,5 張是把路標誤識為人臉。
- 檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,代表檢測模型效果越好。
- 誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,代表檢測模型效果越好。
- 漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,代表檢測模型效果越好。
- 速度:從採集影像完成到人臉檢測完成的時間。時間約短,檢測模型效果越好。
在這個實際案例中:檢測率=75/100誤檢率=5/80漏檢率=(100-75)/100
6.2 人臉識別中的關鍵指標
1000張樣本圖片裡,共600張正樣本。相似度為0.9的圖片一共100張,其中正樣本為99張。雖然0.9閾值的正確率很高,為99/100;但是0.9閾值正確輸出的數量確很少,只有99/600。這樣很容易發生漏識的情況。
- 檢測率:識別正確的人臉/圖中所有的人臉。檢測率越高,代表檢測模型效果越好。
- 誤檢率:識別錯誤的人臉/識別出來的人臉。誤檢率越低,代表檢測模型效果越好。
- 漏檢率:未識別出來的人臉/圖中所有的人臉。漏檢率越低,代表檢測模型效果越好。
- 速度:從採集影像完成到人臉檢測完成的時間。時間約短,檢測模型效果越好。
在這個實際案例中:檢測率=75/100 誤檢率=5/80 漏檢率=(100-75)/100
6.3 人臉識別中的關鍵指標
1000張樣本圖片裡,共600張正樣本。相似度為0.9的圖片一共100張,其中正樣本為99張。雖然0.9閾值的正確率很高,為99/100;但是0.9閾值正確輸出的數量確很少,只有99/600。這樣很容易發生漏識的情況。
- 精確率(precision):識別為正確的樣本數/識別出來的樣本數=99/100
- 召回率(recall):識別為正確的樣本數/所有樣本中正確的數=99/600
- 錯誤接受率/認假率/誤識率(FARFalse Accept Rate):
- 定義:指將身份不同的兩張照片,判別為相同身份,越低越好
- FAR = NFA / NIRA
- 式中 NIRA 代表的是類間測試次數,既不同類別間的測試次數,打比方如果有1000個識別 模型,有1000個人要識別,而且每人只提供一個待識別的素材,那 NIRA=1000*(1000-1) 。NFA是錯誤接受次數。
- FAR決定了系統的安全性,FRR決定了系統的易用程度,在實際中,FAR對應的風險遠遠高於FRR,因此,生物識別系統中,會將FAR設定為一個非常低的範圍,如萬分之一甚至百萬分之一,在FAR固定的條件下,FRR低於5%,這樣的系統才有實用價值。
- 錯誤拒絕率/拒真率/拒識率(FRR False Reject Rate):
- 定義:指將身份相同的兩張照片,判別為不同身份,越低越好
- FRR = NFR / NGRA
- 上式中NFR是類內測試次數,既同類別內的測試次數,打比方如果有1000個識別模型, 有1000個人要識別, 而且每人只提供一個待識別的素 材,那 NIRA=1000,如果每個人提供N張圖片,那麼 NIRA=N*1000 。NFR是錯誤拒絕次數。
需要在精確率(識別為正確的樣本數/識別出來的樣本數)和召回率(識別為正確的樣本數/所有樣本中正確的數)中達到某一個平衡。
測試同事需要關注特定領域內每個類別的指標,比如針對識別人臉的表情,裡面有喜怒哀樂等分類,每一個分類對應的指標都是不一樣的。測試同事需要將測試的結果完善地反饋給演算法同事,演算法同事才能找準模型效果欠缺的原因。同時,測試同事將本次模型的指標結果反饋給產品,由產品評估是否滿足上線需求。
(1)測試環境說明
例如:
- CPU:Intel(R) Core(TM) i7-4790 CPU @ 3.60 GHz
- 記憶體:8GB
- 系統:Ubuntu 14.04 x86_64/Windows 7 SP1 64bit
- GCC版本:4.8.2
(2)測試集和測試需求說明
比如“圖片包含人臉大小應超過96*96畫素,測試結果達到XX程度滿足需求。
- 經典人臉身份識別測試集LFW,共包含13233 張圖片 5749 種不同身份;世界記錄99.7%。
- CK+ (一個人臉表情資料集),包含固定表情和自發表情,包含123個人的593個表情序列。每個序列的目標表情被FACS編碼,同時新增了已驗證的情感標籤(生氣、厭惡、害怕、快樂、悲傷、驚訝)。
(3)需要說明“有效距離,左右角度,上下角度,速度”等引數值(範圍)
注:這和“部署的靈活性”相關——由於不同客戶不同場景的需求不同,所以技術方的人臉檢測模組,一般可以透過調整引數得到N種亞型,以適應不同應用場景(光照、角度、有效距離、速度) 下對運算量和有效檢測距離的需求。
(4)測試結果——欠擬合
- 定義:模型沒有很好地捕捉到資料特徵,不能夠很好地擬合資料
左圖表示size與prize關係的資料,中間的圖就是出現欠擬合的模型,不能夠很好地擬合資料,如果在中間的圖的模型後面再加一個二次項,就可以很好地擬合圖中的資料了,如右面的圖所示。
- 解決方法
- 新增其他特徵項,有時候我們模型出現欠擬合的時候是因為特徵項不夠導致的,可以新增其他特徵項來很好地解決。例如,“組合”、“泛化”、“相關性”三類特徵是特徵新增的重要手段,無論在什麼場景,都可以照葫蘆畫瓢,總會得到意想不到的效果。
- 新增多項式特徵,這個在機器學習演算法裡面用的很普遍,例如將線性模型透過新增二次項或者三次項使模型泛化能力更強。例如上面的圖片的例子。
- 減少正則化引數,正則化的目的是用來防止過擬合的,但是現在模型出現了欠擬合,則需要減少正則化引數。
- 嘗試非線性模型,比如核SVM 、決策樹、DNN等模型。
(5)測試結果——過擬合
- 定義:模型把資料學習的太徹底,以至於把噪聲資料的特徵也學習到了,這樣就會導致在後期測試的時候不能夠很好地識別資料,即不能正確的分類,模型泛化能力太差。例如下面的例子。
上面左圖表示size和prize的關係,我們學習到的模型曲線如右圖所示,雖然在訓練的時候模型可以很好地匹配資料,但是很顯然過度扭曲了曲線,不是真實的size與prize曲線。
- 解決方法
從產品角度:
- 重新清洗資料,導致過擬合的一個原因也有可能是資料不純導致的,噪音太多影響到模型效果,如果出現了過擬合就需要我們重新清洗資料。
- 增大資料的訓練量,還有一個原因就是我們用於訓練的資料量太小導致的,訓練資料佔總資料的比例過小。
從演算法角度:
- 交叉檢驗,透過交叉檢驗得到較優的模型引數;
- 特徵選擇,減少特徵數或使用較少的特徵組合,對於按區間離散化的特徵,增大劃分的區間;
- 正則化,常用的有 L1、L2 正則。而且 L1正則還可以自動進行特徵選擇;
- 如果有正則項則可以考慮增大正則項引數 lambda;
- 增加訓練資料可以有限的避免過擬合;
- Bagging ,將多個弱學習器Bagging 一下效果會好很多,比如隨機森林等.
4.5 標註流程中遇到的問題
(1)專案過程中的不確定性
a. 出現原因:
一般情況下,只要資料標註的規範清晰,對規則的界定從一而終,標註工作的流程還是比較簡單的。
資料標註規範可能會在測試後根據結果情況進行調整,那麼,規則修改前後“資料標註的一致性”就出現了問題,會導致多次返工,在時間和人工成本上頗有影響。
b. 解決方法:
- 1)如是分類性質的解析工作,建議標註規則先從非常肯定的非黑即白開始;規則設定由簡到繁,帶有疑慮資料再另外作記號。隨著規則一步步深入,可能會出現交叉影響,此時就需要放棄一些低頻問題的規則,餘下的未標註的資料就根據新的規則標註。
- 2)如是多類規則同時進行的標註工作,需要把每類規則定得足夠細緻。
- 3)例項:
- 如詢問機器人會幹什麼的語料中出現,“你說你會幹什麼?”可以理解為詢問,也可能是嫌棄,這兩類應對的策略不同,有歧義,所以不能把它歸納如詢問類,需要把它從訓練集裡剔除。
- 如人臉情緒識別中,一個人在流眼淚,有時可以理解為傷心落淚,有時可以理解為喜極而泣,還有時可以理解為激動落淚,甚至是感動落淚等,所以在看到此類照片時,不能簡單的憑藉慣性化思維將其歸納到悲傷一類中,當人眼都很難判別清楚時,需要把它從訓練集裡剔除。
5. 實際案例分析
5.1 某領域的人臉識別監測與身份確認
(1)案例問題
光照影響:過暗或過亮等非正常光照環境,會對模型的效果產生很大干擾。
(2)解決方案
a. 從產品角度控制
- 在使用者可以更換環境的前提下(比如銀行刷臉取錢等),可語音/介面提示使用者目前環境不理想(頭歪、頭髮、眼鏡等),建議進行正確的正臉取照。
- 在使用者不能控制更換環境的情況下(比如人臉識別、車輛識別等攝像頭固定的場景),只能透過除錯硬體設施彌補這個問題。
- 晚上:由於攝像頭在晚上會自動切換到黑 夜 場 景(從圖片上看就是從彩色切換為黑白),因此在晚上強光下(例如路燈照射)人臉就會過曝,這時,我們可以透過強制設定攝像頭環境為白天(影像為彩色)來避免。而過暗的情況,從節省成本角度看,可以在攝像頭旁邊增加一個光線發散、功率不高的燈來彌補。當然這兩個問題也可以透過購買高質量的攝像頭解決,但這樣做也意味著更高的成本。
- 白天:白天也會出現光線過亮的情況,這種情況可以考慮用濾光片等等。
b. 從演算法角度控制
用演算法將圖片進行處理,可以將圖片恢復得讓人眼看清的程度。
5.2 某款人臉年齡識別產品
(1)案例問題
一款識別人臉年齡的產品對女性某個年齡階段(25—35)的判斷,誤差較大,經過發現,是因為該年齡階段 有以下特點:
- 女性在這個年齡階段面貌變化不是很大,有時人眼給出的判斷誤差都很離譜。
- 在這個年齡層次的女性注重打扮,化妝品很大程度上掩蓋了其真實年齡,有時30多的跟20歲沒多大差別;C. 精裝打扮的和素顏的差別不是很大。
(2)解決方案
- 補充資料:針對該年齡層次的人臉圖片資料做補充。不僅補充正例(“XXX”應為多少歲),還應補充負例(“XXX”不應為多少歲)。
- 最佳化資料:修改大批以往的錯誤標註。
- 資料總結:對化妝和不化妝的人臉圖片進行分析,以便調整演算法引數。
(3)需求研究
- 自拍:如女性群體一般都希望自拍時,年齡的判別在心裡預期中能越小越好,當在和一群人自拍中可以適當的將主人公的年齡判別結果調低至達到使用者心理滿足感。此時可適當降低演算法的參照度。
- 婚戀交友:在婚戀網站交友過程中,雙方都希望知道彼此的真實年齡資訊,此時運用人臉年齡識別可以分析雙方的年齡、皮膚等物理資訊為彼此提供參考。此時的資訊就不能以達到心理滿足感為主了,應當追求準確度。
5.3 某款AR美顏相機
(1)無法定位出人臉
在背景出現多人或寵物時,相機有時並未能精確定位出目標使用者,而定位到背景圖片中的人、寵物、身旁的其他人;有時螢幕一片漆黑;有時顯示未檢測出人臉。
- 從產品角度:介面提醒使用者遠離複雜背景,或美顏時最好螢幕中只出現一人,或給出方框圖讓使用者自己手動選擇主要定位區域進行AR美顏;螢幕一片漆黑時可提醒使用者是否是光線太暗,或是攝像頭被障礙物遮擋等;
- 從演算法角度:可對人臉關鍵點進行定位,計算目標使用者與攝像頭的距離或計算人臉在頻幕的區域佔比來確定目標使用者(一般幾何距離近的、頻幕區域佔比較大的為美顏目標),結合活體檢測來排除背景圖片人物的干擾等。
(2)影像模糊昏暗
光線太暗、運動、對焦等造成模糊(攝像頭距離因素,造成影像低頻存在,高頻流失等)
- 從產品角度:可提醒使用者在光線較溫和的區域進行美顏操作;或是擦除前置攝像頭的障礙物;或文字提示動作太快;或是更換高畫質前置攝像頭;或提示對焦失敗,給與對焦框圖讓使用者手動對焦等。
- 從演算法角度:在美顏前可在後臺中調取手機亮度調節功能,用演算法調節光線的亮暗程度以適應美顏所需的物理條件;用演算法設法補齊高頻部分從,而減少對照片的干擾。
(3)人臉關鍵動作抓捕太慢
在進行AR美顏搞怪時(如張嘴動作,螢幕出現音符、唾沫星子等)對動作抓捕太慢(半天才抓捕到張嘴動作)。
- 從產品角度:文字提示不支援快速移動或提示緩慢移動(如,親!您的動作太快了,奴家還未反應過來等)
- 從演算法角度:人臉姿態估計、關鍵點定位來捕捉人臉動作。
(4)關鍵位置新增虛擬物品失敗(如在嘴上叼煙、耳朵吊耳環、眼鏡戴墨鏡、臉顯紅暈)
- 從產品角度:文字/圖片提醒使用者擺正人臉位置。
- 從演算法角度:可利用演算法對人臉關鍵區域進行分割並定位,來達到人臉精準定位新增虛擬物品
5.4 人臉開門和人臉檢索
(1)人臉開門等跨網方案需要關注的因素
- 遠端演算法更新:遠端演算法更新必然會造成本地區域網功能暫時性無法使用。因此遠端演算法更新的頻率、時間、更新效果都需要產品在更新前精確評估。
- 增刪改人臉資料與本地資料的同步:本地區域網和網際網路是無法直接互動的,因此使用者在網際網路一旦對人臉資料庫進行增刪改的操作,下發程式的穩定性和及時性都需要重點關注。
- 硬體環境:本地儲存空間的大小和GPU直接影響到本地識別的速度。伺服器的穩定性影響到功能地正常使用。
- 守護程式:斷電等外接情況意外情況發生又被處理完善後,程式能自動恢復正常。
(2)人臉檢索等某一區域網方案需要關注的因素
- 速度:除了演算法識別需要消耗一定時間外,該區域網下的網速會影響到識別結果輸出的速度。
- 資料庫架構:透過檢索結果關聯結構化資料。
- 閾值的可配置性:在介面設定閾值功能,從產品層面輸入閾值後,改變相對應的結果輸出。
- 輸出結果排序:根據相似度排序或結構化資料排序內容地抉擇
- 雲服務的穩定性。
5.5 曠視科技官網產品體驗(多圖預警)
(1)年齡略有差距,自我估計+-5,性別基本無誤,頭部狀態略有誤差,人種誤差在30-40%(樣本量10,白種人和黃種人誤差明顯),情緒基本無誤,眼鏡種類識別有誤差(商品識別的範疇),強光狀態下表現不佳。
(2)邏輯錯誤:左眼(睜眼、普通眼鏡)、右眼(墨鏡);相似度大(下圖為張一山和夏雨)的較難區分(雙胞胎估計很難區分)
(3)遠距離檢測較難:左圖檢測出一張,右圖檢測出兩張(估計10米開外檢測不到)
(4)能夠識別蠟像、海報等非真人場景,因此在一些場合可欺騙攝像頭,如在金融領域裡的身份識別,海關檢查等關鍵性應用中,將會有風險。
(5)佩戴的口罩無法檢測出人臉
(6)公司體驗對比結果
6. 專案虛擬實戰(以AR美顏APP為例,過程為理論經驗推理所得,自己並未實習)
人臉檢測系統下,有很多FR相關的應用,比如人臉屬性識別(年齡、表情、性別、種族等)、人臉美顏/美妝、人臉聚類等等。我們從AR美顏/美妝這一個例子著手,探索專案的具體流程。
6.1 專案前期準備
(1)需求調研
場景及痛點:現在大多數美顏相機拍照後,都只有新增各種濾鏡、加幾個字、變白一點,早已經不能滿足廣大女性群體對於美顏的需求;加上如今年輕女性和男性的審美標準和獵奇心理都在發生改變,社交方式的趣味性也變得不同,比如原來大家可能在空間、朋友圈、直播上看到美女帥哥都會覺得很吸睛,點贊粉絲直奔而來,但隨著快手和抖音的出現,可以發現不僅僅是俊男靚女的照片和影片能引起圍觀,同樣的各種普通群眾的搞怪合成影片或合成照片(虛擬的AR特效帶來的各種浮誇造型)同樣能吸引無數粉絲的追捧,讓普通人也能享受被人膜拜的滿足感,而這些都需要用到人臉識別的相關技術。
(2)目標使用者畫像分析
- 瞭解目標使用者的主流群體:學生(大學生、高中生、初中生)群體對月美顏美妝的心理需求、時尚人士的美妝需求、長相普通的人和長相突出的人對於美顏的心理需求等。
- 瞭解使用者的年齡組成、地域分佈對應美妝的特點。
- 不同收入群體(白領、金領、藍領等)的美顏美妝需求關注點。
(3)市場分析
美顏美妝的市場規模,產業鏈,潛在的邊際效應利益等。
6.2 文件準備
(1)需求文件
詳細的分析目前的使用者需求,針對不同群體,設計不同的產品解決方案,包括市場的需求文件。
(2)資料文件
前期的人臉圖片收集、分發、標註總結文件(確定什麼樣的圖片能要,什麼樣的不能要),各種臉型(長的、寬的、圓的、前額凸出的、眼睛深陷的等等)的分類,多少人完成眼睛美顏圖片的分類等。
(3)產品文件
- 場景落地文件:如聽歌時頭上戴虛擬耳機,嘆氣時嘴上叼煙,說話時唾沫星子等針對不同的人臉姿態場景研究可能的落地產品形式。
- 產品的設計文件:如美顏APP的頁面互動設計、導航設計、視覺呈現設計等;直播APP中的彈幕呈現設計、點贊分享按鈕設計等。
- 產品開發流程文件:如PM先提交需求、可行性分析、立項、設計流程、開發流程,演算法搭建、模型訓練、測試訓練等一系列流程的步驟及跟進。
- 模型訓練及測試文件:資料標註好後,餵給演算法,搭建人臉識別美顏的模型框架,如前期用成千上萬的照片訓練機器的人臉關鍵點定位,讓機器找準鼻子、眼睛、耳朵、嘴等位置等。
6.3 資料標註
(1)資料圖片的採集
在文件的指引下,從公開網站上爬取收集符合模型訓練的人臉圖片、或是運用公司的資料圖片等
(2)資料圖片的標註
在標註規範文件的指引下,將圖片分發給標註團隊進行資料的標註,對一些模稜兩可的圖片,如圖片中的人臉較模糊,此時該照片是要還是不要,期間應與演算法同事保持溝通,有時暗的圖片在演算法的最佳化中能準確識別,這樣增加實際情況的容錯率(實際中較暗的人臉影像也能定位出關鍵部位),那麼這張圖片則視為有效資料;有時較暗的圖片經過演算法之後並不能達到要求(及無法定位出人臉關鍵點),此時這照片則視為無效資料,直接剔除;但是標註團隊並不知道這張圖片是有效還是無效,所以標註過程中,演算法同事也需間接參與進來。
(3)資料的反饋
在部分圖片標註過程後,交於演算法同事訓練模型調節引數,期間將測試後的資料(精確率和召回率的計算,來反映資料的標註結果)反饋給還在標註的人員,有時可能造成過擬合有時可能造成欠擬合等方便對資料進行重新操作。
6.4 專案流程跟蹤
(1)產品立項後,每天的任務管理,流程進度跟蹤,產出時間管理,開會反饋工作成果等。
(2)軟硬體端:在開發流程文件的指引下,按照常規的軟硬體跟蹤開發。
(3)演算法流程:人臉採集、人臉檢測、影像的預處理(模糊的則用演算法去模糊等)、人臉特徵提取、影像的匹配識別、AR虛擬等。
6.5 專案測試
- 手機攝像頭測試
- 平臺後臺程式測序
- 演算法與平臺後臺測試
- 模型識別時間、準確率、召回率測試
- 伺服器穩定性測試
- 網路頻寬限制測試
- 其他平臺、硬體產品常規測試
- 目標使用者使用測試
6.6 專案最佳化
經過各種測試之後,針對反饋回來的資料進行產品的最佳化。
如一張嘴就給你來根菸,結果煙插到鼻子上了,這就明顯是沒有定位到人臉關鍵點,是資料的原因還是演算法的原因,這些都要經過最佳化處理;經過種子使用者測試後,反饋得知這個點贊按鈕操作起來有點彆扭,應該怎樣怎樣,這時可能要與設計的同學討論一下,該怎樣最佳化產品的設計和體驗。
6.7 專案驗收上線
產品按照流程功能進行驗收後上線。
06 FR的個人看法
1. 人臉識別的現狀
1.1 實驗室效果和現實效果對比,差距巨大
現如今的人臉識別技術在金融、安防等領域的應用實際上的效果要比實驗室裡的差很多,前陣子西安的某高校引入人臉識別晨讀打卡,由於反應速度太慢,到中午還排著很長的隊。可見實際生活中,由於各種物理因素(光照、角度、對焦、人魚攝像頭的距離等)導致抓拍的圖片質量比較差,又經過網路傳輸到區域網/網際網路進行對比(網路差的過程中,反應很慢),使得實際效果大打折扣。大多數情況下,實際抓拍影像質量遠低於訓練影像質量。
1.2 訓練時的標準和實際應用的標準
大多數情況下,實際應用的標準會遠高於訓練標準。例如,人臉識別實驗室的標準是透過正臉資料訓練出模型,能識別正確人臉就可以。而實際情況可能沒有正臉資料,對訓練提出了更高的要求。
1.3 訓練效果和現實效果
大多數情況下,實際效果會遠低於訓練效果。現在市面上CV公司都是說自己的訓練效果在99%以上(無限接近於100%),但這不等於實際應用的效果就是99%。工業上場景複雜的人臉應用(類似識別黑名單這種1:N的人臉比對)正確率在90%以上就已經是表現得很好的演算法模型。
2. 未來發展趨勢的思考
隨著人工智慧的火熱和發展,在全球資訊化、雲端計算、大資料的背景下,生物識別技術的應用面會越來越大,由以人臉識別為其中代表。以下幾個發展趨勢呈現:
- 網路化趨勢:人臉識別解決了日常生活中一個基本的身份識別問題,今後,這總身份認證的結果會越來越多的和各行各業應用結合起來,並透過網際網路和物聯網得以資訊共享,簡單來說就是“身份識別+物聯網”的發展趨勢未來將十分普遍。
- 多生物識別模式融合趨勢:人臉識別技術現如今的還達不到人類的預期體驗,對於一些安全性要求高的特殊行業應用,如金融行業,人臉識別很容易被不法分子攻破漏洞進行身份造假,因此需要多種生物特徵識別技術的融合應用(如活體檢測、虹膜識別等)以進一步提高身份識別的整體安全性。
- 雲技術:未來的雲技術也將大大給人臉識別的應用提供資料和計算力支援,基於雲技術的門禁控制可以同時管理成百上千的通道,加上物聯網的普及,使用者對任何地方的門禁進行遠端控制和管理,準確識別本人,將廣泛應用到企業、學校、培訓機構、大型商業場合、辦公大樓的門禁解決方案。
3. 盈利模式的思考
(1)單一盈利模式
現如今的人臉識別技術服務商,都以將技術接入第三方應用軟體,或是搭載在智慧終端上,透過收取一定技術服務費來獲取盈利。目前國內的第一梯隊創業公司都在技術和資料上沉澱,而是否盈利,盈利多少都還尚不明確。
如在金融領域,人臉識別用於身份確認,然而身份確認之後,就沒你什麼事,你跟使用者的關係只在於,開啟某款APP或某個終端場景(閘機)的鑰匙,開啟之後,使用者的所有行為都沉浸在APP中,並沒有給FR技術服務商帶來其他的使用資料及使用者行為資訊;從根本上來看,使用者只是用鑰匙開了門,而往往是門裡面的東西(使用者資料)才能帶來商業價值。
(2)對比網際網路和移動網際網路
- 網際網路時代早期有很多功能性的產品。如早年間的QQ只有聊天的功能;360使用者只是用它來給電腦殺防毒;百度就是個即問即答的老師;搜狐、新浪也就是用來看看新聞而已。
- 移動網際網路時代也有很多這樣的產品。滴滴幫使用者叫個車;高德也就差不多是古代的指南針。
- 案例分析:眾所周知,上面舉的例子不是網際網路時代的高市值企業,就是移動網際網路時代高融資率的企業。
- QQ後來使用者數越來越多,QQ號成網路身份的一個必不可少的身份屬性之一,使用者大量的資料沉澱在其中,透過使用者的使用行為資訊,小馬哥知道了這麼多人都用我的QQ,那趕緊搞個什麼娛樂活動,讓有QQ號的人都來玩,於是就有了龐大的遊戲帝國產業,遊戲裡面又加上各種鑽(什麼粉鑽、綠鑽、紫鑽、黑鑽)對應的各種會員機制,QQ號又以其他的方式來獲取使用者的行為資訊如,QQ音樂(下歌要錢、換皮膚要錢)、騰訊影片(各種廣告收入、會員充錢等)、QQ郵箱(會員高階功能)等,讓人們越加沉浸在QQ帝國的生態圈中,莫名其妙的就被吸走了很多錢。可能你會說我還可以用其他的呀,但是好煩啊,這個也要註冊,那個也要註冊,明明一個QQ號可以玩轉所有,沒辦法我就是這麼懶,所以說懶人創造了這個世界的絕大多數科技產品。
- 滴滴現如今估值幾百億美刀,投資人為何給一個只幫你叫車的公司如此高的估值,我們知道滴滴叫車比一般的直接叫車要便宜一點點(專車除外),那它的盈利點從而來,投資人有看中了它的哪一點。其實不難理解,滴滴之所以有如今的估值,正因為其幾乎壟斷了國內的叫車市場,大量的使用者使用它,必然就會有使用者的使用資料,而這些資料便是變現的好東西,一旦整個生態搭建完畢,未來滴滴就將這些資料用無人駕駛方面,一旦搶佔了市場的制高點,未來在行業鏈上就有絕對的議價能力。比如現在人們已經習慣了去一個陌生地方,就來一個滴滴叫車,若滴滴突然漲價,一公里漲幾毛或一元,你用它還是不用;心理學表明,人養成一個習慣之後,就會有慣性,對於沒有超出心理承受預期的東西(不是漲價漲得特別離譜),人們會一直保持這個習慣中的一些行為,而不願做出改變(也就是常說的人有一種惰性)。因此我想大多數人都會去接受,因為可能你花時間自己叫車也是需要很多成本的;使用者基數比較大,那這個漲了幾毛的就會帶來不少的盈利空間(中國十幾億人口,一人給我一毛錢,我都能成為億萬富翁了,但對別人而言,一毛錢可能連袋辣條都買不到),這還只是一方面。
d. 人臉識別作為一種技術,並沒有實際的產品承載點。以上分析中的種種產品,你都能叫出來名字,是因為這些功能或是技術都有一個實際的產品承載點,比如QQ用了即時通訊技術,頭條背後的智慧推薦用了機器學習相關技術,但在我們心目中它不是以一種技術停留在我們的心智空間裡,它是一款實實在在的產品,我們可以操作它,使用它。無論是QQ還是滴滴、高德、今熱頭條、新浪等等,這些產品我們都能實實在在的接觸到,並且後續行為都在這個技術的承載點裡(如即時通訊技術的產品承載點是QQ,機器學習技術的產品承載點是頭條),那麼使用者的資料自然也就在產品承載點之中,這樣我們才能應用資料來創造價值,從而實現盈利。
e. 人臉識別目前的階段停留在大眾視野裡只是一種技術,人們的潛意識裡並沒有建立起一個概念,那就是這個人臉識別到底是個什麼東西,我能操作它嗎?它能給我帶來什麼呢?而一旦人臉識別有一個產品承載點,讓使用者能實實在在的進行操作,並有資料積累,才會有盈利的可能。而人臉識別的產品承載點是什麼,目前還都沒有出現,未來肯定會有,這也是未來的一大機會,無論是什麼,這個產品必然都能被使用者實實在在的接觸到,並且後續也都將在其中產生行為,後者是必要條件。
4. 資訊保安的思考
一旦前面提到的產品承載點出現,FR技術必將大行其道,隨之而來的可能是資訊保安問題。
物聯網時代之下,萬物互聯,萬物智慧,FR技術也必將融入到物聯網之中,人們可能都不需要身份類的實物證件。回家開門掃臉,外出開車門掃臉,進公司掃臉,出去吃飯付錢掃臉。當人臉成為你的虛擬證件時,一旦又不法公司、團體、個人洩露或是破解了你的人臉虛擬證件,那麼你的一切資訊可能都暴露在他人面前,財產、房子、車子可能都有風險,還有可能因為丟失人臉證件,將無法證明你自己的身份,就像你丟了身份證一樣。可想而知資訊保安的重要性,未來估計會誕生一個虛擬身份資訊系統,裡面有每一個人的身份資訊,當第三方需要身份認證時,可接入系統等。前陣子臉書因為社交資訊洩露而惹上眾怒引起公關麻煩。我想未來如果有一個公司專門負責使用者資訊資料的監管,我也不會覺得很奇怪的。
5. 產品形式的思考
- 可接觸性:無論FR技術最終是以硬體還是軟體方式出現在使用者面前,前提是使用者能夠實際的接觸到,而不是彷彿在雲端不可觸控,只有使用者接觸了,才能在心裡產生出它是一款產品,而不是一項技術的概念。如AR美顏就是實實在在可操作的產品。
- 連續使用性(高頻性):產品必須是使用者能連續使用的,也就是所謂的高頻性,只有這樣才能產生可利用的資訊資料來變現。
- 功能承載性:產品要能以一種功能的方式為使用者解決生活中的某一類問題。人臉除了身份認證(金融行業、安防門禁)、視覺欣賞(美顏美妝、整容)、社交評判依據(婚戀網站)還能用來幹什麼呢?
- To C or To B:結合網際網路時代的發展,我個人始終認為一款產品只有圍繞使用者提供服務,才有可能成就明星產品。從歷史的角度來看,每一個王朝的興衰更替都是以老百姓的意願為轉移,有道是“水能載舟亦能覆舟”。產品亦是如此,產品概念誕生到現在,每一款產品的興衰也都是建立在使用者的基礎之上。任何一款產品拋開使用者之後都只能死亡,儘管目前FR大層面上應用在B端,但是未來成功的FR應用產品必然是誕生在C端。
下面附上總結這篇系列文章的思路導圖:
大圖地址:
https://upload-images.jianshu.io/upload_images/8484039-397ceeedb8b3d438.png