“刷臉”時代到來,你不知道的那些人臉識別技術

dicksonjyl560101發表於2019-08-01

過去的2018年,是人臉識別技術全面應用的重要一年,“刷臉”時代正式到來。手機解鎖實現了從數字密碼、指紋到人臉的新鮮跳躍;多所高校入學季嘗試了人臉註冊;肯德基部分餐廳上線“刷臉”支付……今天,我們就來聊聊這個時代新寵兒——人臉識別。


先看一組資料。2010年,我國人臉識別行業市場規模是3.77億元,2011年來幾乎是直線上升狀態,到2016年達到17億元。2017年到2018年的增速都超過20%。

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

01. 強勢爆發的人臉識別未來趨勢如何?

第一,大資料與人臉識別技術會深度融合,逐步提升在不同場景下的精度效果;第二,3D人臉識別逐步替代2D,3D識別效果在誤識率、拒識率上都會低於2D,特定場景下,像姿態變化、頭髮遮擋、弱光線,3D識別精度也更高;第三,人臉識別會逐步依託嵌入式硬體,落到端上,但由於端上底庫儲存容量有限,一些資料還要傳到後端的雲端來處理,這就需要跟5G技術結合,實現低延時。

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

02. 目前,人臉識別的技術挑戰有哪些?

第一,需要大量計算,除了越來越大的資料庫,演算法更新迭代過程也需要模型再重新訓練;第二,識別精度需要突破,一些很理想狀態下,精度可達到99%以上,但有些場景下,精度還需提高;第三,實際應用中,對不同場景的適應性需要增強,以及在實際應用中如何做到毫秒級低延時響應,提升使用者體驗,包括多路視訊資料情況下,如何實現併發的高吞吐響應。

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

03. 人臉識別到底是如何實現的呢?

我們來講一個也許你不太瞭解的它——FaceNet。2015年穀歌在CVPR上釋出了一篇關於人臉識別演算法的文章,主角就是FaceNet。這種演算法的精度在LFW資料上達到99.63%,在YouTube人臉資料集上達到95.12%。它實際上是比較大的革新。因為它實現了端到端的學習,實現了CNN學習影象到人臉特徵向量的直接對映。其次,引入了triplet損失,提升了模型學習效果。

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

FaceNet在公佈論文的同時也做了開源,基於TensorFlow快速實現模型訓練,並且會提供對比、聚類、識別樣例程式碼。

04. 用FaceNet實現具體場景的解決方案,瓶頸和挑戰在哪裡?

第一,目前FaceNet工程程式碼只支援單卡訓練,並且計算核心利用率只有60%左右,整體效能不高。對於比較大的人臉底庫,需要時間會非常長。隨著資料量增大,訓練週期也會越來越長。

有個資料可以分享。40萬人臉資料,單卡的話,訓練一個batch基本上需要0.45秒,達到98.5%的精度。把40萬資料全部訓練完的話,可能有8萬個batch,那就需要十個小時。如果是億級底庫,那單卡可能需要一年時間。演算法創新需要更快的進行演算法迭代,我們需要的是天級或者分鐘級,等一年是很難忍受的。這樣的話,FaceNet工程就需要實現並行化,以實現訓練更大的資料集。

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

第二,再深入分析,我們發現這裡面採用的是CPU的平臺來做軟解碼,然後再送到GPU裡面做推理。這樣一是解碼效率比較低,二是延遲高,所以如何進一步降低延時,也是FaceNet面臨的挑戰。

05. 針對實時視訊人臉識別場景,我們對FaceNet做了哪些優化?

第一,把單卡擴充套件到多卡再到多機,實現更大規模並行訓練;第二,對GPU進行解碼,實現低延時。我們希望達到線性擴充套件,充分利用GPU大規模的平臺資源,提高它的核心利用率,降低能耗,提升技術效率。

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

敲黑板! 重點重點!!接下來,進入“提純”乾貨。

Part1 訓練——分散式訓練架構▼

基礎平臺是AI伺服器,儲存採用NVME,互聯之間、節點之間採用IB網路。我們首先對資料分批次,然後呼叫Hvd框架做整個GPU分散式環境的初始化,接著把相關的引數傳到各個GPU,做模型的梯度計算、更新權重,最後呼叫它整個框架做引數同步,生成特徵模型。總結一下,做到分散式並行主要是這三點。首先,利用Hvd實現GPU環境初始化;第二,把GPU0的全域性變數廣播到所有的GPU裡面去,然後採用多機多卡的方式實現GPU的分散式訓練;最後生成特徵模型。

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

Part2 推理——推理優化的架構應該如何設計?▼

先來看一下整個推理流程。視訊過來之後,我們採用Rtsp流或Rtmp流進行傳輸,然後解碼,解碼後生成視訊幀,會進行實時幀特徵提取,同步人臉底庫特徵提取。兩邊結束後,這兩部分特徵進行比對。我們做的主要工作集中在資料解碼和實時幀特徵抽取。

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

從效果上看,單路延時會低於50毫秒,而且會儲存其高精度。

整體總結一下優化思路,兩個部分。一是,如何針對大規模資料更快訓練,我們改進了FaceNet,實現單卡到多卡的加速,實現線性擴充套件。第二,針對實時視訊流場景,實現FaceNet端到端的推理,從原來的軟解到GPU硬解,實現低延時。

技術電臺丨“刷臉”時代到來,你不知道的那些人臉識別技術

最後,感謝今天精神食糧的貢獻者,浪潮AI首席架構師張清老師,小浪筆芯。

https://www.toutiao.com/a6719705117857153539/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2652413/,如需轉載,請註明出處,否則將追究法律責任。

相關文章