「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

dicksonjyl560101發表於2019-10-30


  2019-10-26 19:29:03
「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

本文由西湖大學李子青教授完整修訂

作者 | 李子青

整理 | 叢末編輯 | 唐裡

10 月 17 日至 19 日,由 CCF 主辦、蘇州工業園區管委會、蘇州大學承辦的 CNCC 2019 在蘇州成功舉辦。

在《CNCC爆款技術論壇,申省梅、陳熙霖主持,西湖李子青、阿里王剛多視角講解CV賦能智慧城市》一文中,AI 科技評論提到,「 計算機視覺技術賦能智慧城市」技術論壇儘管在大會第三天舉辦,仍然人滿為患,成為今年 CNCC 的爆款技術論壇之一。該技術論壇由澎思科技首席科學家、新加坡研究院院長申省梅擔任主席,中科院計算所研究員、IEEE Fellow、IAPR Fellow、CCF會士陳熙霖擔任共同主席。

西湖大學講席教授、IEEE Fellow 李子青作為該技術論壇的開場演講嘉賓,帶來了主題為《 人臉識別挑戰問題和解決技術》的演講,他主要從人臉識別當前所存在的大數量類別的模式識別問題、人臉防偽問題以及複雜光照問題三個未來需要重點 關注的挑戰出發,闡述了應對這三個問題的解決方案。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

李子青(Stan Z. Li),IEEE Fellow,曾任微軟亞洲研究院Research Lead,中科院自動化所模式識別國家重點實驗室資深研究員。2019年加盟西湖大學工學院,開展人工智慧創新研究,研究方向包括:機器學習/深度學習、資料科學、AI+交叉學科(如計算機視覺、生物醫學、材料科學、環境科學、感測器技術等)。

以下為李子青演講全文,AI 科技評論進行了不改變原意的編輯,李子青教授進行整體修改和確認。

李子青:

計算機視覺是人工智慧技術中應用最成功的一個方向,其中人臉識別和影片分析在落地上又是最成功的。

我首次參加的人臉識別會議是  1997 年的第二屆 FG(IEEE International Conference on Automatic Face and Gesture Recognition),這個會議由 Thomas Huang(黃煦濤)發起,一直存在至今。當時我在新加坡南洋理工,是我的學生把我帶上了人臉識別的研究之路,而現在我的學生不做了,而我一做,就是 20 多年。

過去人臉識別採用非深度學習的傳統方法。昨天在 CNCC 的晚宴上,有一個來自 Oulu 大學的博士畢業生說起 LBP,當時我審了這篇投稿,並大力推薦到了 CVPR。另外我也審到那個著名的 AdaBoost 人臉檢測的投稿並做了推薦,它是第一個能把人臉檢測在 PC 上做到實時的演算法。我覺得這種方法非常好,並基於這個演算法在 MSRA 開發了世界上第一個實時的人臉識別系統。那個系統採用的是傳統的人臉識別演算法。

2013、2014 年開始,深度學習開始在人臉識別得到應用,受人工智慧技術的產業驅動,人臉識別技術也取得了突飛猛進的發展。現在的人臉識別技術指標比當年提高了好幾個數量級,在中國已經廣泛應用。雖然如此,現在人臉識別仍然存在一些技術挑戰問題,這也是我今天要分享的主題。

本次分享,我可能無法將所有的挑戰和問題都涵蓋到,而主要講三個無論從演算法層面還是應用層面都需要進一步解決的挑戰問題:

第一,巨量類別的模式識別問題。人臉識別、辨別現在的應用可能達到成百萬、千萬級別了,涉及到對這麼多數量的類別的模式識別,必然存在一些問題。例如中國一個省或者一箇中等城市,人口就幾百萬甚至幾千萬,其中就涉及到多數量的類別的模式識別問題,那這該如何解決呢?

第二,人臉防偽問題。現在在人臉識別如刷臉支付等場景中常面臨照片攻擊問題,包括支付寶等應用當年也曾被破解過,因而他們也對此做了很多的努力。

第三,複雜光照問題。2005 年前後我一直在尋求光照問題解決方案,這是由於當年基於可見光影像的識別演算法水平比較低,基本上無法達到應用要求。我嘗試使用前端近紅外成像光電硬體+演算法軟體一體化的方法,比較好地實現了配合和半配合(比如刷臉認證、閘機通道的身份識別)條件下的人臉識別技術要求並實現了產品化。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

1、多數量類別的模式識別問題

常用的歐式距離分類,可以用一個魔方的小方格塊來描述,把每個人臉特徵裝進魔方中的一個小塊中,這樣的分佈下,歐式距離基本上無法對這些類別進行有效的分類,更不用說密密麻麻地排列幾萬甚至幾 十萬個類別。而從資料分析的角度來看,高維空間的資料分佈跟這種魔方中小方塊的分佈是不一樣的。在高維空間的均勻隨機分佈,大部分資料樣本都在魔方的角上,也就是說不同類別的資料之間是正交的關係,並且可以證明隨機樣本間相對歐式距離趨於零。所以在高維空間,在類別數量非常多的情況下,如果採用歐式距離度量方法,識別效能必然得不到保障。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

在高維空間採用樣本間的夾角作為距離度量能夠取得比較好的結果,所以現在用的方法大都基於  Angular Similarity

我們把樣本對映到一個高維球面的分佈,不同類的樣本是角度可分而距離不可分的。幾 十萬個類,每個都在在球面上佔據一小塊,利用夾角進行分類。在深度學習以前就已經有研究者研究和應用 Angular Similarity,而在 2016 年、2017 年,尤其是 2018 年和今年,這種按角度進行分類的人臉識別研究論文發表比較多,例如今年 CVPR 2019 大概就有 六七篇論文就是研究這個問題的。

該方法主要有三個特點:

第一個特點是 Angular Loss,即在訓練神經網路的時候,採用按角度劃分類的方法。

第二個特點是在夾角損失函式中引入了 Margin,即相鄰兩類的分介面並不是一個簡單的夾角分介面,而是兩個夾角分介面,其間留有一定的裕量,這樣在測試或使用階段才能更好地分類。

第三個特點是 Imbalanced Data,比如說在下圖中,一個人最多有幾千張圖,最少的只有三、五張圖,並且大部分的類別數量都非常少,針對這樣的長尾分佈問題,我的學生提出了一個方法——AdaM-Softmax,即邊際隨著每類的樣本數量進行自適應變化,相關的論文《AdaptiveFace: Adaptive Margin and Sampling for Face Recognition》也在今年 CVPR2019 上發表。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

下面這個圖比較幾種方法的 Angular Loss 方案:Softmax 方法 中的第一類和第二類之間就是一根直線;SphereFace 按角度來分類;CosFace 是球面的,並且各類之間有一個cosine 裕量;ArcFace 則留有夾角裕量,該方法的應用效果在論文上看似乎是最好的,比前面幾個好一丁點。ArcFace 開源了程式碼,現在很多公司和院校都在使用。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

AdaM-Softmax 與前述引入 Margin 裕量方式不同,AdaM-Softmax 中每類都有不同的邊界值,而非採用固定值。實現的方法是引入了一個 Margin 相關的 Loss,乘以權重 Symbol 後加入到總體 Loss。這樣訓練出來的網路,在處理資料不平衡條件下,表現更好。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

在上圖(右側)中,縱軸表示類別分別有 20、40、60、80 以及 100 個樣本,橫軸表示相應的 Margin。我們可以看出,每類的樣本數量越 多,它的邊際值就越小,我認為這個趨勢是合理的,實際上達到了預期的效果。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

2、人臉防偽問題:深度學習方法

人臉防偽的需求主要存在於身份認證等場景,舉兩個實際發生的例子,第一個案例:幾年前有一名中國福建籍的男子化妝成一位老人透過了加拿大的海關,但是之後有人發現他臉上皺紋巴巴的,而手卻細皮嫩的,後來被查出。第二個案例:今年 6 月份的時候,下圖右側這個人被曝出身份造假,並且與美國 政府高官勾搭上了,最後被查出來這張臉是生成的。但是我們用肉眼來看,她的臉非常逼真。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

與機器人臉識別相關的採用偽造人臉攻擊成功的案例當屬當年支付寶被人用照片列印和手機螢幕顯示攻擊破解,其後支付寶做了很多技術防範措施,現在攻擊比較難了,但目前仍然未能達到預期的技術防範強度。

人臉防偽主要有列印、螢幕顯示/影片重放以及人臉面具三個類別,防偽的方法則是對不同型別提取不同的特徵。而傳統方法主要對紋理、三維形狀等提取特徵從而區分 真人和假體,其中矽膠是最難 以辨別出來的類別。這是因為本質上,我們需要判別的是「人臉」的皮膚是肉體還是假體,然而矽膠材質從成像上來看與人臉的皮膚很相近,因此在一般情況下很難區分出來。

現在基本上採用深度學習演算法模型解決人臉防偽。2014 年,我們將深度學習引入到了人臉防偽中,採用一個簡單粗暴的方法——採用正樣本 和負樣本訓練真假人臉分類器。還有一種方法是利用人機應答的方式,看看「人臉」是否能做眨眼、搖頭等動作。此外還有利用三維結構來判斷人臉影像是平面還是立體。我們在 2011 年提出了多光譜(可見光、近紅外)成像和鑑別的防偽方案,這也是當前最普遍採用的方案。

下圖是我們在 CVPR 2019 的人臉防偽競賽上給出的一個 Baseline 方案,將 RGB 、NIR和3D深度影像資訊進行了融合:

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

CVPR 2019 人臉防偽競賽相關內容可參考: .com/content_CVPRW_2019/html/CFS/Liu_Multi-Modal_Face_Anti-Spoofing_Attack_Detection_Challenge_at_CVPR2019_CVPRW_2019_paper.html

另外,多年前我在一個會議上也看到了一個非常有意思的工作,這項工作用到了一位 MIT 的碩士提出來的方法:用可見光對著人臉拍攝,會檢測到人臉皮下的毛細血管按照心率節奏在跳動。

我當時就想到這個方法可以用到人臉防偽上,但是我嘗試後發現實際是不可行的——就算你對著一張白紙拍攝,也能檢測到心率節奏的跳動,這是因為該方法採用的是傅立葉變換,總能檢測到週期性的,比如燈光下的 50Hz,總會有一些微小的東西將幅度最大的頻率分量提取出來。後來看到有一些相關的論文發表,我估計實驗結果應該離實用還有段距離,但我覺得這個思路不錯,如果要把它做成實用,只從演算法上解決是不夠的,必須在前端光電硬體上有所創新,才能解決其中的關鍵問題。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

3、複雜光照問題:異質人臉識別和提取共同特徵

現在的人臉識別演算法在受控良好光線環境中的識別效果已經很好了,但在工地、地鐵入口等光線不受控的場景中仍然無法正常使用,包括計算機視覺領域的獨角獸公司提出的演算法都還無法解決這個問題,這是因為採集的影像就已經難以恢復成正常光照被正常識別了。在這種情況下,還需要從前端的光電硬體上想辦法,從影像獲取階段去解決這個挑戰問題。而採用近紅外主動光源照射成像,是一個解決方案。

採用近紅外成像的方案,就需要解決異質影像人臉識別問題。該方案能夠比較好地解決光照問題,2005年開始就在深圳羅湖海關得到實際使用了。不過,當時相關單位也給我提出了一個問題:雖然效果不錯,但是存在限制,就是必須要使用近紅外人臉影像進行註冊,那如果只有身份證照片註冊呢,該怎麼解決這個問題?為此我提出了異質人臉識別的方法。有兩個方案:

第一個思路是將近紅外的影像轉化為可見光的影像,然後用可見光人臉演算法做匹配;

另一個思路是,從近紅外和可見光兩種不同的影像中學習共同特徵。例如在2007年,我們的團隊也提出了一種採用 CCA 提取共同特徵的的方法。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

參考:Dong Yi,Rong Liu,RuFeng Chu,Zhen Lei,Stan Z. Li, "Face Matching Between Near Infrared and Visible Light Images" ICB-2007

論文地址: .com/content/pdf/10.1007%2F978-3-540-74549-5_55.pdf

除此之外,提取不同影像共同特徵的方法還有:對兩類影像的各個區域性特徵進行處理、濾波,從而提取出一些共同特徵;用傳統的方法提取特徵後,再用深度網路進行不同影像的特徵變化(如下圖)。這種方法很容易實現端到端的訓練。

「完整修訂版」西湖大學李子青:人臉識別的挑戰問題和解決技術

Dong Yi, Zhen Lei, Stan Z. Li. Shared Representation Learning for Heterogeneous Face Recognition, In FG 2015.

現在最新的方法是採用深度學習技術,透過深度網路的非線性對映,提取出可見光、近紅外影像的人臉隱空間表示,以隱變數的均值來表示每一個人臉的內在 ID ,以分佈方差表示外部影響如光照、姿態等。近紅外、可見光人臉的兩個隱空間中隱變數分佈之間的差異,可以透過機率和拓撲對映的方法來彌補,最終實現全光照條件下可靠的人臉識別。





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2661926/,如需轉載,請註明出處,否則將追究法律責任。

相關文章