西湖大學李子青:人臉識別的挑戰問題和解決技術

AIBigbull2050發表於2019-10-25
  2019-10-24 20:54:56
西湖大學李子青:人臉識別的挑戰問題和解決技術

作者 | 叢末編輯 | 唐裡

10 月 17 日至 19 日,由 CCF 主辦、蘇州工業園區管委會、蘇州大學承辦的 CNCC 2019 在蘇州成功舉辦。

在《CNCC爆款技術論壇,申省梅、陳熙霖主持,西湖李子青、阿里王剛多視角講解CV賦能智慧城市》一文中,AI 科技評論提到,「 計算機視覺技術賦能智慧城市」技術論壇儘管在大會第三天舉辦,仍然人滿為患,成為今年 CNCC 的爆款技術論壇之一。該技術論壇由澎思科技首席科學家、新加坡研究院院長申省梅擔任 主席,中科院計算所研究員、IEEE Fellow、IAPR Fellow、CCF會士陳熙霖擔任共同 主席

西湖大學講席教授、IEEE Fellow 李子青作為該技術論壇的開場演講嘉賓,帶來了主題為《 人臉識別挑戰問題和解決技術》的演講,他主要從人臉識別當前所存在的大數量類別的模式識別問題、人臉防偽問題以及複雜光照問題三個未來需要重點 關注的挑戰出發,闡述了應對這三個問題的解決方案。

西湖大學李子青:人臉識別的挑戰問題和解決技術

李子青(Stan Z.  Li),IEEE Fellow,曾任微軟亞洲研究院Research Lead,中科院自動化所模式識別國家重點實驗室資深研究員。2019年加盟西湖大學工學院,開展人工智慧創新研究,研究方向包括:機器學習/深度學習、資料科學、AI+交叉學科(如生物醫學、材料科學、環境科學、感測器技術,等)。

以下為李子青演講全文,AI 科技評論進行了不改變原意的編輯。

李子青:

計算機視覺是人工智慧技術中應用最成功的一個方向,其中人臉識別和視覺分析在落地上又是最成功的,它們被應用到了生活中的方方面面。

我首次參加的人臉識別 會議是 1997 年的第二屆 FG(IEEE International Conference on Automatic Face  and Gesture Recognition),這個 會議由 Thomas Huang(黃煦濤)發起,一直存在至今。當時我在新加坡,一開始是我的學生把我帶上了人臉識別的研究之路,而現在我的學生不做了,而我一做,就是 20 多年。

最初,我們用的方法基本是傳統的方法。昨天在 CNCC 的晚宴上,有一個畢業生說起 LBP,而 LBP 這篇文章就是由我審的,並由 我大力推薦到了 CVPR。這種方法在傳統的人臉識別中是經典的方法。

另外我也審到過一篇關於人臉檢測的文章,覺得非常好,就在微軟將該方法用起來建立了世界上第一個實時的人臉識別系統,而在此之前,做實時的人臉檢測非常困難。但該系統裡面用到的演算法其實也是非常原始的。

自此以後,一直到 2010 年,我們都在一直這種影像技術用到人臉識別應用上。而在  2013年、214 年以後,隨著人工智慧技術受產業驅動,人臉識別技術也取得了突飛猛進的發展。

當年的技術跟現在不可同日而語,現在可見光、彩色等型別的人臉識別都已經做得非常好了,當然現在該領域還依舊還存在很多問題,這也是我今天要分享的主題。本次分享,我可能無法將所有的挑戰和問題都涵蓋到,而主要講三個無論從演算法層面還是應用層面都需要進一步解決的挑戰問題:

第一,多數量類別的模式識別問題。人臉識別、辨別現在的應用可能達到成百萬、千萬級別了,涉及到對這麼多數量的類別的模式識別,必然存在一些問題。例如中國一個省或者一箇中等城市,人口就幾百萬甚至幾千萬,其中就涉及到多數量的類別的模式識別問題,那這該如何解決呢?

第二,人臉防偽問題。現在在人臉識別如刷臉支付等場景中常面臨照片攻擊問題,包括支付寶等應用當年也曾被破解過,因而他們也對此做了很多的努力。

第三,複雜光照問題。我當年一直在嘗試解決光照問題,但是由於當年的演算法水平比較低,使用 PCA、LDA 此類線性方法基本上無法解決,後來我嘗試使用前端光電硬體+演算法軟體一體化的方法,比較好地實現了人機之間的相互配合(比如刷臉認證等)或半配合(比如實現一個通道、一個閘機的半配合),以此來解決光照問題。

那如何解決呢?

西湖大學李子青:人臉識別的挑戰問題和解決技術

1、多數量類別的模式識別問題

在模式識別的類別數量非常多的情況下,我們過去常用的解決方法是歐式空間,該方法就好比一個魔方,假如你在魔方上密密麻麻地排列幾萬甚至幾十萬個類的話,基本上無法對這些類別進行劃分。而從資料分析的角度來看,高維空間的資料分佈跟這種魔方式的方法是不一樣的。在歐式空間上,類別是一個均勻的隨機分佈,大部分的資料都在魔方的角上,也就是說不同類別的資料之間是正交的關係。雖然從角度來看是正交的,然而不同類別之間的相對距離趨於零,所以歐式空間方法基本上不能解決這個問題。

西湖大學李子青:人臉識別的挑戰問題和解決技術

Angular Similarity

在深度學習以前,我們也研究了這類降維方法,不過現在用的方法則是  Angular Similarity,我們可以將該方法視作在一個球面上做分佈,它本身就是角度可分而距離不可分的。比如現在有幾十萬個類,我們將這些類都分割在球面上的一小塊上,主要按角度來做劃分。

2016 年、2017 年,尤其是 2018 年和今年,這種按角度進行分類的人臉識別研究比較多,例如今年 CVPR 大概就有六七篇論文就是這個方向的。該方法主要有三個特點:

第一個特點是 Angle Loss,即在訓練神經網路的時候,採用按角度劃分類的方法,即將各類劃分為空間中的一個一個錐狀體。

第二個特點是 Margin,即各類在訓練時,並不是進行一個簡單的訓練,而是留有一定的餘量,比如將很多類放到球面上,兩個類之間的分介面是需要留有餘量的,這樣在測試階段(非訓練階段)才能將類分得更好。

第三個特點是 Imbalanced Data,比如說在下圖中,一個人最多有幾千張圖,最少的只有三、五張圖,並且大部分的類別數量都非常少,針對這樣的問題,我的學生曾提出一個方法——AdaM-Softmax,即邊際隨著每類的樣本數量進行自適應變化,相關的論文《AdaptiveFace: Adaptive Margin  and Sampling for Face Recognition》也在今年的 CVPR 上發表。

西湖大學李子青:人臉識別的挑戰問題和解決技術

在如下這幾種方法的對比中,他們的效能都差不多,可能只有稍微的一點差異,Softmax 方法中的第一類和第二類之間就是一根直線;SphereFace 按角度來分類;CosFace 是球面的,並且各類之間有一個區域餘量;ArcFace 也留有區域餘量,並且由於開源,現在很多公司和院校都在使用這種方法,我認為該方法的應用效能也是最強的。

西湖大學李子青:人臉識別的挑戰問題和解決技術

與其他留有區域餘量的方法不同的是,AdaM-Softmax 中每類都有不同的邊界值,而非固定值,因此在處理資料不平衡情況時,表現更好。

西湖大學李子青:人臉識別的挑戰問題和解決技術 西湖大學李子青:人臉識別的挑戰問題和解決技術

在上圖中,每個類別分別有 20、40、60、80 以及 100 個,我們可以看出,每類的樣本數量越多,它的邊際值就越小,我認為這個總的趨勢是合理的,並且實際上達到了預期的效果。

西湖大學李子青:人臉識別的挑戰問題和解決技術

2、人臉防偽問題:深度學習方法

人臉防偽的需求主要存在於身份認證等場景,舉兩個典型的例子,第一個案例:34 年前有一箇中國福建籍的男子化妝成一位老人通過了加拿大的海關,但是之後大家發現他臉上皺紋巴巴的,而手卻細皮嫩肉,這樣就對他產生了懷疑。第二個案例:今年 6 月份的時候,這個人被曝出身份造假,並且與美國 政府高官勾搭上了,最後被查出來這張臉是生成的。但是我們用肉眼來看,她的臉非常逼真。

西湖大學李子青:人臉識別的挑戰問題和解決技術

此頭像人臉為機器生成。圖片來自:ciobulletin .com

人臉防偽主要有列印、視訊重放以及人臉面具三個類別,防偽的方法則是對不同型別提取不同的特徵,而傳統方法主要對紋理、三維形狀等提取特徵從而區分真人和假體,其中矽膠是最難以辨別出來的類別。這是因為本質上,我們需要判別的是「人臉」的皮膚是肉體還是假體,然而矽膠材質與人臉的皮膚很相近,因此在一般情況下很難區分出來。

而現在基本上採用深度學習的方法,比如 2014 年我們曾提出一個簡單粗暴的方法——正樣本和負樣本,將深度學習引入到了人臉防偽中。還有一種方法是利用人臉是否能眨眼、搖頭等三維結構來判斷時平面還是立體,我們在 2011 年就使用了這樣的方法,並且我們做的第一個多光譜(近紅外和可見光)的防偽方案,目前也是國內最普遍採用的方案。

下圖是我們在 CVPR 的人臉防偽競賽上提出的方案,將 RGB 、近紅外和深度影像的資訊進行了融合:

西湖大學李子青:人臉識別的挑戰問題和解決技術

相關論文連結: http://openaccess.thecvf .com/content_CVPRW_2019/papers/CFS/Liu_Multi-Modal_Face_Anti-Spoofing_Attack_Detection_Challenge_at_CVPR2019_CVPRW_2019_paper.pdf

另外我正在一個 會議上也看到了一個非常有意思的工作,是一位 MIT 的碩士提出來的,他指出,用可見光對著人臉拍攝,會檢測到人臉皮下的毛細血管按照心率節奏在跳動。我當時立馬想到這個思想可以用到到人臉防偽上,但是我嘗試後發現是不可行的——就算你對著一張白紙拍攝,也能檢測到心率節奏的跳動,這是因為該方法採用的是傅立葉變換,肯定是存在週期性的,除非用的純白光,如果在室內燈光下,可能會有一些微小的東西將幅度最大的頻率提取出來,所以我認為是不行的。不過現在確實也有一些相關的論文,我估計他做實驗結果並不怎麼好,只不過確實發表了。

西湖大學李子青:人臉識別的挑戰問題和解決技術

3、複雜光照問題:異質人臉識別和提取共同特徵

在複雜光照問題上,目前計算機視覺領域的獨角獸公司做的演算法很強,然而無法在工地、高鐵站等場景中得到很好的應用。我認為還是應該利用主動光照來解決這個問題,這是因為環境的關照如果是不受控的光源,採集的影像就已經被破壞得很嚴重了,在這種情況下,還需要從光電硬體上去解決這個問題。

我們曾用一個單目攝像頭採集了可見光、近紅外和深度的影像,其中如果要用近紅外方案,就需要處理異質影像人臉識別,思想是在人臉識別中引入影像拼接、手繪這些元素。在我們早年做近紅外人臉識別的時候,這種方式能夠比較好地解決光照問題。

例如深圳羅湖海關就使用了這種方法的產品。當時相關單位給我提出了一個問題:產品雖然用得不錯,但是存在限制,就是必須要使用近紅外人臉識別方法去識別人臉的影像進行註冊,那如果只有身份證呢,該怎麼解決這個問題?於是我就想到了異質人臉識別的方法,包括靜態影像、視訊、可見光影像和熱影像等,基本思路就是將近紅外的影像轉化為可見光的影像,之後用可見光的匹配技術來做。

另一種思路則是,找到兩種不同的影像的共同特徵,傳統方法有 PCA,即將一種影像建立成 PCA 的基,再用另外一種影像投印到上面來重現影像。對此,我們的團隊也提出了一種叫做 CCA 的方法,即對可見光影像和近紅外影像提取出共同特徵,然後在 CCA 空間上處理這些特徵,以此來克服光照問題,不過由於 CCA 容易過擬合,效果可能沒有那麼好。

注:參見 Dong YiRong LiuRuFeng ChuZhen LeiStan Z. Li, "Face Matching Between Near Infrared and Visible Light Images" ICB-2007

除此之外,提取不同影像特徵的方法還有:對兩類影像的各個區域性特徵進行處理、濾波,從而提取出一些共同特徵;用傳統的方法提取特徵後,再用網路進行不同影像的特徵變化,這種方法很容易實現端到端;提取出可見光、近紅外的影像的了 ID space,再用分佈的均值來替代每一個 ID 和每一個光照,並最終表示成 ID Identity Space,與此同時這兩個 Space 之間還可以用點來表示,將一種影像的分佈變換為另一種影像的分佈。



https://www.toutiao.com/i6751352277887353356/



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2661447/,如需轉載,請註明出處,否則將追究法律責任。

相關文章