人臉識別系統不斷進步,它們將能更好地識別不同年齡階段的人,甚至是低齡兒童。
本文用一個簡單的問題來開頭:如果一個人臉識別系統處理過某個兒童的大量照片,當照片中的他/她長大之後,它能夠識別出來嗎?
假如我把我小時候的所有照片都上傳到Facebook(或是未來的某個Facebook),生物特徵識別系統能將這個塌鼻子、圓臉蛋、西瓜頭的小孩和我成年之後的臉聯絡在一起嗎,我的鼻子、臉蛋、髮型都完全變樣了。
這並不是個無聊的問題:父母們將孩子們數以百萬計的照片上傳到社交網路,當孩子長大會用Facebook及類似網站後,他們自己也會這麼做。當他們繼續成長,這些照片能否一直被識別,將他們少時的萌照與成年身份聯絡在一起?
或是說,這種自然老化過程為我們提供了某種程度的保護,避免被人臉識別演算法所窺探?如果說我都認不出我小時候的照片,計算機又能有多少希望?這個問題沒有簡單的答案,即使理論上年齡的限制不大:對於人臉識別系統,要將低於7歲小孩的照片與同一人成年後的照片匹配起來,是非常困難的。
而且,在實踐中,這一領域大多數人臉識別系統距離有能力進行此類識別都還很遠。然而,這並不能緩解如艾米·韋博(Amy Webb)等技術思想家們的憂慮,她最近告誡父母不要上傳孩子的照片,因為“普適的生物特徵識別技術(ubiquitous bio-identification)才剛剛起步。”
關鍵在於我們有多想將小孩產生的媒體檔案與他們的成年身份聯絡起來?對於現在大多數的成年人,我們小時候的照片和視訊都是不可搜尋、不可訪問的,除了手動挑選的“老照片(throwback Thursday)”。
如今成長於網際網路時代的孩子比起過去有著更大範圍、更深程度的數字腳印。危險在於這也許會限制他們成長為未來人類的自由。程式演算法在掌握某人童年情況的基礎上可以調控他們的發展可能性。
如果你小時候的照片(或YouTube視訊)能與你的成年身份連線起來,它至少會增加上傳或託管兒童照片的倫理複雜性。
讓我們談談技術細節。
這一類人臉識別工作產生於非常不同的領域:法醫學科學家,純理論電腦科學家以及人臉識別從業者。法醫學科學家試圖解決一個非常實際的問題:如果一個小孩走失了很長時間,執法部門如何生成一幅他的近照?他們想要研製一個能人工老化走失兒童面部照片的系統。我們都知道孩子的面容變了,但這不是嚴密的分析,不需要P一張五年後的小孩臉出來。人工老化基本上就是人臉識別的逆運算。
嬰兒期到3歲期間,以及青春期(10歲之後)到成年期間是人臉變化最快的時期,多倫多大學資訊學院( the University of Toronto Information School)的監視專業博士研究生阿歷克斯·齊布林斯基(Alex Cybulski)這樣表示。“顱面形狀及面部紋理在人早年時期變化很快,你就可以明白事情有多複雜,因此要用計算機建模來進行人臉識別很難。
很難,也許不是不可能。齊布林斯基提到了肯特大學( the University of Kent)法醫學學者斯圖爾特·吉布森(Stuart Gibson)的研究工作,他“這樣說,是因為研究認為七歲之後的人臉變化是最大的,因此人臉變化可以估算,並且可以可靠地比較。”
吉布森所做的工作是拍下兒童在不同年齡時期的照片,然後建立計算機模型來進行人工老化。下圖就是例子,最左(A)列和最右(F)列是被試者的真實照片。B列至E列展示了基於他的模型的不同演算法預測結果。
你可以想到,對於骨骼結構、皮膚紋理及其它美學變數進行定量建模,可以使人臉識別系統得到改進。
這個不切實際的問題帶我去到另一處地方,見到了諸如威斯康辛大學麥迪遜校區的數學家奈吉爾·波士頓(Nigel Boston)。他提到了加州大學洛杉磯分校斯蒂芬·索亞託(Stephen Soatto)的工作。
在索亞託看來,人臉是帶有某些屬性的形狀空間。“你的身份就是經過某類變換後的不變數,”他對我這麼表述。對於他來說,如果我們想要匹配照片或是分辨不同的人,要面對兩類變化,這才是問題所在。一類稱為固有變化——我現在的臉與我二十五年前的臉相比——而另一類稱為“危害性變化(nuisance variability),”即與我身份無關的圖片特徵。
索亞託寫過一篇論文,討論如何消除由影象焦距引起的此類變化,它嚴重地扭曲了人臉(特別是手機的前置攝像頭:“你看不見你的耳朵,鼻子也變大了”)。而他發現了在這項研究與定量老化效果之間的數學相似性。在我們這個特定問題中,我們試圖消除的危害性變化是時間,而且“儘管時間對於資料的影響非常複雜,但在數學上它還是一個使你臉變形的一元態射(1-parameter morphism),”索亞託表示。
他認為上述焦距研究中的方法可以應用到老化問題以及人臉識別。他們可以將大量的圖片輸入模型中並“學會這種變化,”,他這樣說到。
“從概念上講,兩者是同一件事。唯一的困難在於獲取資料。你必須明白這將是一項長期的縱向研究。”當然,挑戰在於我們的老化有著不同的方式,但是“存在著幾何不變性,因為人臉不是可任意改變的物件。”例如,你可以預測到眼角的魚尾紋和歪下巴。或是對於兒童,你可以想象額頭幾乎佔了臉的一半大小。也許,人臉的某些特徵是不變的,或者說它們之間的關係是不變的。
內布拉斯加大學人臉識別研究學者採用的29個人臉特徵。
對於這種計算,計算機系統能力有多強呢?密歇根州立大學計算機視覺教授阿尼爾·傑恩(Anil Jain)在電子郵件中對我這樣說到:“假設我們有你相隔x年的兩張照片。簡單起見,假設它們都是標準的肖像照(正面,表情自然,照明統一)。大體上講,如果x小於10年,現有的人臉識別系統就能夠準確地進行匹配。但是因為不同的人老化的過程也不同,x的值也因人而異。”
當然,兒童的情況更為困難。而且,傑恩注意到,“無約束條件(unconstrained settings)”下的人臉匹配如監視視訊或是隨機抓拍“挑戰更大。”
但是學者們完成的研究工作大多隻有幾十張至幾千張照片。如果達到了Facebook的規模,照片總數以十億計,每個人隨著時間累積都有幾千張(甚至幾萬張)照片,那時會發生什麼?
史丹佛大學網路與社會中心研究人臉識別的附屬學者雅娜·韋林德表示,“一旦社交網路建立起包含人們不同年齡數碼照片的資料庫,對它的研究就會越來越多。”你可以相信Facebook正在嘗試識別它的使用者,無論他們的年齡或是照片中的年齡多大。而他們很有希望幹得不錯,因為“資料不可理喻的威力(unreasonable effectiveness of data)”可以改進他們的演算法。
計算機會比人類更厲害嗎?
索亞託就是質疑這種說法的人之一。畢竟人臉識別是個相當難的任務,但(幾乎)所有的人類都長於此技。他表示,“實際情況是,人臉識別很複雜,但人類對於臉部細微的特徵有著很好的理解,要讓工程系統來模擬或是超越人類的推斷力非常困難。”
問題涉及到“認識與學習的核心是什麼”,索亞託說。“資料有很多,但資料不是資訊。資訊是要經過你挑選去蕪存菁的結果。你找到了危害性變化的源頭之一,即年齡,但它也是個麻煩事。但同樣的難題在認識與學習領域的各個分支都普遍存在。”
問題的本質也許意味著,除非機器能像我們一樣的學習,要想在人臉識別方面取代我們非常困難。