今天和大家分享的是可視媒體大資料的智慧處理技術,以及其應用方面的產學研究協同創新成果,主要分為以下四個部分:
•大資料的背景與應用需求
•領先技術研發
•產學研合作的成果示範
•研究展望
大資料的背景與應用需求
全球網際網路使用者如今已飛速增長到了超過20億,其中中國使用者位於全球第一。以騰訊為例,QQ的月活躍使用者已超過了8億,微信月活躍賬戶數達4.3億,每天使用者上傳超過10億的可視媒體素材。下圖是QQ使用者的全國分佈圖,可以看到超過2億多的使用者同時線上。還有一個有趣的事實,分佈密度最高的地方就是經濟最發達的地區,這也正好體現了大資料的應用。
•體量大:種類繁多,細節豐富
•多樣性與廣泛性:很多的資料是多源、異構的
•價值:資料是稀疏、低密度的,需要我們去發現、探索
•速度:使用者往往需要在短時間內非常快的處理速度,因此LOD技術(Levels of Detail,多細節層次),自適應、並行的GPU/CPU叢集計算得到了應用和發展。
資訊與網路使用者爆炸式增長改變了人們的生活方式,大資料的應用誕生也促進了超算中心、伺服器叢集、雲平臺的興起。但與此同時,社會網路的興起為網路頻寬資源和資料的表達都帶來了巨大的負擔和挑戰;大資料的“大”也體現在現有的體量超越了現有的處理能力,包括儲存空間、硬體裝置、計算資源的不足等。除此之外,大資料的科學問題還包括以下幾點:
•各種海量資料的高效表達形式
•智慧處理與結構化:人臉識別、深度學習、感知理論等都是當下研究的重點
•基於視覺感知的失真度量
以城鎮化、城市化大資料為例,它的基本框架包括了城市的感知及資料捕獲,其次還有資料的管理以及城市化的資料分析等。在服務提供方面可以高效地改進城市規劃,緩建交通堵塞,保護自然環境、節約能耗,這些在上海、北京這樣的一線大都市中都有深刻的體會。
2015年1月4日,李克強總理在深圳前海微眾銀行敲下了電腦的Enter鍵,一個卡車司機就拿到了3.5萬元的貸款,這是微眾銀行作為國內首家開業的網際網路民營銀行完成的第一筆放貸業務。這個銀行沒有營業網點,也沒有營業櫃檯,更無需財產擔保,而是通過人臉識別技術和大資料信用評級來發放貸款的,這是一種革命性、跨越式的一步。隨後新聞聯播介紹了微眾銀行的人臉識別方案,這也是我們共同參與的騰訊人臉識別技術的應用例子。大資料技術在處理網路間安全問題上具有先天的優勢,能夠將主機惡意軟體作為實體物件,通過對惡意軟體行為進行分析來識別相應的危險。
相比於金融核實與人臉識別,傳統金融業務的核實當然有其無法替代的優點,如準確率較高、風險較低等。但它的缺點同樣不可忽視——人工成本高、使用者體驗差以及整體效益低等。因為它需要無數的網點、場地,現在隨著人工成本的提高,效率低的特點會越來越顯著。一些P2P的業務,大多數的線下業務是通過門店的銷售人員來獲得客戶,其身份核實也基本與傳統的金融機構類似——藉助第三方外部渠道來進行身份核實。比將這個人的身份與銀行的信用卡進行繫結,從而體現相應的徵信,但這個還不是真正的網際網路金融。
領先技術開發
人臉識別是基於人臉臉部特徵資訊進行身份識別的一種生物識別技術(指紋識別、掌紋識別、聲紋識別、虹膜識別、靜脈識別等),金融核實中可能應用的業務場景包括了遠端的開戶、身份核實、反欺詐等。用攝像機或者攝象頭採集含有人物的圖象或者視訊流,並自動在圖象中檢測和跟蹤人臉,進而對檢測到的人臉進行臉部的一系列識別。
作為一種非監督學習,深度學習技術首先要解決從無標籤大資料人臉當中提取有用的資訊。其次是要研究深度模型當中神經元響應的性質,並與認知科學的研究成果相結合,相互印證和啟發。因此採用了深度學習技術之後,人臉識別技術具有了自動、迅速且準確性超過人眼這樣的一系列優點。但目前人臉核實技術還有以下幾大挑戰:
•圖象採集質量。人臉識別來自於視覺資訊,圖形採集的解析度太小,圖象壓縮過大會產生圖象噪音、模糊等情況,嚴重地影響人臉識別的精度。
•光照環境。人臉在不同的光照條件下會形成差異很大的圖象,比如左右逆光、過暗、過分曝光都會對五人臉識別系統造成很大的影響。
•年齡的跨度。隨著人的生長、面部的五官比例、皮膚都會發生變化,這些變化使得人臉識別特別困難。
•安全性。我們需要抵禦很多的惡意攻擊,比如說紙片、偽造的視訊等。
人臉技術簡單的框架可以概括為從資料採集到人臉識別,通過五官定位再對人臉進行對比,其中人臉的特徵提取是其中的一個關鍵。目前在人臉物理性質的推理方面,仍有四個有待研究的問題:基於影像或視訊的三維人臉重建;光照與反射率估計、光照歸一化處理;人臉姿態的估計與矯正以及基於顏色變化分析的心跳頻率估計。
在人臉語意上的推理方面,同樣有四個熱門研究方向:基於視訊中時空一致性的人臉檢測與人物跟蹤,基於視訊的三維人臉特徵點定位與跟蹤於在脣語識別上的應用,跨年齡與三維的人臉識別,以及將基於影像視訊等可視媒體訊號的人臉驗證和與基於語音訊號的聲紋識別相結合。一般的惡意攻擊者也可以採用假的視訊來騙取遠端登入,但是這與人臉的臉部表情、聲紋等是不匹配的。因此,這些相關因素的共同探討能夠大大地提升聲紋驗證的正確率。
對人臉各個因素間的相互關係分析,利用帶隱變數的深度模型對人臉各個因素進行統一建模,再通過人臉各因素間的相互促進關係實現人臉的完全表達,構建人臉表示統一模型,這也是人臉識別科學問題中的一個內容。
另一個非常重要的方面是活體的檢測,當有惡意攻擊欺騙系統時,需要研究基於深度學習的活體檢測,將語音識別與基於視訊的脣語識別相結合,確保遠端核身的安全性。
最後是研究人臉技術在網際網路金融、視訊監控以及安防當中的應用。比如構建針對網上銀行線上人臉驗證的系統平臺,以及人體跟蹤和監控的平臺,這部分已經在微眾銀行應用單位得到了應用示範。
產學研合作的成果示範
上海交通大學擁有國家一級重點學科和教育部重點實驗室,在可視媒體編輯、計算機視覺、計算機動畫等方面具有堅實的研究基礎。騰訊公司具有8億活躍使用者,在網際網路大資料業務和雲端計算平臺方面都有獨到的優勢,當然它也是IT領域技術領先的巨頭。上海大學在視聽新媒體創意實驗中心、在資訊智慧處理、影像/視訊編輯、虛擬現實等方向同樣具有紮實的工作基礎。
我們與騰訊已經有了很長的合作創新歷史,五六年前騰訊社交平臺部上海團隊已與上海交通大學成功合作“優圖”專案共五期,取得了顯著的成績:人臉檢測技術在全球最具權威的人臉檢測評測平臺FDDB上排名第一(2014年11月),人臉驗證技術在最接近實際資料的人臉識別庫LFW上重新整理世界紀錄(2015年6月);合作開發的人臉驗證技術已經成功應用於網際網路銀行,目前我們正開展“優圖”第五期“優圖-人臉技術研究”的合作研究。
下圖是一個產學研系統的合作框架,最右邊是騰訊公司的大資料雲平臺,中間是高校的技術,如智慧生成與處理,包括了資料的重建、動畫生成、編輯處理等。左邊的大資料智慧服務系統與應用這部分,則包括了視覺無失真壓縮技術服務平臺、人臉的智慧服務平臺等,可以廣泛地應用於影視、動畫、門戶、社交、電商、搜尋、娛樂等。
目前人臉檢測、配準和識別的理論成果,已經應用於海量人臉服務平臺開發。智慧服務平臺就是所謂的海量人臉服務平臺,這樣的演算法與騰訊原有的演算法,還有Face++這樣的演算法比較有明顯的提高。
根據海量人臉智慧服務平臺,我們還孵化出相關的智慧人臉分析技術的應用。比如根據人臉識別派生出了人臉推薦、相簿圈人、一鍵美化、人像風格化等人臉識別技術的應用,以及水印相機、創意相機、天天P圖等移動平臺的應用。在天天P圖等多項騰訊的業務中,使用者的數量超過了2000萬,其媒體傳播效應帶來了巨大的商業價值,這點也是非常可喜的。
總體來看我們實現了基於網際網路大資料的人臉核身系統,它的功能包括了人臉的檢測、配準、驗證與活體識別。在可視媒體大資料處理關鍵技術方面也是取得了相應的成果,提出網路可視媒大資料的智慧化壓縮技術,基於視覺感知的可視媒體大資料質量評價方法,基於深度學習的結構化理解、識別與檢索技術等等。這些智慧服務可以廣泛地應用於網際網路金融、視訊監控及安防中。比如可以構建針對網上銀行的線上人臉驗證系統平臺,也可以面向安防監控的人體跟蹤和監控平臺。
研究展望
最後介紹一下我們的國際合作團隊。史丹佛大學在基於圖象的重建、計算機圖形方面也有非常強的基礎。香港中文大學在圖象處理、計算機視覺方面也是取得了國際一流的先進技術和成果。
我希望通過國際國內的深入合作,特別是跟騰訊公司深度融入的產學研合作,來提升我們人臉智慧裝置技術和大資料智慧處理方面的成果。需要特別強調的是,我們與騰訊公司合作的優圖團隊是一種深度地融合模式。在這個模式中,我們交大和上海大學的學生或教師,和騰訊公司的優圖團隊一起合作,共同針對相應地現實產品需求進行研發,這樣的成果一方面是技術上面領先,另一方面在應用上無縫對接,是一種特別好的合作模式。
注:本文摘自將門創業