於是,沒有iPhone X,我也可以在我僅2000元的安卓機上玩轉黑科技了。
記者:鴿子
在我威威天朝,表情包早已氾濫在各類社交應用程式中,如今,我們可以玩點新的包了。
就這個啦!在蘋果iPhoneX的帶領下,一種新的娛樂方式來了…
它生動而霸道地詮釋了什麼才是真正的表!情!包!
我的表情我做主,吼吼…
這就是iPhone X在基於Face ID的新功能下,推出的Animoji。
當你對著攝像頭抬眉頭、皺眉毛、動下巴、睜眼睛、閉眼睛、張嘴脣、咧嘴笑時,手機就會捕捉你的表情,並將其賦予可愛的卡通形象,實時生成一個屬於自己的表情包。
如果說今天我們的重點是聊蘋果,那也太low了,釋出會過去了這麼久,太對不起媒體的實效性。
今天,我們想說的是,有一家神祕的中國公司,早在2年前,就在手機上推出了同樣的功能,並且越做越深。而更為神奇的是,在完全沒有深度攝像頭,甚至沒有雙目攝像頭的情況下,它做到了同樣的效果。這引起了AI科技大本營的注意。
這家低調的公司名叫appMagics——邁吉客科技。
早在2016年,該公司就完成了千萬級人民幣的A輪融資,投資方為極客幫及紫輝創投。在2016年9月獲得藍港互動戰略投資後,它又在2017年6月完成了由華蓋資本領投,博將紫輝跟投的數千萬人民幣A+輪融資。
在看過蘋果釋出會關於表情包的展示後,AI科技大本營記者也第一時間聯絡並試用了appMagics的產品。
總體的感覺是:體驗很流暢,表情的貼合度較高,模擬很真實也很細膩。不過,當人突然將距離拉遠,且快速劇烈搖擺時,表情識別偶爾會出現捕捉掉線的情況。
這之後,AI科技大本營記者對appMagics CTO金宇林進行了獨家專訪,問題略微犀利,回覆拒絕套路。希望搞清楚,創業兩年多的appMagics,與蘋果最新的黑科技,到底有何可圈可點之處。採訪內容在不披露被採公司核心技術機密的情況下,儘量保持原樣,部分言辭稍作不改變原意的修改。
AI科技大本營:簡單瞭解一下您的技術背景。
金宇林:最早我是在北京航空航天大學讀計算機圖形學碩士,之後去了史丹佛繼續讀計算幾何學,這算是計算機圖形學的一個分支。畢業了一直留在美國微軟總部,算是微軟研究院3D列印專案的創始人之一,也申請過挺多專利。算起來,我做計算機圖形學,已經15年了。
我們直擊重點,表情識別這個玩法,背後的技術原理是什麼?
我儘量說得通俗一點。
原理大致分為三個步驟,第一步是人臉關鍵點識別與跟蹤,第二步是表情分析和對映,第三步是三維模型的控制。
具體來講,人臉關鍵點識別和實時跟蹤,就是根據臉部標註的關鍵點,比如,哪裡是眉毛、哪裡是眼睛、哪裡是嘴等,讓攝像頭清楚看懂人的面部。
表情分析則是說,根據識別和跟蹤到的面部關鍵資訊比如眉毛、眼睛、嘴等進行的運動,預測使用者是閉眼還是說話,開心還是悲傷。
而三維模型的控制則是用面部關鍵資訊,來驅動構建好的虛擬形象,去學習和模擬使用者的表情。
總的來說,前兩部分屬於計算機視覺的研究範圍,第三部分屬於計算機圖形學的研究領域。
AI科技大本營:到底appMagics所做的表情識別與蘋果剛釋出的iPhoneX,差別在哪?
金宇林:剛剛我提到了表情動畫的原理分為三個步驟,我們跟蘋果的差別主要是在前兩步上,也就是第一步人臉關鍵點識別與跟蹤,和第二步表情分析和對映。
簡單來說,蘋果是在3D系統(RGBD攝像頭)的基礎上做,而我們是在2D系統(RGB攝像頭)上,所依賴的軟硬體系統不同。(小編注:為了便於理解,以下RGB攝像頭統稱2D系統,RGBD攝像頭統稱3D系統)
那2D與3D系統在效果上有什麼差別呢?
對於眼睛、眉毛、鼻子、嘴巴這些人臉中分界比較明顯,特徵比較明顯的地方來說,只要訓練的面部資料足夠多,2D跟3D系統在捕捉上幾乎沒有差別。
但對於面部特徵不太明顯的額頭、臉頰等,2D系統的捕捉就不如3D系統精準了。2D不太容易識別出這些部位的點,但3D由於多了一個縱深資訊(z軸),它是可以識別到額頭、臉頰這些點的。
拿蘋果所採用的深度攝像系統來說,這是一個3D結構光感測系統。也就是說,這個系統除了有日常2D系統(普通前置RGB攝像頭)捕捉的平面視覺資訊外,還有縱深的視覺資訊,也就是Z軸。
這個Z軸縱深的資料資訊主要來自Dot Projector(點陣投影儀),通過它將結構紅外光投射到人臉上,再用紅外攝像頭接收這些投射在人臉上的形變,計算面部每個點的深度資料。
這樣,每個點不僅有了平面的座標,而且有了Z軸深度座標,對每個影像資訊點的定位更為精準。
至於第三步,我們跟蘋果沒有差別。在三維模型控制和最終呈現效果上,我們從一開始的定位就是三維混合現實。
AI科技大本營:那我是不是可以說,蘋果iPhoneX無論在精準度上,還是效能上,都更佔優勢?
金宇林:就客觀條件來說,由於iPhoneX在RGBD攝像頭的硬體基礎下,識別的關鍵點更多,所以確實能精準捕捉到更多細節。
另外,由於蘋果可以完全支配自己的軟硬體系統,因此iPhoneX在效能上,一定更穩定。別說是表情,在很多方面,蘋果手機由於軟硬體一體化,效能也是大大優於其他手機的。這是客觀硬體配置所決定的,沒辦法。
不過要說到蘋果的優勢,其實並不完全是這樣。這裡有兩點需要說明一下。
第一,對於表情的捕捉,並非越精準就一定越好。因為人的感官並非完全是寫實的。
怎麼理解?我舉個例子。當你閉上雙眼的時候,其實並不是同時閉上的,可你自己以為是同時閉的,所以,當你看到表情捕捉到一隻眼總是閉得慢一些時,會產生不適感。
再比如,當你閉一隻眼時,另一隻眼其實會眯上一點,但人並不自知。所以,當你看到表情捕捉呈現出最真實的效果時,反而不舒服,因為這跟你的潛意識不符。
所以,當我們把表情捕捉用於泛娛樂場景時,它更重要的目標是讓虛擬形象能夠傳達人類的情感。所以,我們會用演算法做一些處理,讓你在真實和虛擬中達到一種視覺平衡。這種情況,確實並非越寫實越好。
做VR和AR的人,可能對這一點的理解更深。
第二,在某些必須達到的真實度上,即使硬體並不具備,我們用演算法也是能彌補的,而且效果絕不差。
我們兩年來,一直埋頭所做的一件事情就是,通過不斷優化的演算法,讓表情模擬在普通手機上也能玩起來,而且傳達人類的情感。
啥意思?
簡單來說就是,原本普通RGB攝像頭不容易捕捉的部分,我們靠演算法來彌補。
比如,當我咧嘴的時候,我們會通過演算法,來預測和模擬臉部肌肉的隆起;在皺眉的時候,也通過演算法,來模仿額頭的變化。我們在2D攝像頭系統之上模擬了三維資料,在客觀硬體基礎不具備的情況下,也能將表情動畫玩起來,而且看不出來太大的差別。
也就是說,通過演算法,儘量降低玩表情動畫的硬體要求和硬體成本。目前我們在iphone6上就能玩起來,安卓機也能玩。
AI科技大本營:這算技術上的核心競爭力嗎?
金宇林:可以這麼說。
其實,要說表情識別,好萊塢很多年前就在電影特效中用上了。
比如阿凡達和魔獸世界裡面的表情就是用三維重構來實現的。具體的原理是,通過在演員的臉上貼圖,形成一定的點陣(與蘋果點陣投影儀的原理一致),臉部的特徵就出來了。這樣,當你的面部表情變化時,臉上的點隨之而動,攝像頭將其精準捕捉,就可以放在三維模型上用了。
但好萊塢的硬體多貴啊,普通人想玩這個怎麼辦呢?所以我們就基於普通手機的RGB攝像頭,重新設計演算法,在沒有深度資訊的情況下用演算法來彌補,把這些功能實現了。
把影視CG技術消費化,把影視動漫玩的東西搬到每個人的口袋裡,iPhonen能用,安卓手機能用,普通PC能用,Mac也能用,跨平臺,這算是核心競爭力。
說白了,是把工業級能力和技術轉化為民用級,讓人想玩就玩,不用考慮太多硬體的配置。
AI科技大本營:如果說多年積累的核心競爭力在於,在2D系統(RGB攝像頭)用演算法來做3D系統(RGBD攝像頭)才能做的事。那當3D攝像頭普及,還有優勢嗎?
金宇林:就像我剛剛提到的,在表情識別上, 我們的核心演算法分為三部分,獲取現實中的關鍵資訊確實基於普適的2D攝像頭系統,不過我們從一開始就採用的3D資料模擬和控制,如果有一天所有手機都能直接獲取三維資料,那麼這一步我們的演算法是不用做任何更換的,直接複用,所以這部分積累的優勢仍然在。
但正如你所說,如果3D攝像頭普及,整個行業的軟體演算法門檻將被大大拉低,我們基於2D系統所做的演算法積累和優化確實就沒有特別多的優勢了。
不過你要知道,RGBD攝像頭的普及並非易事,蘋果不也是在iphone X上才採用,iphone8上都沒有,因為目前RGBD無論在硬體微型化的成本和耗電方面壁壘都太高了。
這樣說吧,從現在到未來很長一段時間,市場上絕大多數手機仍是2D攝像頭的蘋果和安卓機,那麼我們基於2D系統所積累的三維演算法壁壘,仍長期存在。
AI科技大本營:所以,基於目前的優勢,主要拼搶的是中低端2D攝像頭市場?
金宇林:從技術上來說,兩個方向吧。
一個方向主打深度和精細度,高階手機市場,基於現有技術積累不斷開發新演算法的能力,包括直接可相容用在3D系統中的演算法;
一個方向主打廣度,繼續針對2D系統,擴大該技術在中低端手機上的適用性。目前我們演算法的定位可以適用iphone5以上的蘋果機型,以及主流安卓機型。這塊會一點點往下做,匹配更多中低端安卓機型,覆蓋更多使用者。
這兩方面都很重要。
拋開技術,從整個公司的戰略來說吧,創始人Leody(小編注:appMagics 創始人CEO 伏英娜)一直強調,我們自身定位是跨界跨界跨界,不是天天埋頭就搞計算機視覺、圖形學、人工智慧這些技術,技術的背後要有感覺,有感情,有感性的元素才行啊。
appMagics所設計的卡通表情形象
AI科技大本營:既然這樣,為何非要自己開發背後整套技術,為何不直接呼叫第三方人臉識別科技公司的技術,專注於打造娛樂產品就好,豈不更省事?
金宇林:其實一開始,是考慮採用第三方技術的,不過試過所有的第三方技術,發現沒有辦法直接用。
為什麼呢?
你看,目前CV(計算機視覺)領域,最大的市場是安防和金融。
對於安防和金融來說,計算機視覺主要的作用是,在很短的時間內判斷是不是本人。而我們的要求是,計算機所識別到的表情是否精細,虛擬表情所模擬的效果是否準確。
這是兩個完全不同的目標。那麼其訓練的出來的資料和演算法,只能服務於一個目標,沒有辦法相容。
再一個,目前的人臉識別大多是二維演算法,但二維演算法沒有深度資訊,用在表情模擬和控制上是遠遠不夠的,因為很多特徵不明顯的關鍵點捕捉不到。這塊就必須用三維演算法來補齊。
所以,我們只能自己來做,從頭到尾設計演算法,做資料訓練。
AI科技大本營:隨著想要實現的不同目標越來越多,未來CV領域貌似越來越細化了。
金宇林:必須細化。
AI科技大本營:估算一下,表情動畫這塊有多大的市場規模?
金宇林:不說別的,就單說手機。如果現在所有的手機使用者,管他是蘋果還是安卓,管他高中低端,都想玩這種表情包,而現有手機的硬體條件也都帶得起來,你覺得這是一個多大的市場。這塊你可以具體跟Leody聊聊。
AI科技大本營:蘋果這次iPhone X釋出會,對公司倒是個很不錯的PR機會。就最近而言,有什麼特別大的直觀的影響嗎?
金宇林:特別大!這幾天,因為蘋果iPhone X推表情動畫這個事,突然多了一堆找上來的合作伙伴和投資人,什麼安卓廠商,APP,做輸入法的公司,全擠過來了。
Leody還沒回北京已經約不過來了。
一個行業最好的狀態是什麼呢,就是你做一個東西,一開始只有你在做,慢慢的,很多人發現,“咦,這個東西很有用啊”,於是都來學你做,因為表情動畫很可能在未來兩年成為App和手機標配,這就證明,你之前預測對了,你押對寶了。(笑)
附:
appMagics創始人兼CEO
伏英娜 Leody Fu是位女極客+連續創業者。2004年離開索尼愛立信創辦MoGenisis,並於2007年成功被Symbian(諾基亞)併購。2010年加盟微軟,先後擔任大中華區及美國總部高管,帶領團隊進行微軟新技術的傳播和推廣。2014年創辦appMagics,專注於計算機視覺混合現實相關技術與文娛領域的跨界創新。