5 月 25 - 27 日,在杭州,上千名志願者、出品人完成了一場為年青人舉辦的大會。按照發起人阿里巴巴技術委員會主席王堅的說法,2050 是一個年份,不太近,充滿想象,也不太遠,我們都能活著看到。
在第一次聽到「讓世界離年青人更近,讓年青人離世界更近」這樣的辦會理念時,我們想起機器之心用前沿科技內容聚合的全球 AI 青年,從在象牙塔裡研究技術到畢業後面臨創業、擇業的選項,他們不僅應該關心技術走向,也需要了解因為這些技術的創新促成了產業正在發生的商業變革。
而那些被我們報導過的 AI 創業公司,大多恰好處於成長週期的少年或是青年階段,如何生存和發展也同樣是他們心頭大事。
在 2050 大會上,機器之心發起了一場以《AI 技術公司的活法和前景是什麼》為主題的論壇,雲從科技、體素科技、深瞐科技、聲智科技、一知智慧和 Udacity 分別談了談 AI 技術如何才能「落地為安」。以下為第一支演講影片——雲從科技聯合創始人溫浩《人臉識別技術照進產業場景的距離有多遠》:
要點速覽:
為什麼選擇人臉識別?人機互動的視覺入口,跟機器打交道必須知道你是誰,這是一個入口;這是一個市場足夠大的 AI 賽道;人臉識別是天然的跨行業入口。
我們應用時發現,學術和實驗室的領先並不能帶來你多大的落地優勢。如果真正去做一個行業落地的方案,可能要非常多的技術模組累積,才能代入到你的值函式里面去,真正做到適應某一個場景,某一個行業的人臉識別的應用。
演算法的門檻在降低,這個門檻最多保持兩年時間。
巨頭來了怎麼辦?保持各種技術的相對領先,儘量向你的上下游擴充套件,上游包括晶片、下游包括硬體和整合提供商,建立產業生態圈,去做跨行業的 AI+ 的行業大腦。
今天其實是科學家創業最好的時代,大家可以看到現在所有 AI 企業的背景都有科技的背景。這是十年前很難想象的,十前年有很好想法,就可以做網際網路創業,現在還要有科技的背景,這是資本對知識性人才的一個熱捧。
感謝機器之心邀請,也感謝雲棲大會,我講的題目是:人臉識別技術照進行業場景的距離有多遠,這是主辦方給我規定的題目。
在 AI 的裡面,我們有很多落地的想法,我們也把我們的經驗給大家分享一下。
2014 年冬天的時候,我和雲從科技的創始人也是我的大學校友,就是周曦博士,當時在中科院重慶院。
我們在思考到底做哪個具體的方向,雲從當時還沒成立。
我們當時的優勢在計算機視覺,我簡單列了 CV 可以做到哪些內容。
一個是物體識別,包括搜尋變革,以圖搜圖,這個已經開始有了。然後還有生產製造,在生產製造過程中識別物體。
還有在交通領域識別汽車和物流的東西,這是物體識別這一大類。
另外一類是人臉識別。
現在可以看到很多人臉識別的應用,包括安防,包括娛樂,直播,廣告營銷,金融、社群,這是我們平時會碰到的運用。
CV 還可以結合其他的 AI 技術,比如說自然語言理解,人機互動,可以做一些自動駕駛或者 AR 方面的工作。
或者像剛才結合生物科技和醫療技術,做一個疾病輔助檢測。這個應用就是計算機應用非常多的方面,我們知道 70% 到 80% 的技術是來自人臉識別。這是很大的一個方面。
當時,我們在中科院的時候,做了很多東西。
除了人臉識別,車輛識別,還有一個機器人模型試衣,給遠端買家看一下,效果是如何。我們做了這些類似的應用。
但是,大家都知道,微軟是在計算機影片和 AI 技術,各方面語音都做的非常好的公司,有很多大牛。周博士當時在微軟亞洲研究員和西雅圖做過訪問,像微軟這麼牛的公司都沒有完全在市場上做的非常好,也沒有實現盈利,所以,我們 AI 初創企業不可能把資源都分散到很多點上去,要專注道一個點上面。
我們為什麼選擇人臉識別?
第一個,因為是人機互動的視覺入口,跟機器打交道必須知道你是誰,這是一個入口。
然後,市場也是比較巨大的,我們選一個 AI 的賽道就要選一個市場足夠大,哪怕是很小的市場份額都可以獲得一個比較大的盈利空間。
舉個例子,微軟鮑爾默評價谷歌和微軟都是大的公司,但是,谷歌比微軟更偉大,不是因為谷歌技術更牛,而是因為谷歌的賽道是在搜尋和廣告上,這是一個非常大的市場。
微軟主要在辦公軟體上,作業系統這個市場沒有廣告市場這麼大。
所以,他認為谷歌更厲害。當然,這是一方面的評價。
所以我們要選擇一個大的賽道,才能保持快速增長。
第三個,最重要的是,人臉識別是天然的跨行業入口。在 AI 技術裡面,人臉就是非常好的入口。
我們剛才列舉了很多服務,金融、安防都可以用人臉,你既然選這個技術,以後可以到很多行業去,可以把你的技術延伸到非常多的方面去,這是我們的一個考慮。
我們其實在這方面也是有一定的底氣。從 2007 年到 2016 年,我們拿了相關計算機視覺挑戰賽的七次冠軍。
比如說像 2010 年 ImageNet 就是一個非常權威的視覺識別挑戰賽,超過一千個影像種類,100 萬張訓練圖片的時候,我們領先第二名 17% 的成績。當時,全球參賽者 150 個隊伍,包括 IBM、東京大學、索尼等世界一流的研究機構,我們還能領先他們 17%,所以,我們也覺得是比較有底氣。
2016 年,我們參加了微軟的全球影像挑戰賽,在困難挑戰資料集,它是考慮了光照,主要針對人臉的,光照、視覺和解析度的各種情況下,演算法拿第一。
在理論實驗上,我們可以做到相對領先。
但是,實際上,我們應用時發現,學術和實驗室的領先並不能帶來你多大的落地優勢。
我們當時做了很多 SDK 賣給整合商或者合作合作伙伴,很多時候,實際現場效果不是特別好,甚至做倒閉了的也有,我們也是感到迷惑。
人臉識別各種現實的挑戰是很多的,我們知道在光線、角度、遮擋、表情、年齡、模糊的情況下,計算機要做到非常精準地識別一個人,不是這麼容易辦到的。
列舉一下。
不同的光照的情況下,臉上感覺是不一樣的。這個是模糊,因為攝像機是抓取的,有可能在運動中,也可能焦距對的不準,產生模糊狀態,這個時候辨別一個人就比較困難。
還有這種角度,除非這個是計算機是周杰倫的粉絲,不然,這種情況一般來說都會有影響。
這種,如果是粉絲估計也比較困難,確實年紀變化比較大。
還有遮擋,這是純天然的。表情,當然這是影帝級的,這會嚴重影響五官的扭曲。
如果把這些因素克服了,是不是可以識別人臉?不是,還有很多要考慮的問題。
第一個就是確認和識別的問題,1:1 和 1:N
1:1 回答的是這個照片是不是這個人,這個照片是我嗎?是一個確認問題。
但是,識別,是一個我是誰的問題。他在 N 個人裡面,這個 N 可能很大,可能是,一般來說小的話是幾千人幾百人,大的話是幾千萬人,比如說杭州市可能是上千萬人,上海 2 千萬,中國十幾億。
所以,上千萬上億人口中,回答他是誰的問題,這個就非常困難了。
有一些資料表明,大概一億個人左右,就有長的跟你相像的人,更不用說雙胞胎。1:N 是比較大的問題。
還有配合和非配合。
很多時候,配合式地去在裝置上刷卡,但有很多時候,我是在抓取,處在遠距離,比如,我們在這個空間裡面,動態地看某個人,
甚至這個人是逃犯,有意識地戴一個鴨舌帽戴個口罩進行遮擋,非配合情況下,怎麼把他識別出來。
甚至可能連臉都抓不到。這個時候,我們有一個技術,叫跨鏡頭,跨場景行人的再識別檢索,叫 ReID,只看到它的衣著和他的步態,就可以把他判別是同一個人,這種的話難度就更大,還是跨鏡頭的,可能是相關區域的一個鏡頭。
還有防攻擊。
我們知道,很多時候是關鍵性應用,我們要確保他是真人而不是照片,不是影片,這是一個活體檢測。
活體檢測,現在是常見的技術。以前手機常用的是動作,讓你扭一下頭,眨一下眼睛,不是特別好。
現在可以做到紅外,結構光,結構光就是類似 iPhoneX 上的 3D 投射技術。根據投射光的反射來計算是否是一個 3D 的技術。
還有其他一些技術,還有這個識別。這是誰出的題,這根本不是一張臉,這就是部分了,這個時候,你的心情可能是這樣的。這個表情,要要注意分析。計算機分析它的內心是沮喪還是崩潰,表情分析現在也是一個應用方向。以後做到人機的情感交流,計算機不光要知道你是誰,還要知道你的內心,透過表情判斷你的內心,這個也是非常重要的一個方面。
所以說,我們從實際的經驗來看的話,現在有很多開源的人臉演算法和開源軟體,其實它並不能真正解決問題,它們根本沒有考慮到各種場景和各種應用的因素,如果真正去做一個行業落地的方案,可能要這麼多的技術模組累積,從這個角度,旋轉,光照,光線照、年齡、性別、表情、活體比對識別等,這裡列了一部分,沒列完,這樣的話,才能代入到你的值函式里面去,真正做到適應某一個場景,某一個行業的人臉識別的應用。
這就是我們大概創業三年來,我們的 SDK 或者技術方案都是分的行業、場景,甚至分的前端,還是在什麼樣的配合下,或者非配合下,考量的一個技術。這是我們的一個想法。
另外一個就是說技術累積,是日積月累的,不是一蹴而就的,我們在埋頭拉車的同時,我們要看看到底要走什麼樣的路,就要抬頭看路,這是今天第二個給大家分享的。
當時有一個選擇,是做 C 端還是 B 端。
這個照片是以前拍下來的,我們做了一個換髮型的,直接去理髮店做一個髮型,我不要看著明星的臉,那個沒感覺,我會把自己的臉拍下來含一個髮型,看一下想要的效果是什麼樣的,這是 2013 年做出來的,大家看效果,還湊合。
我們還做了一個遊戲,叫智慧頂球,在重慶高交會上,根據人臉來判斷位置,來頂球,這個遊戲很火爆,每天從開館到閉館,排隊要玩。
還有一個是金融領域的應用,用在 B 端的,刷臉取款。現在在農行裡面,很多 ATM 刷臉取款機都會慢慢支援,現在在北京有試點,帶身份證,不用帶銀行卡,然後刷身份證進行比對,就可以進行小額的取款。農行和建行今年大部分都會上,整個過程中沒有任何的手機或者銀行卡相關的應用,這個都沒有。
另外在公安裡面,一直是有剛需。
公安裡面兩大類,一個是抓人,它一般是在火車站地鐵站進行布控。
另外就是大庫檢索。假如我從天網裡面抓到一張比較模糊的嫌犯的照片,我要知道身份是什麼,這個庫有上千萬的,比如三千萬人口,去搜尋,它最像誰。
這個是 B 端的應用,這個是 C 端的應用。
C 端對客戶的體驗要求是非常高的,要求你的體驗非常好,不會想一個不好玩的東西,用兩天就沒意思了的。
第二,使用起來要非常方便、穩定,不希望 AI 有非常複雜的使用手冊給到終端的客戶。
還有對價格很敏感,考慮到成本,不能是太貴的東西。
在 B 端,要面對的第一個問題是,門檻會相對高一點。
比如說,我們跟銀行做的話,銀行對供貨商的要求是比較高的,這個我們也是走過彎路的。我們第一次給農行做生意,當時我們是初創,還不是農行,是工行,第一大行做生意,談到最後發現我們的資質跟不上,剛成立,沒有資質,這個就非常可惜,很多投標,只能委託其他家幫我們一起投標,只能這樣,這個事是比較曲折的故事。但是,只要你進去了,你就比較穩定的。
還有就是它對專業服務要求比較高。像銀行裡面,它要求八個小時之內就必須做到響應,否則就是事故。
它對價格相對來說不太敏感,所有 B 端客戶對價格都不是特別敏感,除非是非常靠近 C 端的,比如說,做門禁的廠商,門禁的終端價格要很低,這個時候相對來說敏感一點。一般來說都是不太敏感的。
對技術要求來講的話,總的說來,C 端的要求比 B 端的高,這就是為什麼我們會選擇 B 端做切入口。
在做 B 端的行業時,需要考慮的幾個問題,第一個就是行業裡的產品和解決方案必須多。
在銀行網點裡面,比如這是一個常見的銀行網點,我們做了 9 個方案,從排號填單到遠端 VIP,終端,和超級櫃檯,體驗和客戶分析的終端,包括售賣機還有還有網點智慧平臺,我們都做了相應的解決方案,有些是是終端,有些是遠端業務,有些是分析平臺,從 15 年開始,我們在銀行領域做了 42 個解決方案,不是簡單的賣個演算法進去就 OK 的事情。
第二個,如何增加行業客戶的黏度。
我們覺得是雲加端,不只是演算法。
演算法你覺得很高大上,但是很容易被顛覆,百度都開源了,谷歌推出了自動機器學習,以後完全不懂 AI 的公司可以自動訓練,你演算法的門檻會降低,這個門檻最多保持兩年時間。
我們可以在行業客戶的雲端,就是軟體端,它的軟體系統其實是不容易被替換的。
大家可以自己想想,你的手機,你的手機號很難換掉,s 手機只要出新的,我基本上都會換掉,哪怕手機再貴。
這個其實是一個道理,客戶的軟體系統和業務系統很難換掉。
所以,我們做 AI 的可以儘量考慮佔它的軟體和硬體,硬體就是它的終端,把一些演算法置前,然後它也會用到終端。
用上了一個軌道之後,也會有一定的依賴性,終端的依賴性不是特別高,還是要和雲端進行配合,才可以形成標準的黏度的系統。這是我們的第二個想法。
第三個,在全國,我們有一個銷服的體系。同時,真的是風裡來,雨裡去,跋山涉水,到機房,到現場,甚至自己裝攝像機,我們還發生了觸電的事件,這個也是比較危險的事。但是沒有這個事情,你是做不到這個銀行客服滿意的,因為不是高大上才是 AI 企業,你還要做髒活累活。
巨頭來了怎麼辦,所有所有企業都會面臨的問題。BAT、做得非常好的科大訊飛、安防做得很好的海康威視,電商做的很好的京東,可以說,它們既是夥伴也是一個壓力,我們怎麼和他們在這個市場裡面去博弈呢?
每家其實都不一樣的路數,我們提供一下我們雲從的想法給大家分享一下。
首先是保持技術的相對領先,你做 AI 的,技術不領先,怎麼做你的市場和和你的產品呢。
所以我們第一,我們還是相對專在人臉技術和人機互動的技術,比如說,人證對比的透過率上做到金融級的,誤識率要做到百萬分之一甚至千萬分之一之下,同時還要做到 95% 以上的透過率。
透過率是指,如果是你本人去比對,透過率 95%。如果是別人的話,就是誤識率,只有千萬分之一的誤識。這個指標是非常重要的,我們在銀行和公安裡面,拿了 85 次測試的第一名。這是一個硬指標。
另外一個像一些新的技術,比如說跨境追蹤,我們剛剛在三月份,重新整理了三個世界記錄,特別在 Market-1501,這是一個比較權威的資料集,我們做到 96.6% 的首位命中率,重新整理了阿里 1 月份的世界記錄,首次達到商用水平。以後我們基本上可以用這個技術進行跨境追蹤,哪怕沒有你的人臉,你的衣著體態都可以判斷出來,這是一個比較好的技術運用。
當然還有 3D 結構光,我們在前面也釋出了。
儘量向你的上下游擴充套件,上游包括晶片,下游包括硬體和整合提供商。
其實,你在擴充套件的同時,這個可以給你增加一個生存空間。
比如說你的晶片整合了你的演算法,同時你的硬體是軟硬一體的,你的成本很容易控制
這時候你跟巨頭博弈的時候,成本會很低,價效比很高,這樣可以營造空間增加你的競爭力。
還有一個就是,因為人工智慧已經上升到國家的一個戰略,所以我們作為中科院的背景,我們也有義務去支援國家戰略,建立產業生態圈,兩個方面:
一個是頂層上,我們參與了國家和行業的人臉識別標準的制定,同時和四大行,公安部,民航總局和中科院進行戰略合作,建立聯合實驗室,合理合法獲取他們的一些資料。
第二我們也承接了國家發改委的兩大平臺,一個是基礎資源公共服務平臺,這個是和和百度、騰訊、科大訊飛一起分別承擔的,還有一個是今年 1 月份在高準確度的人臉識別系統產業化,和公安部一所一起承擔的。
地方上,和重慶、廣州、上海、蘇州、成都、黑龍江這些省市進行戰略性的合作,進行落地和生態圈,這樣可以把很多上下游的產業和合作夥伴一起拉進來,把這個事情做大。
第四個就是我們去做 AI+ 的行業大腦。
AI 是跨行業的,所以我們做了很多行業大腦,從銀行到公安,到機場,到社群、零售還有教育,還有健康。健康跟剛才的醫療不太一樣,還是日常的健康檢測。
最後會構成我們的雲從大腦。
這個地方,大家會覺得,跟剛才前面的是不是有點矛盾,不是說要保證技術上的專注嗎?
是的,專注人臉識別,人機互動技術。但是行業上是有擴張性的,這個是不矛盾的。
這個是一個戰略步驟,只有這樣,體量才能迅速增長,體量增長了,才有和巨頭博弈的實力。
最後,AI 初創企業還是要有夢想,雲從的夢想是定義智慧生活,提升人類潛能。
這個口號似乎有點大,夢想和企業能不能成功沒有必然的關係。就像騰訊這麼大了,也有人說它沒有夢想,這個不是必然的,但是我們覺得,這個定義智慧生活,其實很顯然不是一個簡單的口號,我們是實實在在做的,比如說定義智慧生活,真的用我們各行各業的方案,也許今天你還沒接觸到,也許很快就能接觸到這些東西,包括購物機及這些終端裝置會很快接觸到,這個是智慧生活的定義。
我們認為人工智慧也不是代替人類,在可預見的未來是提升人類潛能的,用專家的經驗進行復制,幫助人類。就像剛才用醫療技術幫助醫學專家一樣,所以說,這個是我們的一個想法。
最後兩句話作為一個結束。
一個是雖有智慧,不如乘勢,雖然鎡基,不如待時。這是出自孟子。
鎡基,是一個農業工具,農業活動必須看天時。整句話就是就是說,要乘勢而為。
也就是說,如果你選對一個事,可以做到事半功倍。
我們覺得今天其實是科學家創業最好的時代,大家可以看到現在所有 AI 企業的背景都有科技的背景。這是十年前很難想象的,十前年有很好想法,就可以做網際網路創業,現在還要有科技的背景,這是資本對知識性人才的一個熱捧。
在座的各位應該感到自豪,真正的是知識經濟時代真正來臨了。
這是我們的一個想法,所以在這個時代,大家只要有夢想去創造,一定可以成功。