撰文 | 王藝
今年 8 月底,蘇寧在南京開出全國首家真實投入運營的無人店——蘇寧體育 Biu。在這家面積約 40 平米的體育服飾和產品商店裡,陳列了 90-100 種商品。當消費者在蘇寧金融 APP 繫結人臉資訊 ,進店時只需要抬頭刷臉,挑選好心儀的商品後,在付款閘門前停留一下即可離開,在這幾秒鐘時間,系統會自動識別顧客資訊及商品資訊並扣費。
對蘇寧而言,這套系統可以讓線下門店也像電商平臺那樣獲得資料實現精準化營銷。配套安裝在店內的兩個攝像頭能把顧客挑選商品的行為捕捉記錄下來,比如顧客是男是女、年齡範圍、行走路徑、在哪裡停留、挑選了什麼商品等資訊,由此可以輔助判斷某位顧客的消費偏好。
這背後需要大量 CV 技術的支撐,還包括商品資訊識別融合使用 RFID(射頻識別)技術,並部分輔以 CV 技術。這家無人店不僅僅是蘇寧智慧零售的第一個嘗試,同樣也是背後技術提供方商湯科技(下簡稱「商湯」)探索 AI 技術連結零售行業的第一步。
商湯科技聯合創始人、CEO徐立博士
成立於 2014 年的商湯,是今年 7 月人工智慧領域天價融資的主角 (獲投 4.1 億美元 B 輪融資)。
僅用了 3 年,商湯糰隊就從 30 人擴張到 700 人,其中有120 位擁有博士頭銜。另外值得一提的是,商湯也是國內高質量專利最多、專業學術論文發表數量最多的人工智慧企業。特別是在 2015~2017 年,商湯在 CVPR、ICCV 和 ECCV 全球三大計算機視覺頂級會議上與香港中大-商湯科技聯合實驗室共同發表的論文共超過 70 篇。
從商業角度來看,商湯把自己的業務模式稱作 1+1+X:
兩個 1 分別表示學術研發及產業結合,X 則代表技術賦能。正如公式所表述的,商湯希望透過與各垂直場景下的產業結合,將 CV 技術下沉到人們的日常生活。
然而,技術向商業場景的轉化並不如說的那麼容易。
直到 2015 年 9 月,商湯才迎來公司成立後的第一波機會——開始與一些銀行以及 P2P 公司接洽,並逐步簽下幾個千萬級別的合同。實際上,在沒接到單子之前,商湯一直在不停地拿需求、做產品,然後發現產品根本無法滿足需求,就繼續對產品進行更新迭代……以此迴圈往復。
三年後的今天,商湯發展客戶的速度,已經變成每個工作日簽下一單。基於 CV 技術的 產品數量也從單一品類擴充套件為10 餘款從不同垂直場景切入的產品:
從一開始做的為智慧手機提供人臉識別、人臉解鎖、美顏功能等技術支援,再到為安防及監控領域提供人車識別、安防布控、身份核驗等技術方案,亦或者是為人臉識別閘機、身份驗證一體機、以及智慧廣告機等智慧終端裝置提供成套解決方案,商湯的技術商用道路已經擴充到了一定的寬度。
徐立將商湯的技術方案比做樂高積木,它們既可以任意累加,又可以單獨使用,也允許別人繼續在上面搭其他積木。而現在,商湯想做的事情是進一步下沉到各個傳統行業中去,針對他們的業務需求提供不同的解決方案,讓他們將商湯的底層模組運用到極致。
CV 落地新零售,「你是誰」才是要解決的問題
目前,市面上的無人店主要有幾類:自助化售貨模式、進店及結賬等消費環節智慧化模式、消費和購買行為全面智慧化追蹤的模式。
雖然這些模式智慧化的程度不同,但它們在店面大小、客容量、可售買的商品類別方面都受到限制。實際上,無人店的終極形態應該是這樣一番場景:顧客透過語音及姿勢與商店及貨物進行無障礙互動,且整個店面的大小與客流數將不再受限。
而開頭提到的蘇寧無人體育商店 Biu,其運用的 CV 技術就來自商湯的 SenseGo 智慧商業解決方案。
據商湯科技聯合創始人、副總裁楊帆介紹,應用在無人商店垂直場景中的人臉識別技術,必須做到「快」、「準」、「穩」。而在商湯的這套解決方案中,從消費者入店識別到走入閘門,透過掃描人臉完成身份確認的時間不超過 0.5 秒。與此同時,這套系統也能完全應對無人商店內部的複雜結構與個人行為差異。
另外,對零售商來說,技術改造的門檻低才具備可複製性的條件。商湯告訴機器之能,在與蘇寧的合作中,蘇寧體育 Biu 的系統研發耗時不到 8 個月,門店搭建及裝飾在一天之內即可完成。因此,蘇寧還計劃在北京、上海、成都等地陸續「蘇寧超市 Biu 」、「蘇寧極物 Biu 」等其他主題無人店。
事實上,除了蘇寧體育 Biu 場景中所涉及到的 CV 應用外,商湯還把技術用在了實體店內的導購環節。舉個例子,透過智慧螢幕,門店可以對來回走動的客戶進行因人而異的商品推薦,實現精準下單。
總而言之,依靠技術,傳統零售也能像網際網路電商平臺一樣與顧客進行個性化互動,並同時獲得寶貴的優質資料資源,譬如消費者群體分佈、活動軌跡、到訪記錄、消費行為及喜好等諸多詳細資訊。商湯認為,在客單價較高但服務成本同樣很高的銷售場景中,如售樓處、汽車 4S 店等地,對進店顧客行為進行「跟蹤」能夠促成更多商業價值的轉化。
商湯科技 SenseGo智慧商業解決方案
譬如,進出售樓處兩次以上的客人,很有可能抱著相對更大的購房意願。因此,智慧化門店可以透過資料分析將其設為 VIP,提供更精準的服務,比如為他們開啟簡訊提醒服務,進行更精準的定向推送。這在某種程度上,對銷售提高業務量有很大的幫助。
「現在很多商店都有各種各樣的問題,譬如東西應該怎麼擺,才能更有效,才能更好吸引客流。」徐立說出了傳統實體商店的困惑,「實際上,店家的很多資料都沒用上。這些資料都可以經過精確計算給他們一個好的答案,從而制定出更精準的營銷策略。」
從合作方蘇寧的角度來看,作為國內零售行業巨頭,他擁有線下豐富的銷售入口,有能力為商湯的 CV 技術提供了落地場景。徐立很確定,這種應用就是其一直強調的 1+1+X 業務模式。其中,第二個 1 所代表的,就是與蘇寧這類傳統零售產業的結構化融合。
不過,徐立也毫不避諱揭開 CV 技術的落地難點:
「手機支付以及銀行資訊核對等場景是 1:1 的比對,需要解決的問題是『你是你』,是簡單的對比分析,相對容易。與之相比,在新零售領域需要解決的問題是『你是誰』。這個問題更為複雜,因為其決定性因素在於商家的資訊池有多大。
譬如,一家美容院有一千位顧客,那麼當一位顧客進店時,系統需要在一千份人臉資訊中進行查詢。假設這樣一種極端情況——如果該商家的客戶池是全世界的人口,由於池中資訊太多,以現在的技術水平來看,準確率還不能盡如人意。」
讓 CV 技術緊貼各行各業
除了新零售,商湯其他涉及到 CV 應用的解決方案也找到了屬於自己的「落腳點」,其每一款產品都非常有針對性地對應一個功能。
譬如,在 CV 最初的應用場景——安防領域,這項技術可以有效地在火車站、機場等人流密集地帶,對監控探頭拍攝到的畫面進行實時分析,也能透過人群流動情況來有效預警踩踏事件。
當然,商湯在安防領域取得的成績很有效地證明這一應用:曾在 40 天內,為重慶某個區識別出 69 名嫌犯。此外,僅在 2017年上半年,商湯就為廣州省當地公安機關成功破獲了 200 多起案件。
除了對人進行識別外,汽車與非機動車的影像識別也是商湯的業務重點。
徐立稱,在商湯的這類 CV 產品中,汽車有 4000 多種車型標記,而道路上的行人也被標註了 40 種屬性。原因就在於,對這些特徵進行識別、描述、結構化梳理,能夠降低監控影片的儲存空間。
「在未來,監控影片的儲存方式為一個個結構化條目,這些條目能夠很好地被恢復成人、車、非機動車的軌跡,透過自然語言進行管理。」
商湯科技SenseVideo影片結構化伺服器
此外,城市服務也被徐立視為長期的商業場景落地目標。
「商湯用了 2 年時間,幫中國移動的使用者完成了三億使用者的實名認證。」他說,「目前,業內對智慧城市的認知還處在較為模糊的狀態,但從工業城市到智慧城市的發展是必然趨勢,這其中的關鍵在於城市服務水平的提升,而 CV 技術能夠起到很大的作用。」
人們日常生活中最離不開的手機也同樣是 CV 技術最為直接的應用。
近幾年來,許多自拍 APP,以及新浪微博、抖音等社交平臺紛紛為自己的拍照功能及短影片新增各種誇張特效,以此吸引到了大批使用者。其中,最有代表性也是首批推出人臉特效的 Faceu(臉萌), 便採用了商湯 CV 技術。
商湯科技SenseAR擴增實境繪製平臺
此外,CV 技術也能讓手機使用者更輕鬆地查詢照片,透過人臉識別、物體識別對影像進行索引,能夠觸發很多附加價值。例如,在手機中的照片被重新培訓標註後,新生兒媽媽們就能在手機上設定「每天自動更換寶寶照片作為屏保」。另外,雙攝像頭手機優秀的拍照效果也得益於 CV 技術,透過影像處理,手機拍照能夠與單反相機一樣具備景深及背景虛化功能。
當然,蘋果本月推出的具備「刷臉功能」 的 iPhone X ,也將 CV 技術推向風口浪尖。而國內手機廠商,如華為、小米等等,此前也紛紛加入了刷臉大軍。而徐立分析,在全屏時代到來,指紋識別模組無處安放的情況下,刷臉解鎖將成為未來一段時間內的主流。根據他的透露,目前商湯正在與多家主流手機廠商合作,為他們提供刷臉解鎖與支付相關的 CV 技術。
那麼,安全問題如何解決?
徐立認為,由於人臉的特徵維度頗為豐富,因此相較於指紋解鎖,其解鎖準確率更高。實際上,人臉解鎖技術在一年前就已經達到能夠商用的程度,而且當時的解決方案中就已經包含活體檢測技術。
「經過一年多的測試與打磨,刷臉技術其實能夠達到相應的安全性需求。此外,個人手機與無處不在的攝像頭不僅不會威脅到個人隱私,反而會對其加以保護。人臉識別技術能夠將你的人臉資訊轉化成一串不可逆的程式碼,不再被以影像的形式儲存。」
當然,新技術的出現總是會受到質疑。徐立提到一個現象——商湯在早期做網際網路金融領域的解鎖應用時,每天 100 萬次的呼叫中,有 20 萬次是「攻擊行為」。即使是蘋果推出刷臉解鎖功能後,受到的攻擊也比傳統密碼時代高 60 倍。
「這是歷史發展的必然,指紋支付出現時也遭到了這樣的攻擊,但刷臉技術一定會經得起時間的考驗。」
CV 技術為帶來的商業與社會變革還不止於此。徐立認為,影片方面 CV 技術的突破將對整個搜尋及電商營銷模式帶來徹底的變革。如果影片識別與理解技術最終達標,那麼其不僅可以連線電商、社交遊戲,還能夠改變搜尋業,成為新的互動入口。
徐立預計:「五年之後,手機中的 APP,要麼轉型,要麼被顛覆。」
目前,商湯稱自己掌握著短影片和直播行業的標杆性解決方案,為直播平臺提供智慧化的特效、臉部關鍵點定位等技術。特別是在關鍵點定位方面,學術界曾經使用眼睛、鼻子、嘴角等 5 點定位技術,並逐漸發展為至 21 個點。而早在兩年前,商湯就率先提出 106 點的定位,併成為業內通用標準。
今年 8 月,商湯進一步提出了 240 點定位,解決了以往技術方案中諸多不能很好完成的問題,譬如「撇嘴」、「睜一隻眼閉一隻眼」等豐富複雜的人臉表情都可以被精準地識別,同時也能夠滿足這項應用在主流手機上實時執行的需求。
技術的底氣
徐立認為,這一波人工智慧的興起,對於普羅大眾而言,雖然像是一夜之間火起來,但實際上,真正的驅動力是核心的引擎和演算法,深度學習顛覆傳統演算法模式之後,才帶來了這一波能力的突破。
「在這個過程中,你要真正掌握核心能力,需要有 5-7 年的積累。」
在徐立看來,核心能力的積累過程中,最重要一環是招攬足夠優秀的人才。人才代表了企業的核心實力,高質量的團隊能夠幫助公司在一定程度上壟斷市場。徐立以當初谷歌豪擲 4 億英鎊收購 DeepMind 為例,認為谷歌收購的其實是 DeepMind 背後的 12 位博士,這些人成就了 AlphaGo。
徐立認為,一名 AI 人才的成熟也需要 5-7 年的積累 。他希望公司能夠儘可能多地「收集」市場上已經成熟的 AI 人才。他還提到,公司將大約一半的資金投入到人才招聘方面,已經有了一支 120 人組成的博士隊伍。
「我們當時融資只融了 2 千萬美金,最後發現人工智慧這本賬其實是人才的賬。你把真的能做『大腦』設計、底層演算法研究的人才市場壟斷了,那麼行業再培養一批人就還需要 5 年時間。在這段時間裡,你就有足夠的時間視窗做到行業領先。」徐立說。
但技術人才的儲備與管理也有明顯的挑戰。由於目前 AI 行業技術人才大多從學術界引入,與業界需要面對複雜的使用者需求不同,學術界擅長把問題限定在某個明確條件下去解決。因此,學術與應用層之間的「鴻溝」是需要被彌補的。
為了彌補這一斷層,商湯建立起了自己的人才造血機制,以優秀的員工為導師,從零開始培養人才。徐立談到,商湯有很多剛畢業的學生,放棄讀博直接來到商湯做研究,因為他們認為做實際應用的產品遠比在學校中的研究更有趣。
另一個商湯招攬足夠多人才的目的,是要打造自主研發的底層深度學習技術平臺。雖然在當下的創業大環境中,花大力氣去研發底層平臺是大多數創業公司所避之不及的。但徐立認為,中國的科技公司不能像當年做作業系統的時候一樣,有 Linux 就直接在 Linux 基礎上打造產品,導致國內這麼多年也沒有可以媲美 Linux 的作業系統誕生。
同樣,在 AI 領域,雖然使用谷歌、Facebook、亞馬遜的開源技術是站在巨人肩膀上,可以做到事半功倍。但長遠來看,有自己的底層技術才能具備佔領市場的底氣。
商湯想要讓技術取得進步,累積足夠多的資料,推動 AI 產業應用落地,最終形成正向的反饋閉環,相互促進。