5 月 25 - 27 日,在杭州,上千名志願者、出品人完成了一場為年青人舉辦的大會。按照發起人阿里巴巴技術委員會主席王堅的說法,2050 是一個年份,不太近,充滿想象,也不太遠,我們都能活著看到。
在第一次聽到「讓世界離年青人更近,讓年青人離世界更近」這樣的辦會理念時,我們想起機器之心用前沿科技內容聚合的全球 AI 青年,從在象牙塔裡研究技術到畢業後面臨創業、擇業的選項,他們不僅應該關心技術走向,也需要了解因為這些技術的創新促成了產業正在發生的商業變革。
而那些被我們報導過的 AI 創業公司,大多恰好處於成長週期的少年或是青年階段,如何生存和發展也同樣是他們心頭大事。
在 2050 大會上,機器之心發起了一場以《AI 技術公司的活法和前景是什麼》為主題的論壇,雲從科技、體素科技、深瞐科技、聲智科技、一知智慧和 Udacity 分別談了談 AI 技術如何才能「落地為安」。以下為第五支演講視訊——深瞐科技創始人王建輝《超 3 萬玩家擠在安防領域,AI 技術公司會是收割新貴嗎?》:
要點速覽:
我們公司在 2012 年就已經提出了車臉識別的概念,並完成了相應的演算法和產品研發。 2015 年,我們在車臉識別演算法中融入了行人和人臉及物體識別,形成我們現在的視訊結構化系統,同時我們也會研發基於低功耗高效能的視訊結構化的硬體產品,把它應用到邊緣計算或雲端計算。
根據 IHS Markit 的統計,2017 年 10 月份的時候,中國在公共領域是有 1.76 億個攝像頭,這些攝像頭每秒鐘大概能產生 66TB 的資料,而且攝像頭的數量還在不斷地擴大,兩年以後,也就是 2020 年左右,攝像頭的數量大概會增加到 6.26 億個。
如果將來再繼續優化我們的視訊結構化演算法,也就意味著解碼會成為我們整個系統的效能瓶頸,這也是為什麼我們需要去往前端和局域端去佈局。
深瞐的視訊結構化系統的優勢主要有四個方面:一是公司 2012 年就開始進行車輛資料標註的工作,積累了大量資料;二是高效率的演算法;三是和行業內的各大公司不斷合作;四是公司的演算法可以在各種各樣的硬體上進行適配和整合,包括像海思新出的 359A、英偉達 TS 2、位元大陸的 BM1680。
王建輝:
我們公司成立的時間比較早,但在行業裡仍然算是一個比較小的公司,我們必須要考慮,怎麼和行業內的公司來合作?
介紹我們公司一般會從「瞐」字開始,很多人一開始看到我們公司的名字,都讀成「深晶」,但是我們仔細看一下,這個是字它是由三個「目」字組成,它不是三個「日」,這個字讀瞐(mo),它的意思是美麗深邃的眼睛。
從這兩個字裡可以看出來,我們公司主要是做人工智慧技術加計算機視覺的。「瞐」字裡三個「目」,它其實反映的是第三隻眼,也表明我們想要做守護人類的第三隻眼,安防屬於人類的第三隻眼睛,它會去守護人的安全。
我們公司在 2012 年就已經提出了車臉識別的概念,並完成了相應的演算法和產品研發。 2015 年,我們在車臉識別演算法中融入了行人和人臉及物體識別,形成我們現在的視訊結構化系統,同時我們也會研發基於低功耗高效能的視訊結構化的硬體產品,把它應用到邊緣計算或雲端計算。我們公司的產品跟安防大資料相關,非常貼近實戰應用,主要跟政府機關、刑偵、海關、邊警以及煤炭生產等領域有合作。
我先介紹一下安防市場,安防市場現在是一個不斷擴大的市場。根據 IHS Markit 的統計,2017 年 10 月份的時候,中國在公共領域是有 1.76 億個攝像頭,這些攝像頭每秒鐘大概能產生 66TB 的資料,而且攝像頭的數量還在不斷地擴大,兩年以後,也就是 2020 年左右,攝像頭的數量大概會增加到 6.26 億個。
但在安防領域,這些攝像頭其實在前期只能起到一些威懾和取證的作用,非常不智慧,它不能提前預警或在事中進行分析。另一方面,安防領域對計算機視覺有非常強烈的需求,因為所有計算機視覺的影像都需要進行處理。
為了解決安防攝像頭不夠智慧的狀況,我們研發的是一個視訊結構化的系統,這個系統它能更高效更準確地檢測出行人和車輛。大家可以看到這個視訊裡面,在這個攝像頭前經過的所有行人和車輛,我們都會進行檢測、跟蹤、去重、擇優,然後我們再針對經過的每一個目標提取一張圖片,去識別它的詳細屬性。比如非機動車我們主要關注的是行人的屬性,包括人的顏色、衣服款式之類的資訊,機動車則更關注車的屬性,比如說品牌、型號、年款、顏色還有車牌號等。
這是我們視訊結構化的一個層次組成關係,總的來說,它是一個以搭建了四級的視訊結構化處理系統。
在最底層,我們要去收集各種各樣的視訊和影像資料,比如從加油站的視訊裡,停車場、卡扣甚至車載系統、手持系統和道路監控這些裝置裡。首先,我們會在這些資料裡檢測出行人和車輛,也已經加入了人臉識別功能。我們會針對行人和車輛去識別他們的二級屬性,只有把這些文字化的結構資訊全部提取出來之後,我們才能實現一些以圖搜圖、資料探勘、事件預警等功能。
我們針對車輛的二級結構化,首先是在車的顏色上,另外是車的號牌,可能大家會覺得車牌的識別現在已經比較成熟了,但其實根據我們實際場景中的應用來看,現在光車牌識別這樣一個技術都還沒有做得非常精確。
我們在 2018 年 2 月份跟上海交管局有一次測試。當時,上海交管局收集了大概 2000 萬張車輛的資料,需要把車輛的車牌號準確地識別出來,所以他們進行了一次招標,包括安防的行業巨頭幾乎都去參加測試。
測試要求大家在一個星期內把這 2000 萬張圖片全部識別出來,然後統計正確率,當時我們公司花了 46 個小時,識別準確率在白天統計是 99.33%,夜晚是 98.7%。而很多公司在一個星期以內並沒有把這 2000 萬張圖片全部跑完,也有一些企業能跑完但識別精度非常低,大概只有 87% 左右這樣一個量級,中間會有非常大的差距。
不過,即使我們做到白天 99.33% 這樣一個準確率,能滿足大部分應用需求,但還沒有達到一個極致。
品牌型號是我們現在做的最好的一塊。
目前,中國在路面上行駛的車輛大概是有 28000 多種,這 28000 多種車,有的外觀是一模一樣,比如像寶馬 520 的 2014 款可能和寶馬 520 的 2015 款的外觀一模一樣,把這些車的區間進行合併,最終剩下外觀上有差別、從車頭上看有差別的車大概是 5580 多種,從車的尾部看過去,存在差別的大概是 3500 多種。
我們可以針對這些車進行全系列的識別,能區分像寶馬 320 的 2014 款,跟寶馬 520 的 2015 款這些詳細屬性。其實做起來會非常困難,資料標註也是非常大的工作。我不知道在座的各位有多少人能認識超過 50 種以上的車,你要標註 5500 多種,甚至是 28000 多種車,工作量非常大。
另外這項車牌還有品牌型號跟車身顏色,他們都是屬於車固有的屬性,如果我們想要區分出套牌車——就是說如果我們兩個人都是寶馬 520 的 2015 款,我去找一個一模一樣的車,然後我去套用它的車牌,做一個它的牌照掛在我的車上,我怎麼區分這樣情況?
我們需要識別車本身更詳細的屬性,比如說我們最後要去識別這個車有幾個年檢標,它的年檢標是怎麼排列的,它的車上有沒有掛墜,前面有沒有紙巾、有沒有擺件,它有沒有備胎、有沒有行李架,車上有沒有撞損痕等資訊,都是需要我們識別的。同時我們還要識別車裡駕駛人和副駕駛的情況,包括他們的人臉,駕駛員有沒有違法駕駛行為,比如說開車打電話,或者是沒有系安全帶等。
針對人的話,我們也要識別這個人的詳細屬性,比如說我們要去識別這個人的性別和年齡,但是年齡這一塊我們不會去看他具體多少歲,現在主要是區分這個人屬於小孩還是青年、中年、老年。另我們還需要識別行人的樣貌屬性,比如他的髮型、他的膚色、他有沒有鬍鬚,還有著裝,包括他上下身衣服的顏色和款式,比如我們今天穿的是一個白顏色的衣服、藍色褲子,還有它的紋理等,還有他的同行人,有沒有佩戴眼鏡、有沒有帶口罩、有沒有戴帽子,包括他的隨身物品,他有沒有打雨傘、抱小孩,他有沒有拉行李廂、有沒有揹包、有沒有拎包等。
這些都是為了去詳細區分一個人,以方便進行結構化的搜尋。同時我們會把一些人臉進行抓拍,然後把人臉識別的屬性,全部都加到這個結構化的系統裡面去。
剛才那些是我們演算法層面的一些工作,這些演算法上的工作它需要有一些硬體平臺去承載。
目前,公司承載演算法的硬體平臺可以分為四類,它基本涵蓋了安防行業裡面的四大平臺。最開始我們公司所有的演算法都是執行在雲端,也就是智慧雲服務平臺,在這個平臺上,用一張 GPU 的卡,我們效率會做的非常非常高,GTX 1080ti 的卡,我們能做到 30 路 1080P 視訊的解碼加視訊結構化的分析,而 Tesla P4 是能做到 24 路。
現在我們也針對一個個非常大體量的城市級別應用,把雲服務平臺縮減下來,然後做成了智慧終端服務平臺,在我們內部也叫輕量級結構化平臺,這個平臺主要是面向小區、醫院、商場,集中於幾十路上百路這樣一個場景的應用。
這裡面也會用到 GPU 進行計算,GPU 和雲端差不太多,再往前擴充套件,就是我們要做的智慧 NVR 系列或者智慧 NVS 嵌入式或者預裝的計算。在這裡面,我們主要採用海思的 359A,或是英偉達的 TX 2 這些晶片進行解碼和分析,這個地方的解碼和分析,我們需要去綜合考慮它的效能,因為雲端計算有個非常大的問題,就是你所有的資料都要上傳到雲端去。
但因為視訊都是經過視訊編碼的,不管是 H.264 還是 H.265,如果在雲端針對這些編碼的視訊進行解碼,其實需要消耗非常大的計算能力。作為我們的演算法和視訊解碼的複雜度來對比,現在是視訊解碼的計算量和我們整個二級屬性分析的計算量是基本持平的。如果將來再繼續優化我們的視訊結構化演算法,也就意味著解碼的會成為我們整個系統的效能瓶頸,這也是為什麼我們需要去往前端和局域端去佈局。
只有我們在前端才可以在解碼之前就對視訊進行分析,對它進行結構化抓拍,而往回傳過來的都是去除之後非常小量的一些影像資料。智慧 NVR、NVS 功能也比較類似。這些裝置和演算法,可以應用的範圍會比較廣,比如智慧警務工作站,或者是醫院、商場、停車場、小區和學校等場景。
接下來講講基於這些技術,我們在應用層面進行的嘗試和探索。
視訊結構化資料最簡單的一個應用是在假套無牌車的識別上,我們可以把識別出車的詳細品牌、型號和年款資訊,如果把這個資料和車管所車牌資訊去進行碰撞的話,我們能發現這輛車,它是一個假牌車還是一個套牌車,或者是一個什麼型別的行為。
我們去年和西安交管所的合作,經歷了一個案例,西安有一輛計程車的牌照被套牌了,大概有六輛計程車用的是同一個牌照在路面上跑,當時我們根據視訊結構化,能把這個以前不太可能發現的違法行為揪出來,以前要在兩輛車等同一個紅綠燈的時候,才能識別發現。
用到刑偵破案裡面的時候,我們可以去快速復現出一輛車的逃竄軌跡,比如說像藍色的路徑,就是一輛車它在整個城市裡面的行駛的一個軌跡,以前破案的時候,需要警察去不斷地看大量監控錄影,通過看車來判斷可能逃竄的下一個軌跡是什麼,這時候需要消耗大量警力和人力,而且效率非常慢,以前涉車案件最大問題就是,當我發現嫌疑車輛的逃竄軌跡,嫌疑車輛已經不知道逃竄到哪裡去了。
我們還可以根據車輛的行駛軌跡去挖掘出它的同行車輛。為什麼要挖掘同行車輛呢?這裡面涉及到刑偵的兩個問題,一個問題就是同夥作案,如果有一輛嫌疑車我們被抓到了,那我們可以尋找他的另外一位同夥,甚至如果我們發現有犯罪史或者是有涉毒的人員,多輛有犯罪史的人的車輛,他們長時間並軌的話,我們可以預警,他們是不是在預謀犯罪行為。
這也有一個案例。2015 年在浙江桐鄉有一個入室盜竊的案件,入室盜竊的嫌疑人非常狡猾,他在犯罪頭一天踩點的時候,用的是一個車牌號牌,在犯罪當天,他又換了一個牌照,第二天逃竄的時候他又換了一個牌照。像這種情況,根據傳統的以車牌為線索去追蹤的話,基本上是不可能實現的,但我們的系統其實是拋開車牌的資訊,以車本身的特性去進行追蹤。
除刑偵以外,我們也探索了一些新的應用領域。比如,我們在往智慧園區方向去發展。具體來說,把智慧園區的主要出入口、園區內部攝像頭全聯網的話,我們可以對人員和車輛打標籤,比如這個人是一個有登記且常駐的車輛,非登記但是常駐人員,包括有犯罪前科的,有吸毒史的,還有上訪的等,據此劃出重點人群去統計他們的日常生活規律,然後根據這些日常生活規律去發現它是不是有異常,或者是有意地躲避攝像頭等細節,這樣也可以給一些政府工作和行政工作提供犯罪預警,由事後分析轉向事前預防和事中報警,並且可以對陌生人進行合理管控。
我們還會給城市裡的人車建立一個人車動態檔案。這個人車動態檔案是以機動車為主體,可以把人的手機資訊、機動車資訊結合起來,因為我們發現每輛車除了有一個個人屬性之外,它其實還有一個社會屬性,車輛的個人屬性就包括這個車主是在哪裡上班,家住在哪裡。每一個車的品牌可能還代表著一個人的性格、消費能力、經濟能力。車輛的社會屬性主要體現在,比如說大貨車它其實是反映了一個城市的外向型經濟水平,杭州和上海之間的大貨車頻繁,說明這兩個城市之間的經濟聯絡會比較緊密,而小火車呢代表是城市內部的運輸水平,他反映的是城市內部經濟的活力,大客車可能代表的是旅遊出行情況,小客車代表的短途消費,而渣土車、混凝土、攪拌車跟水吊車,表示的則是一個城市的基建熱度。
如果我們把行人和人進行關聯之後,我們可以知道一輛車只要出門並經過攝像頭了,車在整個過程中發生什麼變化,比如是不是新添了撞損痕,新增了幾個年檢標或者開車的人員發生了變化。根據這些統計,可以給保險公司提供一個參考,也能把這個城市裡面的計程車、黑車、網約車等車輛進行分門別類的管理。同時它可能對一些可疑的生活規律,比如說走私、販毒等相關行為分析出來,進行違法犯罪傾向性的預測和車輛行駛的安全性預測。
事實上,在整個是視訊結構化系統裡,我們的核心優勢可以歸結為四點。
一是我們很早就開始標註的資料。2012 年開始做車輛大資料以來,我們一直在進行車輛相關資料的標註,這些資料其實也非常難標,因為我剛才說到了中國可能有 28000 多種車,每年大概會有 400 多種車型增加,新增的車型可能跟已有的 28000 多種車型外觀上還長得比較像,那標註人員怎麼收集新上市的車輛,而且跟已有的資料進行區分,這個工作量其實非常大。而且這個標註的工作很難以外包、眾包的形式完成,因為它需要在車輛識別領域非常專注的人員來做。同樣,由此也形成了我們資料標註的優勢,並轉化為我們的資料優勢。
第二就是基於已標註的資料庫,我們做了一些高效的演算法。這主要體現在我們會用相對簡單的模型達到複雜模型的精度,因為目前深度學習的共識,只要你的模型足夠複雜,你的精度是能達到足夠高的,但在實際運用過程中,它除了對精度有要求,同時對演算法效率有非常高的要求。
第三就是我們的視訊結構化系統已經跟行業內主要公司都有合作。目前我們合作的安防上市公司大概是有 20 多家,還有 200 多家不同領域的大客戶。2017 年 10 月份的深圳安防展上,1 號館裡展示的有視訊結構化技術的公司,一共是 13 家,其中有 7 家的 SDK 是我們公司提供的。而且這個數字還在變大,目前以這種方式合作的已經達到 9 到 10 家公司。
最後就是我們的演算法會在各種各樣的智慧硬體上落地。比如說會在海思新出的 359A,英偉達 TS 2,位元大陸的 BM1680 等硬體上做整合,這樣我們的演算法跟硬體是剝離開的,將來您不管採用什麼樣的演算法,我們公司都可以去做整合。
回到最開始的主題,我們這樣的一個新興公司,怎樣去和安防裡面 3 萬多家公司共存和競爭,最重要的辦法也是我們目前在做的就是不斷尋求合作。
因為目前我們能看到的趨勢是安防在泛安防化,安防市場容量其實在不斷擴大,它已經開始慢慢地跳脫出傳統安防裡給公安破案使用,上升到城市管理以及智慧物聯網這樣的區域。
剛才也講過,將來的攝像頭會增加到 6.26 億,也同樣指明這個市場還在不斷擴大,我們用我們的演算法和資料能力去跟 3 萬家公司合作,把市場變的更大,蛋糕變大了各家都能得到其中的利益。
另外就是雲邊結合,剛才溫總(雲從科技聯合創始人溫浩)也講到了,就是說將來的傳輸頻寬和視訊解碼能力會成為雲服務端計算的效能瓶頸,也會成為智慧視訊分析大規模應用的一個障礙,而且現在的邊緣端計算能力能夠滿足智慧視訊分析的計算需求才能達到實時分析的效能,所以未來智慧城市管理和智慧視訊分析的趨勢會是分散式計算、多節點儲存、精準化目標提取、結構化資料傳輸跟前後端融合。