2018 年 11 月 14 日至 11 月 18 日,第二十屆中國國際高新技術成果交易會(簡稱高交會)在深圳成功舉辦,七牛雲作為國內領先的以資料智慧和視覺智慧為核心的企業級雲端計算服務商受邀參展。
11 月 16 日,在以「數造中國 定義未來」為主題的 2018 中國人工智慧領袖峰會上,七牛雲獲得了「AIC 青藤獎」。同時七牛雲人工智慧實驗室創始人彭垚為大家帶來了題為《智慧平臺的創新和發展》的內容分享。
以下是關於演講內容的實錄整理。
七牛雲是一家專注在智慧影片雲領域的企業,像秒拍、抖音、美圖秀秀這些大家日常在用的耳熟能詳的 APP,它們所有的資料都存在七牛雲,影像、音影片、語音的處理,以及內容的分發都由我們來做。
(七牛雲人工智慧實驗室創始人彭垚)
今天給大家分享的主要是七牛雲在 AI 領域所做的事情。
整個人工智慧平臺上 80% 以上的資料均來源於視覺,其中以音影片、影像為主,所以整個智慧體系中最重要的環節就是視覺智慧。視覺智慧主要還是針對於網際網路上,每天透過手機上的 APP 自拍,在美拍、秒拍自動上傳之後,再透過人臉識別、深度學習等進行處理。除此之外,在這些過程中也會產生一些其他的結構化或日誌的資料,所以會透過我們的資料智慧做一些資料的分析,包括一些機器語言的理解。下面是七牛雲之前比較重要的直播、點播、實時音影片互動和播放器的能力,底層還有一些基礎的能力,包括雲主機、容器計算、海量儲存和智慧網路。
AtLab 核心創新體系
七牛雲整個 AI 邏輯的產生用這張圖就可以表示出來。
我們有三大 AI 平臺,一個是智慧多媒體 API 平臺。把影片和影像匯入,透過智慧多媒體 API 平臺可以把影像和影片認知的結果,比如說人臉識別的結果輸出,這個平臺就會支撐各種各樣的模型。在這個過程中會產生很多的資料,這些資料我們會把它結構化,把影片影像標準化,建立整個的影片圖譜。利用影片圖譜把資料入庫製作成想要的樣本,然後再做一些標註。做完之後會再把這些資料標註完的資訊資料匯入到深度學習平臺中去做學習,學習完就可以把影片生成,這是三大雲平臺的邏輯。
在這三大平臺之上,內容安全是第一重要的模組;第二塊是城市慧眼,我們做了各式各樣的識別場景,包括各類車輛的檢測;第三塊是媒資智慧,有很多廣電的客戶找到我們,這些客戶同樣有大量的影片資料,我們可以幫他們做快速的編輯、稽核、檢索等業務;第四塊是創新計劃,我們有一個專門的投資,來做各種有意思的創新任務。
一站式多維度內容稽核—「明瞳」
「明瞳」是一站式內容稽核的產品,主要面向廣大的網際網路企業。大家都瞭解,最近很多的網際網路 APP 都被關停,就是因為上面的違規違法內容太多,對我們生活的影響,特別是青少年的影響是比較大的。一方面七牛雲在服務這些網際網路企業,一方面我們也在給政府,包括網信辦、網安、廣電總局提供我們的系統,協助他們去做稽核。
傳統的審查方式有:平臺自查,可能會招一萬個人去做人工稽核。然後也有政府的監管方式,比如說群眾舉報,透過很多熱線電話、網上舉報的渠道。在舉報之後,像網信辦、網安這些政府機構一般都會去查處。現在也會利用七牛雲的平臺,自動地做爬蟲檢查,檢查這些違規違法的行為。這三個方式方法實際上還是有非常多的痛點,因為有很多違規違法的內容還是一直在網際網路上流傳。
傳統方法怎麼用機器去查違規違法內容?
最早網安提出的一個方案是拿影像影片 MD5 的檔案,把 MD5 值求出來,如果找到一樣的就認為它是有問題的。一旦有一些新的違規違法影片,再透過人工把它轉進來。違規內容持續流傳,只是說相同的檔案會找到,但實際上大部分的檔案還是存在略微的差別,所以是完全的找不到。
現在市面上也有很多類似的企業,他們基本上採用的方法是用影片單幀的考核模型,這個現在比較主流,有很多插幀的影片會遺漏掉,如果抽走一小段影片,這可能是行為分析,也不會被留意到,所以透過單幀的識別模型還是做不到。
我們現在用的是影片結構化多維度識別,國家網信辦、中央網信辦和很多地方網信辦現在都在沿用這一套系統,我們和網安總局、公安部還開設了聯合實驗室。
給大家分享一下整個做影片監控雲這一套技術的方案。
對一個影片來說首先要提前做分鏡頭切割。鏡頭切割就是,比如你有一個長影片,一個鏡頭是對的,你可以切過來放到這裡。首先要把影片段切割出來,每一個影片大多是定景的拍攝。切割完之後對每個影片段進行評估,包括行為的識別、涉黃低俗的識別、片段中的語音提取。語音提取需要做特殊聲音的比對,包括低俗的、奇怪的聲音,都是要透過特殊的聲音去識別出來;文字的識別,包括像自然的語言處理、字幕翻譯;然後還有動作的識別,動作其實是比較難捕捉的,比如性暗示行為的識別;還有場景和物品的識別,有一些特殊的物品和場景是違規的。透過這五大板塊內容的識別,加上影片時序特徵的疊加,我們就可以查處到這個內容的合法性,包括追溯到這個內容的區域、網路,去做整體的查處。
「明瞳」內容安全產品具有較多的優勢,影片演算法團隊在國際上獲得了非常多的獎,在影片競賽中拿到了很多國際大獎。目前已經服務了很多網際網路企業,每天稽核超過 2 億的影片,當然這個資料量還在增長,日均的稽核量我們預測會超過 10 億。
「明瞳」內容安全現在稽核的主要類別有:涉色情內容、涉敏感內容、涉暴恐內容、涉低俗內容,每一個大分類下還有非常非常多的細分類,所以對稽核的認知,首先它有一個很大的稽核知識圖譜,它建立的過程會透過一些新的東西去學習、去增加。
這個稽核對網際網路公司來說,看起來非常簡單,如果你是儲存在七牛雲上的,直接開啟開關,它就會開始自動稽核。而且我們後臺也有人工複核,不需要搭建任何的稽核系統,就可以幫你全部做到。
智慧化城市管理新模式
—「城市慧眼」
下面介紹城市慧眼相關的內容。在上海、廣東以及全國各地很多城市進行的智慧化城市建設中,我們主要承擔的是 AI 人工智慧和影片的建設工作。
我們把城市慧眼 AI 分為這六大能力:城市安防,包括人臉動態靜態的比對、人員立體追蹤、重點人群管理、走失人群的搜尋。還可以做一些在崗督查的工作,監督這個人員上班是不是在待工,有沒有玩手機、抽菸、睡覺。還有車輛管理,包括像渣土、環衛等整體的管理,每一種車輛的違規標準都可以識別出來的。一些違法的拉橫幅行為也都可以識別。
在上海外灘陸家嘴濱江大道,我們用一個高速的演算法做目標跟蹤,技術是非常精準的。可以洞察關鍵路口多方向人流量變化情況,掌握人流規律,適時引導人流方向。
在重點區域還可設定違規告警。在黃線外面,保安在的地方是不允許溜狗的,就會告警讓他回去。共享單車不允許停靠的地方,我們也會第一時間識別出來。
這是黃埔外灘的人流密度方向監控。監控的方法實際上是人流密度的計算。如果人頭密度非常低的時候,它會畫一條線,有可能人數增長就會出現擁堵的現象,上面這個圖就是透過人頭的方式去做人員密度的整體評估,包括很多的方位。下面這個圖實際上有很多的箭頭,它可以透過不同的顏色標註不同的人群,透過箭頭知道人的行走方向,所以透過這兩個影片綜合判定出人流的走向和人流聚集的方向,這樣就可以去做快速的人員疏導和預警。
大型馬拉松活動是有一個大部隊,這時候人是非常多的,行人亂竄或者車輛的危險進入可以透過無人機去做全程的跟蹤。
整個城市慧眼安防監控的系統由這幾個部分組成:人體、物體、場景,還有人像的一套識別系統,我們對應可以去做的能力,包括檢測識別、智慧檢索、行為分析。整個安防監控產品,透過計算機視覺 + 人工智慧的能力,可以去做智慧發現、實時預警、快速處置、長效治理。
然後是做行人再識別。其實能做人臉識別的攝像頭是非常少的,就算這個攝像頭能做人臉識別,但如果人背對著攝像頭也是識別不了的。ReID,透過行人行走的姿態,上中下的特徵,識別出真正人的定位,七牛雲在這一方面的學術領域水準非常高,在整個榜上是排名第一的。
早期做深度學習平臺的時候,我們覺得管理資料太累,寫程式碼重複率太高,所以最初只是想做一種工具平臺。後面發現深度學習平臺能夠給很多學術的朋友帶來很多幫助,特別是學校的學生。這是整個深度學習平臺的釋出流程,從模型的開發到調整,到調參,自動的訓練、驗證,到釋出上線,整體是一個閉環。
這是AVA 深度學習平臺的架構。從底層可以支援的所有儲存,上面有一套分散式系統,有一些高階的應用,包括 AI 學習、增量學習,包括模型流程。
LEGO 大資料富媒體知識庫是後續更智慧去投入的。我們要做影片的結構化,把場景切開,特色的內容識別出來,建立一整套的搜尋引擎,構建一套圖譜。這個知識圖譜是透過爬蟲體系不斷完善的制度,最後對外的其實是大資料的結構引擎,把裡面的樣本內容做結合,可以以圖搜影片、以影片搜影片,還能得到你想要的資料樣本。我們現在得到的資料量非常大,有好幾十個 TB,整個樣本的量都是在 LEGO 裡面。
同時在第二十屆高交會展覽期間,經由專家評審和高交會組委會評選,七牛雲憑藉先進的產品創新優勢在眾多參展企業中脫穎而出,「七牛雲海量儲存系統」榮獲高交會「優秀產品獎」。現場人氣爆棚的七牛雲展臺還獲得了本屆高交會「優秀展示獎」。