視訊的誕生與變遷:人工智慧引領視訊創新

七牛雲發表於2018-04-25

作為優質的資訊載體,在視訊誕生至今的 150 年裡,它的傳播過程卻沒有太多改變。而隨著近年機器視覺技術與視訊的充分融合,結合了 AI 的視訊傳播具有多大的社會價值?作為一家致力於機器視覺研究的雲端計算公司,七牛雲會在這場變革中承擔怎樣的角色?

NIUDAY 杭州站,七牛雲人工智慧實驗室負責人彭垚分享了他的觀點。

01 視訊的起源和發展方向

如今在我們的生活中,攝影機、攝像機隨處可見。但很少有人知道世界上第一部攝影機是如何誕生的。1872 年的一天,史丹佛大學創始人和校長——史丹佛與友人科恩打賭,史丹佛認為賽馬在奔跑過程中四蹄並不是同時離地,而科恩卻不認同他的看法。兩人爭執不休卻又不能說服對方。於是史丹佛找到了一位科學家,科學家提出了連續拍攝膠片,然後回放看錄影的方法。儘管最終史丹佛輸了賭約,但卻參與制造出了世界上第一臺攝影機。

這個故事裡我們可以看到,視訊誕生之初的作用就是取證。相比於圖片,視訊的優勢在於能夠留下動作的過程。

圖 1
圖 1

圖 1 第一行是常見的監控攝像頭,最初是用作取證、保障城市和家中的安全。由於有一部分攝像頭可以用於聊天,因此也自帶社交屬性。

第二行是日常使用的相機、攝像機。最初這些裝置被媒體用作取證、記錄新聞。而隨著電影等娛樂業的發展,也漸漸帶上傳播屬性。

第三行的攝像頭就更加普遍了,我們每個人的手機智慧機器人都有攝像頭。它們可以用來視訊通話、直播,是視訊的入口和來源。

我們到底用視訊做什麼?最早是為防止記憶缺失留存影像,用於取證;第二個階段是做成媒體素材與別人分享;第三個階段是通過 RTC 與他人進行實時溝通。

02 「機器認知」如何改變視訊傳播

以往視訊在傳播過程中,沒有「機器認知」這一步驟。人們用攝錄裝置生產視訊,再將視訊給別人看。從人到視訊再到人,就是一個簡單的過程,唯一的區別是視訊的載體,有可能是錄影帶,也有可能是線上視訊。

這個過程存在觀看者和拍攝者興趣偏差的問題。觀眾不可能將所有視訊都看一遍,他們只會根據興趣進行挑選。

圖 2

圖 2

現在,全世界視訊的數量已經遠遠超過人能看的總量。很多場景下,我們需要這些視訊都被人工看過,但即使全世界的人停下所有動作只看視訊,也不可能看完。所以就需要計算機視覺發揮作用,在人到視訊再到人的過程中,插入機器認知這一環節,通過攝像頭錄下動作,輔助人把視訊先看一遍。

圖 3

圖 3

計算機認知裡有很多體系化的東西,最基礎的是代替人做分類。而認知中最簡單的就是判斷視訊是否合法。其次是在視訊畫面中將事物檢查出來,有多少人,幾輛車。也可能將視訊主體輪廓進行分割、再加工,做一些精細化工作。最後還可能做一些更上層的業務,比如大量視訊的檢索和分析等。

03 七牛雲端計算機視覺產品佈局

七牛雲端計算機視覺產品的目標,就是打造一套能夠完整支撐、充分理解視訊內容的產品體系。我們將它稱作 AI Video OS,主要包含三個子系統。

1.智慧多媒體 API (DORA) 第一個子系統是智慧多媒體API(DORA),它是機器視覺的入口,整體識別及認知引擎都來自這個入口。每天網際網路使用者 App 上傳海量富媒體資料都會呼叫智慧多媒體 API 這個入口對視訊、影像進行處理、認知。

圖 4

圖 4

目前七牛雲官網上提供了包括內容稽核、 OCR、場景識別、人臉識別、音視訊處理、圖片處理六大模組應用呈現。基於七牛雲平臺彈性擴縮容的方法,即使整個平臺每天的資料處理量都在高速增長,伺服器也不會承受巨大的壓力。

2.深度學習平臺(AVA) 第二個子系統是深度學習平臺(AVA),負責生成認知模型。通過深度學習平臺生產機器認知模型,並不斷訓練、提升,就能對獲得的資料進行更精準的識別。

從 2016 年開始,七牛雲就決定要做這個產品。剛開始做鑑黃等內容稽核工作的時候,有兩位同事負責看涉黃視訊,並且進行標註。但隨著視訊數量增加,不得不投入更多人力進行標註。這時候我們發現最大的痛點就是大量重複勞動。

圖 5
圖 5

從圖 5 可以看出,機器學習的過程始於使用者行為(左下角)。有使用者產生的資料後,就要對資料做抽樣、整理、標註等工作,完成標註以後就產生了機器學習樣本,這是一個很緩慢的過程。首先是因為有時候會找不到想要的資料。其次,即使找到了之後,也有很多人工標註工作,還需要寫大量指令碼,用於提取資料。所以很多人說「人工智慧首先耗的是人工」。

有了樣本之後,就可以進行訓練叢集訓練,併產生一個模型。然後是對模型在大樣本下的準確性、易用性進行測試,如果滿足需求,就能把它用在深度學習平臺。整個流程走通之後,使用者就能輕鬆知道他的內容是否涉黃。

在整個流程中,工作量最大的是圖 5 黃色部分中的「資料整理」,它會花費很多時間。

圖 6
圖 6

於是,基於七牛雲,我們自己搭建了一套深度學習平臺框架(圖 6),最上面的一行就是用來解決這些耗時的問題。主要包括:

  • 每日撰寫迭代訓練指令碼

  • 新資料的增刪和管理

  • 增量學習和迭代學習

  • 搭建半監督打標系統

  • 模型的比較和融合

用了這套架構,七牛雲彈性深度學習平臺能大量減少標註人員的工作,短期內提升模型的能力。

3.大資料富媒體知識庫(LEGO) 第三個子系統是智慧大資料富媒體知識庫(LEGO),用於富媒體資料的結構化解構。智慧富媒體知識庫將想要學習的內容進行結構化解構,從而幫助深度學習平臺更高效地學習。在整個人工智慧環節中,資料是最重要的單元,因此智慧富媒體知識庫就成了產品體系中非常重要的一環。

圖 7
圖 7

2017 年底,我們意識到僅學習資料是不夠的。由於這些資料不成體系,會造成高企的維護成本,於是我們搭建了大資料富媒體知識庫體系。主要分為三個模組(圖 7):

  • 視訊結構化模組,我們把視訊結構化、元件化,把 OS 層要素和分割定位工作全部做完,把較大的圖片和視訊變成了隨時可被提取的小元件**我們很形象地把它叫做樂高。

  • 知識圖譜,通過關聯知識圖譜中的政治人物,我們能快速將對應的人物導進視訊中。

  • 海量檢索的大資料檢索系統,與傳統主要針對文字內容的檢索系統不同,我們的產品涉及人物特徵、人臉特徵、影像特徵、視訊特徵,而特徵上會有更復雜的系統結構。所以系統不僅支援普通的全文檢索,還可以在富媒體資料,包括視覺特徵基礎上能夠做檢索。

圖 8
圖 8

圖 8 是通過樂高引擎做的廣電行業 Demo。通過樂高平臺將庫中的大量視訊進行解構,變成多個小樂高,再進行應用統計:視訊包含多少人臉、多少政治人物、人物出現時間段,並以時間軸的形式呈現。除此之外還能在視訊庫中進行搜尋,只要與該人物有關,就能顯示他出現的時間段。

04 七牛雲端計算機視覺產品具有怎樣的社會價值?

圖 9
圖 9

計算機視覺誕生之後,通過整合無處不在的攝像頭,能形成一個資訊量最完整的感測器。通過攝像頭的視覺演算法,彙總這些資訊,就能幫助城市運營中心在公共治安、環境改善等方面發揮十分積極的作用。社會因此能更高效地運營,實現萬物互聯狀態。

圖 10 列舉了七牛雲幫助解決的一部分社會問題:

圖 10
圖 10

1.內容稽核 攝像頭每天都在產生海量的視訊。通過機器認知,我們能判斷這些內容是否合法,是否適合傳播。

圖 11
圖 11

在網際網路領域做了鑑黃鑑暴之後,我們發現這不僅是網際網路公司的責任。政府、廣電與網際網路都需要參與進來,因為廣電、網信辦等政府監管機構也需要人工智慧輔助審查違規內容。所以在我們開發的過程中,漸漸能判斷資訊是否有效、是否良好、是否能在整個傳播環節中更安全、有效地傳遞,避免不良資訊對社會的傷害。

七牛雲通過不斷迭代升級視訊模型解決了很多問題。例如,由於暴恐場面出現低,所以相應的鑑別就非常難,一百萬視訊中真正涉及暴恐的視訊可能就十幾個。但為了不遺漏任何一個涉暴內容,識別精度需要達到 99.999% 以上。

2.城市之眼智慧監控 公安機關在路邊設定了非常多的攝像頭,有了機器認知之後就能跟蹤不同的資料,讓盜竊和各種刑事案件更快偵破,這對社會治安乃至國家安全都很有幫助。

圖 12
圖 12

對於城市相關服務支撐,我們今天更多回到了行業中。以前我們認為傳統安防或者是交警等應用場景會更多,但現在整個城市都需要更智慧化地運轉。七牛雲之前做的特種車輛治理、人流密度管控等任務,對社會的治安包括都大有好處。當然這個過程中最關鍵的幾個視覺的要素還是「人、物、場景」,其次是用到檢測的識別,包括要在海量視訊中檢索,並且把視訊當中的行為做一些分析。

圖 13
圖 13

圖 13 是上海特種車輛治理的大體框圖,包含危化車等車輛的實時監控和管控。

值得一提的是,城市之眼系統是正是基於 AI Video OS 。其迭代過程包含整套資料運營體系:資料產生、資料認知、資料學習,最終把學習之後更精細的視訊認知能力疊加上去。學習釋出完之後,把分析生成好的新模型,再更新到視訊分析模型和檢測模型當中。隨後,將視訊結構化的資料庫整體更新,得出更多的資料比對,包括碰撞的結果。這些結果輸出後可以進行告警,或者用做第三方資料的接入,進行大資料分析。

圖 14
圖 14

3.媒資智慧 用在視訊圖片分類中就能提升平臺視訊圖片的展示,並且根據使用者喜好進行分發,讓他看到他想看的內容。

比如可以把一段籃球視訊結構化分割成投籃、傳球等事件。也可以製作知識圖譜,有了所有球員的知識圖譜之後,就能快速連結到某球員 A 的所有資訊。甚至可以快速知道球員 A 是否與 球員 B 做過隊友,是否加入了某個俱樂部。通過視訊結構化,我們能快速獲取各種資訊,並在此基礎上對海量視訊進行分類、審查、再生產、智慧檢索以及個性化推薦。

4.創新計劃

七牛雲人工智慧實驗室根據客戶各種各樣的定製化的需求:識別生產線的問題、識別快遞訂單等識別任務,七牛雲有一套獨立的創新定製化體系滿足需求,以更好的服務客戶。

圖 15
圖 15

05 七牛雲端計算機視覺產品的最大優勢

普通的計算機視覺公司目前只是享受到了人工智慧的技術紅利。這些公司通過傳統的軟體、硬體形式將最新的技術服務於客戶。而七牛雲作為一家行業領先的雲端計算公司,與他們最大的不同點,就是我們擁有與 AI 密切相關的一整套產品,比如雲端儲存、直播、音視訊等。這些產品一旦結合 AI 的能力就能夠形成一整套 AI 服務體系。七牛雲正是通過這一整套 AI 服務體系來服務客戶。

每天有很多生視覺內容輸入到七牛雲智慧多媒體 API,然後 API 會結構化地進入富媒體知識庫,知識庫將學習資料匯入深度學習平臺進行學習,學習完成後就有更多高效能的模型包賦能到 API 上,給客戶提供更優質、更強大的服務。

圖 16
圖 16

可自我進化的視訊 AI 生態系統就是七牛雲 AI 創新服務體系最核心的要點。由於計算機視覺的計算量是非常驚人的,因此即使現在有如此多的 GPU 叢集,有非常大的超算中心,其實解決的還只是幾個比較共性的問題。

目前還有非常多亟待我們創新、理解的視覺問題。我們也希望通過七牛雲可進化的視訊 AI 閉環生態體系去構建,去解決更多創新的要求。

本文作者

視訊的誕生與變遷:人工智慧引領視訊創新

申請試用 七牛雲 AI 產品

關注公眾號七牛雲 瞭解更多資訊哦~

相關文章