淺談人工智慧在流媒體領域的應用

UCloud技術發表於2018-11-09

人工智慧正加速改變各個行業,而流媒體領域可能是其中改變最快的一個。隨著神經網路相關演算法問題得到解決,人工智慧技術在最近幾年得到了快速的發展,而人工智慧技術在流媒體領域的滲透,使這項技術獲得了新的突破。當下圖片、長視訊、短視訊、直播、AR等各種媒體形式佔據著網際網路圈,在媒體內容和形式都非常豐富的今天,如何辨識、解析這些內容,並通過人工智慧反饋是目前所有科技巨頭關注的焦點,其中影象識別、語音語義識別、同聲傳譯、字幕識別等應用場景的進一步挖掘,需要人工智慧大戰拳腳。

什麼是人工智慧

通俗一點講,人工智慧就是大資料+機器學習。這跟我們人類很像,我們想要獲取知識的話,需要很多的源材料,比如通過觀察外邊的世界,去閱讀各種書籍,或者請教老師、他人等。對於計算機來說也是這樣的原理,它需要獲取大量的資料去做訓練,在大量資料裡邊抽取出有用的資訊,構成它的知識庫

資料是人工智慧的基礎

資料是人工智慧技術實現的基礎,在UCloud平臺中,資料處理是如何操作的呢?首先,我們我們的物件儲存、直播雲、媒體工廠每天會產生大量的原始資料,比如物件儲存每天新增的圖片會超過10億張,但是這些原始資料並不一定是對計算機友好的,例如直播資料,裡面有傳輸的協議、音視訊的交錯,還有各種編碼在裡面,這樣的原始的資料對機器學習來說是不友好的。我們就需要預處理的平臺對原始資料進行處理,譬如圖片壓縮、音訊提取與聲道、取樣率歸一化、視訊的抽幀等,這些預處理的功能目前採用docker映象部署的方式跑在我們的彈性計算平臺上,目前有超過10000個虛擬節點在做這個事情。

僅有資料還是不夠的,我們需要對資料打上標籤,讓計算機知道這個東西是什麼,然後它通過資料標籤去訓練和想學習,認識這一類的事物。目前打標籤有多種形式,如人工標註、關鍵字主動抓取等,對於難於標註的語音類的資料,我們也會購買第三方的資料。資料是人工智慧的基礎,未來在人工智慧這個領域,資料層面的競爭將會非常激烈。

機器學習解決哪些問題?

人工智慧的另外一個重要環節機器學習,它解決的主要是兩類問題,一是分類,二是迴歸

分類目前應用得比較廣泛,也相對成熟一些,如圖片的分類,給出一張圖片,識別這個圖片是小貓還是小狗;或是對文字內容的分類,比如讓計算機去分析一篇文章到底是體育類的還是經濟類的等等。迴歸則是數學的概念,它處理的問題也是偏數學方向的,輸入和輸出都是數字型別的。據瞭解,目前有些團隊在做類似股票預測的場景,像這種場景依賴的變數非常多,而且本身系統非常複雜,難度比較大。

分類功能在媒體領域的應用

在當下這個內容為王的時代,分類和迴歸在媒體方面的應用十分廣泛,如內容稽核人臉識別自動標籤字幕識別同聲傳譯等。

【內容稽核】

目前大多數的內容平臺對使用者都是開放的,使用者可以上傳圖片、視訊等。開放本身是好事,使得內容更加豐富,但會涉及到很多網路監管問題,在國家和政府對網路內容的監管要求越來越嚴格的背景下,很多內容平臺公司會專門成立內容稽核部門,採用人工稽核的方式,對使用者上傳內容進行全量稽核。這項工作如果完全依賴人力稽核的話是一項巨大的工程,且稽核團隊的工作枯燥乏味。

目前UCloud的UMAI平臺支援圖片與視訊的涉黃、暴力等內容識別,通過呼叫UMAI介面來對內容做預處理,可以將佔比為絕大多數的正常內容過濾掉,而只留下極少數判定為疑似不健康的內容,需要稽核團隊進行進一步的複查,這樣極大的減少了人工稽核的工作量。

人臉識別

人臉識別現在在人工智慧這塊應用較為廣泛,如身份認證、手機刷臉、系統登入等;另外是人臉的搜尋,比如在一段視訊裡快速確定有沒有出現某個關鍵人物,或一個圖片集裡有沒有包含這樣的人。人臉識別主要的流程一般如下,首先對這個圖片進行人臉的檢測,然後提取關鍵點,包括眼睛、鼻子、嘴巴、耳朵、輪廓等,切分處理以後,再給到卷積網路提取特徵,最後再做人臉識別,目前我們在公司考勤、政治任務識別方面已有相關的應用。

【自動標籤】

針對使用者自主上傳的圖片,自動標籤則發揮出重要作為。使用者在上傳圖片的時候,往往只會標註一到兩個關鍵詞,對圖片進行描述,而圖片裡邊包含的大量其他的內容和資訊,是沒辦法檢索出來的,因為現在很多後臺的搜尋是基於關鍵字的。通過計算機視覺的場景識別功能,可以很好的將圖片的隱藏資訊挖掘出來,讓圖片有更多的關鍵字,能夠被更多的場景檢索出來,發揮其作用。

【字幕識別】

字幕識別的應用非常直接而實用,例如身份證、發票、名片的識別,可以減少手寫錄入的工作量,而類似視訊字幕識別這種,則可以幫助計算機更好地去理解視訊的內容。

【同聲傳譯】

目前國內企業出海風潮正盛,利用人工智慧實現同聲傳譯可以幫助跨國公司、員工進行不同語種間的交流。在視訊直播這一塊,我們做了這樣的系統,可以在視訊直播傳輸前,把裡面的音訊提取出來,做切片處理以後,把語音識別出來,經過翻譯系統後輸出字幕並打上時間戳,播放終端拿到字幕和視訊資料後,做一次時間戳同步,在播放端進行展示。

這個系統主要有兩個難點:一是它是經過了兩次計算機的識別,第一次是語音的識別,第二次是翻譯,這會有一個誤差的累積;二是這種場景的實時性要求比較高,比如說字幕的翻譯有點滯後,視訊資料又需要比較低的延遲,這樣體驗會非常不好。這也是這款產品正在優化的兩個方向。

人工智慧私有化部署應用

以上提及的是聚焦於公有云平臺的人工智慧的應用,而我們在跟很多客戶的交流中,因為政策以及保密的原因,他們不希望將資料放到公有云上,在他們內部也有不少伺服器、視訊採集裝置等硬體資源,希望能夠直接利用上。針對這樣的需求,我們會建議使用私有化部署的方案。

UCloud平臺做了兩件事去實現私有化部署的方案:第一是元件化,我們內部有很多功能,比如直播、儲存、錄製、截圖等,我們將這些功能剝離開,做成各種元件的形式。這樣有一個好處,元件可以靈活搭配,使用者需要什麼功能就部署什麼元件,如果對某些功能有個性化需求,只要簡單修改對應元件的功能就可以了。第二是我們提供訓練好的模型,部署到客戶的私有環境中,目前這個模型是在我們公有云上訓練好的。

私有化部署在自動考勤系統等場景已經有成熟的應用,我們也在不斷挖掘更多可應用的場景,希望運用人工智慧技術讓我們的工作更便利、生活更美好。

相關文章