達摩院交給「馬老師」的第一份作業,「科代表」任小楓解讀答題思路

微胖發表於2017-12-02

撰文 | 高靜宜

編輯 | 微胖

「馬老師給我們定的目標非常高,要我們去解決未來的問題,解決別人解決不了的問題,解決真正重要的問題。」阿里達摩院 iDST 首席科學家兼副院長任小楓笑著說道,「我們也花了很多力氣去讓技術落地。」

今天,達摩院終於公佈首個技術落地領域:文娛短視訊行業。

 

12 月 1 日,在成都舉辦的第五屆全國網路視聽大會短視訊高峰論壇上,阿里大文娛與達摩院聯合釋出了一個名為「鯨觀」的全鏈路數字版權服務平臺。

達摩院交給「馬老師」的第一份作業,「科代表」任小楓解讀答題思路


平臺搭載了達摩院 iDST 人工智慧技術,能夠實現視訊智慧編目、音視訊指紋監控等功能。不僅可以解決短視訊領域的維權問題,還可以幫助建立視訊素材交易生態,實現內容價值最大化。

說起短視訊,大家可能並不陌生。

無論是 papi 醬、谷阿莫等「網紅」IP 的視訊,還是前段時間感動朋友圈的「番茄炒蛋」,都在我們的娛樂生活中刷足了存在感。

由於其對時空、文化限制因素的不敏感性,幾乎人人都可以成為短視訊內容的生產者。而各種短視訊平臺又反過來催生了大批線上使用者。

以秒拍為例,其日均覆蓋使用者已經超過 7000 萬,日均視訊上傳超過 170 萬,日均視訊播放量峰值超過 30 億次。

短視訊行業正成為一個新的創業風口。

 

不過,在平臺方和內容創作者的商業探索中,往往會遇到一些難題。

首先,生產環節的產能不匹配。體量較大的內容生產團隊「高產似母豬」,讓一些單打獨鬥的內容生產者相形見絀。

其次,分發環節的盜版以及商業化能力弱。

在極度追求流量的短視訊領域,鋪天蓋地的盜版對於內容生產者來說無疑是一場災難。某人嘔心瀝血的視訊作品,被別人拿去稍作修改,或是更換了一個標題、封面,就成了對方的流量,為他人作嫁衣裳。而且內容原創者也很難發現自己的作品已被他人侵權盜用。

達摩院交給「馬老師」的第一份作業,「科代表」任小楓解讀答題思路


這並不是一個新問題,人類邁入數字化和網際網路時代以後,侵權成本就開始變得很低,而維權成本變得越來越高。

第三,商業化較弱。

為此,結合了阿里文娛三個「C」的資源、技術、資料,與阿里達摩院最先進的 AI 技術的鯨觀平臺,會先圍繞這幾個行業痛點,分別提供三個基本服務:智慧視訊編目、基於資料能力實現版權保護,以及商業變現。

在智慧視訊編目方面,據任小楓介紹,目前平臺已經可以提供一個相當完備的視訊標籤體系,擁有兩萬餘種標籤,關聯幾千種問題和幾百種場景。

標籤會以中文的形式展現,這也是後續搜尋的基礎。有了標籤,視訊素材就容易被檢索。

這一技術也會重新啟用數億行業閒置的視訊資源,可以實現二次甚至多次使用價值,有利於量低創作者提高產能。

任小楓告訴我們,這裡需要用到人臉檢測識別技術。

達摩院交給「馬老師」的第一份作業,「科代表」任小楓解讀答題思路


「要把視訊中所有的人臉準確認出來在技術還是相當有難度的。」很多情況下會受到解析度、角度、距離的影響。

為了解決這個問題,團隊選擇使用超深卷積網路,並對模型簡化加速,從而實現精準的人臉檢測、跟蹤、識別。

為了有效打擊盜版,在完成視訊智慧編輯打標的同時,鯨觀平臺還會在音視訊素材上抽取「指紋」,讓音視訊素材在全網範圍可追訴,能夠實現毫秒級速度支援百億級指紋檢索,侵權盜版無處可逃。

音視訊指紋技術不僅大大降低了視訊版權監控取證的成本,還可被用於廣告分成等多種業務場景。

目前,5 分鐘時長的視訊經過全鏈路處理則可在 10 秒內完成,而且可以實現全網監控六秒級的畫面,並在一小時內給出反饋。

「我們希望視訊可以像指紋一樣可以計算出精確的特徵,然後做匹配。這個看起來比較簡單,實際上中間還是有很多難點的。」任小楓解釋道。

例如,他人可能會在視訊上新增 Logo,調整解析度、亮度等因素,在各種變化的情況下精準識別出對應的場景就是團隊需要攻克的一大問題。

目前,平臺已經可以完成多場景視訊,而且準確率達到 99% 以上,並具備實時擴充套件性。

為了簡化視訊指紋的特徵,平臺還採用了二值索引引擎技術。如此一來,二值特徵可以大大提高儲存和計算的速度,而且並沒有精度的損失。目前,指紋的檢索系統已經可以做到百億級的指紋的檢索。

 

不過,任小楓也指出,對於一個產品來說,光是有好的演算法還遠遠不夠,還要有高效的處理系統。

阿里內部已經研發出了一個高效靈活的視訊分析平臺,可以進行分發和多工的處理。也正是在這套系統的支援下,視訊的下載、解碼、編碼以及處理才能實現毫秒級的速度。

達摩院交給「馬老師」的第一份作業,「科代表」任小楓解讀答題思路


「視訊技術是一個發展很快的階段,也有相當多的提升空間。我本人對視訊技術也有很多的期望,希望能夠在這個平臺上探討我們的視訊技術。」任小楓提到,平臺也將繼續在內容的理解、素材的搜尋以及特效的編輯等方面發力。

據透露,最近任小楓的團隊正在研究的方向之一就是對單幀影像不再侷限於打標籤,還要分析出物體之間的關係,並從時間的維度上檢測動作、行為、時間的發生。將檢測識別和分析兩項技術結合起來,從而更加深入地理解視訊。

另一個技術方向是直接分析視訊的內容,判斷與另一段視訊的相似度,不再著眼於準確地文字描述。

 

郝峰說,現階段,鯨觀平臺的這些能力將面向內容資料資產的持有方。最晚到明年的第一季度,會開放購買側的服務,降低視訊製作成本,最大化素材價值。

「我們會不斷結合阿里達摩院的技術持續優化,我相信,現在是產業向另一個臺階邁進的爆發前夜。」達摩院交給「馬老師」的第一份作業,「科代表」任小楓解讀答題思路

相關文章