阿里雲:人工智慧AI如何在影片領域應用落地?

小資一夏發表於2018-03-30
眾所周知,全民影片時代已經來臨,使用者的注意力已經從傳統的文字、圖片向影片轉移,相信絕大部分使用者的手機中都會有幾個點播、直播、短影片的APP。據網路公開資料包告顯示,網際網路流量70%以上來自影片,未來這個資料將超過90%。


而在人工智慧時代,AI技術是如何在各行業和領域真正的發揮應用和商業價值,帶來產業變革才是關鍵。在3月28日深圳雲棲大會的人工智慧專場中,阿里雲影片服務技術專家鄒娟將帶領大家探索熟悉的影片場景中,AI技術如何應用落地,解決實際業務場景中的問題。


縱觀整個影片生命週期,包括影片採集、影片的生產製作、影片播出和被廣大的使用者所體驗這幾個環節。實際上在這個過程中,整個影片行業發生了很大的變化,在每一個階段都從非常專業的參與者轉向大眾普適的參與。



 
從採集階段,最開始用專業的攝像機、錄影機進行影片採集,轉向如今的每個人都是自媒體產生者,用手機來拍攝。在製作階段,從重量級的非線性編輯軟體,到現在短影片APP都標配的特效、濾鏡、美顏,都能夠在手機端進行基本的影片製作。在播出領域,最開始電視臺必須得有一個節目單,到現在使用者可以在網站上按需播放點播影片,用手機實現個性化的搜尋和觀看。在體驗這一環,使用者從最原始的有線電視同軸電纜單項傳輸的觀看,到現在我們可以去互動、評論、點贊、彈幕等等互動。所以,我們可以看出,從整個影片生命週期中,參與者是發生了巨大的變化,加入影片領域的應用也越來越多。


從下圖可以看出,影片和AI的結合已經貫穿了影片生命週期的每一個階段。
 


那麼,AI能為影片行業帶來什麼呢?

第一, 提升生產效率

AI和採集生產環節結合,是能夠有效提高影片生產製作的效率的。傳統的編輯是人來做的,當AI和影片採集生產環節結合,我們可以引入智慧編輯技術,快速生產影片。天下武功,唯快不破,應用在影片領域也是一樣的。設想我們很快的生產影片,第一時間釋出到網上,就有機會獲得更多的流量。

第二, 規避監管風險

在影片中引入人工智慧稽核技術,可以縮短影片釋出週期,減少了人工稽核的干預,並且可以更高效、準確的規避監管風險。

第三, 釋放人力 降低成本

因為前兩個階段中,機器和演算法做了很多替代人的操作,所以釋放人力,並且可以帶來成本的降低。


基於達摩院的AI演算法,結合影片雲團隊多年在音影片技術領域的積累,阿里雲構建了影片AI能力——視網膜,並將產品功能劃分為稽核、識別、理解、搜尋四個模組。下圖中的能力,其實是影片雲AI服務的最小單元的基礎能力,實際上可以基於這些能力進行組合,像搭積木一樣,滲透在影片各個場景當中,形成各類匹配業務的解決方案。



接下來鄒娟老師介紹到,採集生產、分發播出、媒資管理是影片生產領域的三大場景,在這三個場景中,阿里雲和客戶一起成長,深入到客戶的實際業務場景中,並結合自身產品規劃,推出了影片AI的解決方案。



在採集生產的場景中,解決方案支援影片拍攝、字幕、剪輯合成與影片拆分;在影片播出場景,除了常見的影片稽核,還有逐漸被大眾認知的版權檢測,以及在實時播出的過程中對影片中目標進行識別檢測;在媒資管理場景中,最經典的是智慧編目與智慧封面,解決方案中還有基於指紋的去重和影片之間挖掘和整理的能力。

我們可以看到,透過基礎AI能力的組合,和結合客戶的實際業務場景,阿里雲已經提供了一些具體的解決方案,下面選取了其中一些典型場景來介紹具體落地。


第一, 影片採集場景——影片萌拍

市場上非常流行的短影片和拍照的APP中,基本都提供了基於人臉識別的技術的貼紙功能。很多客戶希望能擁有豐富的拍攝效果,阿里雲在短影片智慧端的解決方案上就提供了影片實時的處理功能,內建人臉識別與動態貼紙庫,未來還可以付費升級大眼、瘦臉等高階功能。

第二, 影片生產製作場景——精彩集錦

這個是很多客戶都擁有的業務場景,可以利用的AI技術特別多。下圖左側的AI技術結合雲端影片剪輯能力,就可以做出很多有想象空間的事情。比如將人物出現的時間線連線起來,自動生成人物集錦;再比如經典的體育賽事精彩瞬間,前期的素材整理的工作可以透過AI來自動處理;還有專題製作這個領域應用也十分廣泛,比如去年江南的大雪,**媒體從業者希望能快速的從素材庫中找到與雪景相關的影片來生成一個專題影片,利用AI能力,其實就可以根據場景的識別,提取雪景在各個影片當中的位置片段,搭配雲端剪輯能力,比較輕鬆將影片製作出來;同時,影視劇劇集的片花也可以利用智慧摘要、智慧GIF來形成,一些影片片段可以基於指紋和多模態技術去實現。




第三, 影片生產製作場景——ET字幕

還有一個需求量非常大的業務場景是ET字幕,實際上它是基於AI的自動字幕進行新影片創造的功能。首先,傳統字幕生產是非常複雜的,首先得有一個團隊去把語音轉成文字,把時間線拍下來,在多語種情況下,可能還會有翻譯團隊介入,再把字幕匯入到本地編輯軟體進行合成。整個過程非常耗費時間和人力。如果利用AI技術,首先我們可以把語音生成文字,文字直接存在對應的有時間,我們也可以將文字翻譯成所需的語種。同時,透過雲剪輯的工具,對語音識別的結果和人工的結果進行check,人工干預量也遠遠低於傳統的翻譯量。這項技術除了可以應用於離線影片之外,也可以運用於會議直播的實時字幕,基於導播臺切換多路流的時候,每一路流都可以自動生成字幕,產生互動的效果。ET字幕應用於影片生產製作場景,可以方便使用者進行二次影片創作。


第四, 影片生產製作場景——智慧拆條

智慧拆條有兩個好處,第一是加速新聞短影片的釋出,第二是把原始的長段影片拆成各個小片段,進入素材庫從而豐富媒資系統,更方便製作出新的影片來。


智慧拆條是基於AI的多模態資訊進行拆條,目前是支援標準新聞形式,非標準的場景可以快速透過補充資料集快速訓練來實現。
 

第五,影片分發播出場景——內容稽核

進入到影片分發和播出領域,隨著國家對於網際網路影片的監管的加強,內容稽核已經成為非常強烈的需求。最開始的只是鑑黃,到後面的黃、反、暴、恐、都要去鑑別,利用AI技術可以非常快速的鑑別出影片當中不合規的內容。


第六,媒資管理場景——智慧編目

我們先來看下傳統編目的效率,在電視臺做深度編目,一個小時的影片大約需要二到四個小時完成編目,這個影片生產速度目前已經無法達到網際網路的要求了。與傳統的編目相比,AI技術可以從影片自動分類、影片自動打標、人物識別、語音和OCR識別等,自動生成源資料資訊,進入媒資庫,結合NLP、分詞、語義分析、詞性過濾等場景,進入到後續的搜尋和推薦的領域。整個過程靠演算法驅動,不需要人力,相對於人工處理,AI技術能更徹底地對影片進行結構化處理,標註出每個獨立標籤的時間線。


透過智慧編目的方案組合,可以快速生成最基礎的源資料,方便媒資管理。

那麼使用者如何接入影片AI服務呢?


分為三個步驟,首先,使用者需要根據自身的業務場景來選擇合適的產品進行開通,其次,根據實際需求來選擇開通影片AI服務,支援自動處理和手動發起AI任務兩種形式,最後是獲取AI處理結果,接收AI結果回撥或主動查詢AI結果。



在分享的最後,鄒娟老師為現場觀眾演示了整個視網膜系統,使用者上傳了影片,可以進行快速的AI處理。阿里雲影片AI體驗館:
 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29779867/viewspace-2152438/,如需轉載,請註明出處,否則將追究法律責任。

相關文章