解密優酷智慧生產技術,看 AI 賦能內容數字化

阿里雲視訊雲發表於2021-08-24

2021 年,隨著社會節奏的加快,使用者碎片化消費時間不斷增加,當前短視訊的消費使用者規模已超 7.73 億人,短視訊的市場規模超過 2000 億元。短視訊行業發展迅速,但也存在低質內容氾濫,精品內容稀缺的問題。在 7 月 10 日的 Imagine 阿里雲視訊雲全景創新峰會上,阿里巴巴文娛資深演算法專家李靜,發表了《視訊技術再創新,開啟內容數字化浪潮》的主題演講,從短視訊領域的內容生產困境出發,分享 MediaAI 平臺的技術能力及應用實踐,解密優酷短視訊智慧生產的技術,以下為演講內容整理。

image.png

優酷如何開啟內容數字化浪潮?

既然是優酷,就要從長視訊、短視訊以及最後分發呈現出來的所有的視訊形態說起。優酷的數字化也會從視訊的整個生命週期來分析。優酷作為一個長視訊網站,從長視訊最初的拍攝到製作再到完成,我們有內容評估的數字化系統

當一個長視訊拍攝出來之後,如何利用這種版權內容再進行二次的創作,這就是創作內容的的數字化;接下來我們希望生成一些短視訊特效,讓使用者看起來更好看,更有趣,這是特效的數字化。

最後,在終端上使用者拿著手機、平板或者通過電視大屏觀看視訊的時候如何體驗內容數字化的好處?

所以,內容的數字化浪潮要從整個視訊的生命週期來講。

創作要素解構

image.png

第一個是內容評估的數字化。在阿里巴巴文娛有一個北斗星的團隊,是專注於做長視訊的內容評估,它的核心點是希望通過後驗的資料去衡量整個視訊內容的質量,視訊內容或者視訊的生產元素。

其中又包括一些外延的東西,例如導演、編劇、演員、劇本等,這些東西是大家平時能聽到的,但距離自己又很遙遠的東西,這些就是視訊內容生產外延的內容。

外延之外還有內延資訊,包括呈現出來視訊本身它涵蓋的一些人物的資訊、鏡頭的語言以及本身人物的性格等。所有的這些資訊都是基於我們 NLP 語言(Natural Language Processing)或者 CV(Computer Vision)的能力進行解構。

所以當我們有了外延資訊和對於內容的解構之後,我們希望可以通過這些資訊去預測使用者的心理感受或者對內容的喜好度。

從資料側獲得的先驗資料,其中包含了非常直觀的收視率、使用者的互動狀態、評論數,我們希望通過這些資料可以進一步挖掘使用者的心理狀態、生理狀態,以此推動我們核心能力來完成內容的評估。

image.png

內容的評估需要應用到 AI 的能力,一個是 AI 評估,一個是 AI 體檢

什麼是 AI 評估?

一個視訊片段是否好,以前用人來審,需要花費大量的人力。如果用人工稽核預測一部電視劇是否是爆款,會非常非常困難。所以在內容評估上我們利用北斗星的系統,從最開始演員、供應商、IP 等級、導演和編劇的資訊預估這部電視劇是什麼樣的水平。

並且,可以對電視劇裡的的演員做進一步更深的分析,例如他的粉絲價值,整個口碑等。通過分析我們讓平臺進一步做輔助性決策,再利用我們的 AI 技術最終評估這部電視劇到底是什麼檔次。

第二個點是 AI 體檢。

當視訊片段拍完剪輯好之後,用演算法來預測這些片段,哪些是看點,哪些是高潮點,哪些是劇情非常拖沓無聊的點,去尋找使用者可能棄劇的風險點,給出一些建設性的意見,幫助剪輯師進行剪輯優化。這是優酷內容評估另外一個應用點。

在長視訊之後,就是短視訊了。

優酷的《山河令》和《司藤》在放送結束之後,我們如何進一步利用它做二次的短視訊創作?

image.png

短視訊最近幾年來非常火,去年短視訊消費使用者達 7 億多人,短視訊工會和 MCN 數量超過兩萬家,市場規模超過兩千億,在如此龐大的短視訊消費市場下我們面臨了一些問題,高質量的短視訊非常稀缺,大量的低質的、粗製濫造的短視訊充斥在整個市場上。

所以,我們想利用自動化生產的方式代替掉那些質量低劣的短視訊,讓我們的智慧創作達到人創作的水平,這是優酷想要去做的。

所以阿里巴巴文娛研發出了概念級的視訊的解構能力去賦能智慧創作。這是什麼呢?

image.png

當每次提到視訊解構、CV 能力,大家可能都會自然想到一些標籤,對於一個視訊場景,裡面有人物、物體、運動等,在過去 CV 領域這些是特別客觀的標籤描述,但進行視訊創作的時候,這些東西並不是創作者們非常需要的,創作者們需要的元素或者素材是能夠讓觀眾有深切感受的,所以我們重新定義了語義級的標籤,才能夠賦能智慧創作

image.png

視訊解構賦能短視訊生產

圖片1.gif

有了基於概念級的標籤解構能力之後我們可以進行一系列的編輯。

在短視訊中使用濃縮的手段,把這個片段中平淡的劇情或者沒有對話的情景切掉,將對話或者有資訊含量的片段拼接在一起,最終形成完整的短視訊片段。

圖片2.gif

在綜藝的場景,將貓晚易烊千璽的片段進行重新剪輯,做成粉絲向的短視訊,可以取得很好的效果。

以上所有的視訊製作,都利用了我們過去這一年以來所沉澱下來的 AI 技術,所有的視訊都是可以實現自動化的生產。

我們目前整個團隊的智慧生產技術的產能是一天萬條以上,但由於每一條都要經過核審,稍微限制了一下產能。智慧生產的質量在人工稽核的整體通過率是 90%,遠遠高於普通人的或者優酷的 UP 主自己創作的視訊通過率。

視訊濃縮,多風格化劇集快看

現在大家碎片化的消費習慣,長視訊的觀看率越來愈低,所以我們針對這種情況有不同細度濃縮的手段。

如 5 分鐘的短劇,3 分鐘看一部電影等。在優酷看劇時,每個劇前面有一個 15 秒的前情提要,這就是我們自動化生產出來的。

image.png

同時,因為我們具有風格化的解構能力,所以可以提取不同風格的前情提要,對於女生做甜向的前情提要,對於男生來說可能更喜歡悲壯型的,這些提要都是可以抽取出來的。視訊的濃縮就是我們把不同風格的關鍵劇情擇出來,在短時間內讓你瞭解到故事的主線。

image.png

另外一種短視訊的型別也是現在非常火爆的,那就是解說類的短視訊

我們重新定義了所謂的 Text to Video 的技術,把視訊進行解構化,生產視訊劇本解說詞,兩者進行匹配,最後通過劇本生成解說類短視訊。

這裡的解說詞是來自於人工編輯或者現有劇本,視訊的解說 tts 能力是由達摩院提供。目前 tts 已經有 10 多種風格,有不同方言,不同的解說風格。

接下來,還有圖文轉視訊,每個熱點新聞底下都有配圖,我們可以使其直接生成視訊,但生成的視訊不是 PPT,而是結合 IP 版權圖片相對應的視訊內容。

娛樂資訊類的視訊也是一樣,其中的圖片可以直接溯源定位找到我們對應的視訊版權內容。過於複雜的圖片,視訊生產才會直接使用圖片。

內容呈現:特效讓視訊更好看

image.png

視訊的特效,我們會針對於動作、動作的幅度以及主角人物等進行自動化加特效,這裡涉及到的 CV 技術包括:動作檢測,動作幅度檢測,範圍檢測,明星識別,BGM 等。

瑣碎的東西來加特效顯示會非常亂,所以我們對於運動幅度還是有一定要求的,達到某個幅度我們再加特效,相對來說觀看體驗好很多,在 CG 側我們有自己的大千雲端渲染系統,支援不同特效的製作。

圖片3.gif

綜藝特效是目前製作綜藝必不可少的環節,然而製作一個特效,非常費時,我們的目標是讓 AI 發現、標註和凸顯綜藝節目的精彩時刻,讓 AI 製作快速化,批量化

目前,我們基於 CG 技術已經研發出 30 餘種特效型別,《這!就是街舞》就是我們特效技術一個小小的展示。

圖片4.gif

CBA 有這麼一個子彈時刻,在子彈時刻上我們可以加投籃的熱區圖,告訴大家這個投籃命中度是多少,可以輔助大家得到更多的資訊。

圖片5.gif

互動上的新玩法,就要講到端上了,第一個視訊橫轉豎。比如在地鐵上非常擁擠的時候大家都是豎著看的,很少有橫著看的,基於這樣的需求我們也得做把橫的視訊轉為豎的,這裡的難點是確定主體,第二是穩定。

我們還有一個技術是自由視角視訊,這是國內也是業內第一個在 C 端上,使用者可以體驗自由視角的產品,在去年的《這!就是街舞》節目上我們已經應用了這個技術。

https://v.youku.com/v_show/id_XNTE5NjY3OTg1Mg==.html
科技冬奧 冰雪 VR

今年的《這!就是街舞》我們技術還會進一步升級,大家敬請期待。在前段冬奧測試賽上也進行了測試,我們希望用這個技術讓使用者多角度觀看他們想看的體育內容。並且阿里巴巴文娛會不斷創新視訊技術,為大家帶來不一樣的視聽體驗,開啟中國視訊技術內容數字化浪潮。

「視訊雲技術」你最值得關注的音視訊技術公眾號,每週推送來自阿里雲一線的實踐技術文章,在這裡與音視訊領域一流工程師交流切磋。公眾號後臺回覆【技術】可加入阿里雲視訊雲產品技術交流群,和業內大咖一起探討音視訊技術,獲取更多行業最新資訊。

相關文章