阿里雲視訊雲技術專家 LVS 演講全文:《“雲端一體”的智慧媒體生產製作演進之路》

阿里雲視訊雲發表於2020-11-05

2020年11月1日,阿里雲視訊雲亮相 LiveVideoStackCon 音視訊技術大會,阿里雲智慧視訊雲高階技術專家鄒娟,就智慧媒體生產展開主題演講——《“雲端一體”的智慧媒體生產製作演進之路》,以下為完整的演講內容:

在這裡插入圖片描述
大家好,我是來自阿里雲視訊雲的鄒娟,我在視訊雲是負責媒體生產平臺的架構設計和開發工作。我今天分享的主題是“雲端一體的智慧媒體生產製作的技術演進之路”。我的整個分享將會從三個部分來展開。

Part 1 媒體生產製作技術的演進

第一部分是媒體生產製作技術的演進,如果我們把製作放大到整個視訊全鏈路的範圍來看的話。視訊全鏈路是把它抽象成了5個環節,從採集開始,歷經製作管理,最後是分發和消費。

在這裡插入圖片描述

以前到現在,過去這麼多年,視訊技術在整個行業發展了好幾十年。在整個環節的流轉當中,視訊全鏈路的每一個環節以前跟現在都發生了很大的變化。

比如,在採集環節,我們從最開始的採集過程,必須要通過專業的像索尼松下這種攝像機來去拍攝。到現在我們可以用手機就能夠拍攝視訊。在製作這個環節,我們從最開始必須要用專業的非線性編輯軟體和桌面的這樣的工具,或者是像這種演播車硬體導播臺來去做這種後期或者實時的製作,現在,我們可以在手機上一鍵美顏,可以在外部上做線上的剪輯。

從管理來看,最開始傳統模式是我們需要用人工的方式去進行原資料的編幕,然後要歷經很多個稽核的環節,到現在我們可以用智慧思維來構建動態的原資料體系,去做知識圖譜的這個素材之間的挖掘。並可以用智慧稽核去就是減輕稽核的壓力,提升整個流程的效能。

整個發展的路徑是從最開始都是靠人工,到現在我們可以用智慧化的方式去融入整個過程當中來提升整個的效率。

以前製作視訊的都是專業的機構來製作。像電視臺或者電影電視製作公司來製作。到現在每一個老百姓都可以去來製作視訊。整個的趨勢就是從人工到智慧,從小眾到大眾。

最後分發和消費的環節其實是一個。從我們以前很傳統的一個被動的接收,像最早看電視的被動接收模式,到現在我們可以去互動,可以去按需求個性化的去選擇我們所看到的內容。整個媒體生產的這個演進過程,實際上就是從一個很專業的門檻到現在一個普惠的變化。

現在關於製作本身的話,其實我覺得是有兩方面的因素。第一個是手機的廠商,把視訊拍攝的這個技術能夠更大更加深入的在手機上應用起來。所以在手機上我們可以拍攝很高清的視訊。

另一個是抖音快手這種短視訊的平臺,它提升了普通老百姓對於審美的追求,以及對於視訊質量的追求和視訊產量的要求。所以在整個過程當中,製作這個環節越來越重要了。

在這裡插入圖片描述

我們將視野放大到製作這個本身的過程。看一下媒體生產製作模式及它的變遷的過程。最早的時候,其實整個視訊製作是線性編輯的過程,也就是編輯需要一邊放一邊錄。

甚至最早的電影製作的階段是真的要去剪那個膠片的,要把膠片做一個正片,然後用剪子剪開,然後去用透明膠帶粘起來。到了八九十年代的時候,出現了一些專業化製作,視訊編輯可以用一些軟體去做。到中間階段我們可以把製作分成兩個模式了。第一個是現場製作的,然後還有一個是後期製作。

在上一階段的現場製作的過程中,我們一般會用這種如演播室或者是硬體導播臺,或者是轉播車來實時製作。到後期使用非線性編輯軟體來做。整個的生產製度模式是音訊、視訊和圖文,它們是分開來做的。有專門的字幕製作裝置和機器來做。通過進一步的發展,現在這個階段,我們增加了一些雲端製作和快速製作的一些方式。比如說我們的現場製作,可以在直播的過程中實時的去疊加很多的東西,做很多的加工。然後在雲端把硬體導播臺換成雲導播臺,在雲端去實時做個性化的導播的切換。

在後期製作這個環節,我們不再只侷限於用非線性編輯軟體來做。我們可以在雲端使用雲剪輯,然後在手機端用短視訊app製作工具進行視訊製作。生產製作模式發生了很大的變化。生產製作模式是在原有的基礎上疊加了一些新的場景和模式。

整個雲端計算和AI的發展,實際上是補充了很多新的一些生產製度模式,能夠讓內容的生產方式會更加的豐富。在整個過程當中,AI在整個現在整個製作的模式的變遷過程中,它起到的是一個輔助的作用。我們希望未來AI能夠達到智慧創作一些有故事的視訊的階段。

這是我們視訊雲在整個智慧化製作中演進的路線。

在這裡插入圖片描述

我們要知道智慧化製作的需求,第一步要做的是什麼?

首先,我們現在有很多的AI演算法能力,這些能力可以跟製作流程有聯絡的。比如說視覺相關的,像分鏡,人物的識別,視訊的分割,包括一些視訊畫面的主體的識別。還有聲音的語音識別,語音合成,顏色相關的,顏色的分析,還有調色等。還有一些圖片內容相關的。比方說智慧的封面可能是靜態的,也可能是動態的。這些是我們能夠達到的。在製作這個領域可能會用到的一些原子的AI能力。我們第一步是把這些原子的AI能力,通過API化讓大家可以看到。

第二個階段是我們做了一個智慧的體驗館。因為AI的原子能力可能隱藏在後臺,我們只放出API的話,可能沒有辦法給人很直觀的感覺。

所以第二階段我們做了一個體驗館,然後能夠讓很多客戶去嘗試這樣的能力,看到這樣的效果。經過了第二階段之後,我們發現一些客戶他會對其中的一些點會比較感興趣。因為AI的能力是很多的,但是針對不同的場景,可能客戶關注的點也是不一樣的。

我們抽象了幾種場景、幾種應用,從內容的策劃到創作的包裝管理。客戶可以根據在體驗館上提交一些自己的反饋。經過這個反饋我們就可以瞭解到客戶的需求。

於是我們把它變成一個真正雲服務的過程。也就是第四個階段。因為把一個原子的 AI 能力,將它 API 化使我們能夠真正的提供一個雲服務。但中間的 gap 是巨大的。所以我們做了一些體系的構建。我們做了基礎源資料,提供了一些標籤庫、人物庫、鏡頭庫,並且從工程上去做了很多資料的服務體系,包括日誌和監控的體系。把這一套體系都做完,才能算是我們做了一個可提供給客戶的服務。

到了第五個階段的話,我們發現這些服務能夠很穩定的提供出去是遠遠不夠的。客戶可能需要的不是人臉識別的一個結果,而是需要解決實際場景中的問題。這裡可能我們就需要就進入到下一階段。我必須要把這些AI的服務跟場景去結合起來,能夠為生產製作本身發揮作用。這裡我們抽象了一些場景,圖文合成視訊,模板工廠等,根據模板化來生產視訊,像直播剪輯、智慧字幕、智慧配音等。這些場景才是客戶最終需要的。所以在第五階段,我們把整個製作和AI做了一個結合,提供了一波場景化製作服務。

在整個過程中,我們會依賴像媒資系統,像剪輯系統,像版權系統,做一些任務的排程和策略的解析。然後把不同場景的服務去使用不同的策略去實現。所以,可以看到我們整個視訊雲在智慧化的製作過程中,它不是一個憑空想象的過程。AI 的能力,是需要跟場景結合起來,才能真正的為客戶提供服務的

Part 2 雲端一體的架構設計

在這裡插入圖片描述

接下來是我們智慧製作雲端一體化架構設計。

在講這個架構設計之前,我想先給大家分享一下我們之前所分析的一些媒體市場製作的核心組成和核心痛點。在媒體生產製作的過程當中,我們可以把整個的製作過程抽象成四個階段。

在這裡插入圖片描述

第一個階段是創意的過程,這個過程實際上是目前整個過程中我認為耗時最久的一個過程。

首先創意這個門檻就比較高,創意的過程是非常燒腦的。所以創意的過程中,我需要去搜集,去編排很多的素材。那素材的收集和挑選就成了一個難題。如果是在做一個需要多人協同來完成的一項工作的時候,那會發現素材共享也很困難。並且原始的素材,這些素材需要在多人之間流轉,但可能它的體積會很大。檔案大小的問題也是一個很突出的問題。

到了第三個階段是我素材已經大概找好了,但我是需要能夠把它通過剪輯或者包裝的手段去實現我想要的一個效果。這個時候我發現工具用起來非常複雜。

舉個例子:比如說我週五的時候做了一個大概4分鐘的視訊,在創意過程大概花了我4個小時,然後收集素材又花了兩個小時。然後最後我在整個剪輯和包裝的過程,又花了我好幾個小時。所以我從週五中午就開始,最終那個視訊是在週六的凌晨兩點才出來的。

所以工具的複雜,素材巨大傳輸的不便,還有包括協作的不便。這樣的場景可能適用於非個人製作,需要多人去協同完成。

所以我們設計了一套這樣的架構。

在這裡插入圖片描述

我們這套架構的一個核心的點是,它是包括了雲和端的部分,並且整個架構它不是通常大家理解的 SaaS 工具這樣的一個架構,它是雲+端,可以分開也可以合起來的一個非常開放的架構。

首先,中間這個部分是生產工具的部分,這個部分也是大家最容易想到的,因為我們在進入雲剪輯之前,我們都是在用一些客戶端的工具來做。

在整個過程中,我們的工具會抽象成三個元件。其中最核心的是這個故事版的元件,也就是時間線。其中還有兩個子元件,一個是播放器,因為要去在播放器上去預覽剪輯過程的效果,並且還有一些效果編輯的一些元件。這些元件會完成針對視訊音訊包括貼圖,包括字幕的一些各種效果編輯。

最核心的是我的預覽的渲染引擎。這個其實組成了生產工具的一個端側的元件。在這個端的話,實際上我們最開始只做了外部端和移動端。而且最開始的時候,外部端和移動端它的時間線是沒有統一的。在這個過程當中,最終是這樣一個架構。開始可能這個架構比較簡單,我們只考慮了外部端,沒有考慮某外部端跟外部端的協同。現在我們是一個多端統一的架構。

在整個在右側,是我們的一個生產製度的服務端,相當於我們把整個雲服務的體系劃分成了三個元件。其中最核心的是時間線的處理中心。也就是當我拿到了一個時間軸,這個時間軸上有很多的軌道素材及效果。我需要對這個時間線進行處理。因為有可能我拿到了一個時間線,是一個我的客戶直接通過 API 請求提交過來的時間線,那麼這個時間線的引數可能會有很多的問題。

如果我簡單粗暴的把它拒絕掉的話,那麼整個體驗是比較差的。所以我們在服務端做了很多的容錯校驗和補全,以及預測的機制,能夠讓這個時間線呈現給客戶所預期需要的狀態。最終通過模板工廠降低整個門檻。渲染合成是最終的硬實力。我們支援多層的視訊,然後多軌的混音,並且支援智慧的引擎去排程到不同的底層,有特效引擎去用來做視訊的渲染。

可以看到 API 的左側、API 的右側的部分(上圖中),分別是端和雲的部分。整個的設計是這兩部分可以獨立來使用的。比方說我可以只使用外部 sdk 的部分,我也可以只使用雲端的部分,或者直接不使用外部 sdk,直接通過請求來去呼叫。

當然也可以在一個 SaaS 化的工具上,把這兩個部分去融合。這個是我們一個雲端可分可合的架構設計,它的設計初衷是,不是一個純 PaaS 或者是一個純 SaaS ,或者是一個只是端和雲的結構,它是一體化並且可以拆開的一個結構。在這個結構的上面,是我們基於結構包裝出來的一些服務和頁面。這部分是可以由阿里雲來做,也可以由我們的客戶來做。最終上面的是我們的一些場景。我們可以把這些技術抽象成一些場景,能夠在這些場景上用到我們這些技術。

最左邊的這一塊實際上是我們後來加上的,在開始我們做第一版的時候,是沒有 AI 部分的。把 AI 的這個部分加上來,是為了能夠智慧的對時間線做一個編排。對時間線的編排,我們把它抽象成了三個場景。

第一個場景是創作類的場景。第二個是增強類的場景。第三個是替換類的場景。在這三個場景當中,我們可以對素材去進行分析,拿到一個初步的時間線,並且將這個時間線跟人工的時間線再去做一個結合。生產一個最終的時間線。

所以可以看到在整個智慧製作中最核心的關鍵點是關於時間線的設計。因為時間線它描述了多個軌道,然後多個素材按照一個創意,去編排、做多種效果融合的這樣的一個產物。

所以後面我們要講的是一個我們對時間線的設計。

在這裡插入圖片描述

時間線的話,其實業界是沒有標準的,不管是專業的還是雲端的,都是沒有標準的。

我們來看一下專業的非編,像 3A(Apple/Avid/Adobe),每一家都有自己定義的時間線結構。這些專業非編它的設計都是多個軌道的設計。首先它們肯定是音軌,視軌。

視軌是有多個軌道,並且它的素材和效果的設計都是各不相同的。當然也有傳統EDL的這種設計。這種設計的話相對來講是比較簡單的,它只有單軌,只定義的素材,但是它沒有定義效果。因為效果在不同廠家之間的描述是不一樣的。我們基於這樣一個現狀,我們做了雲加端可以複用的設計。我們是在時間線的核心四個要素,就是軌道、素材、效果和舞臺中間進行一個取捨和平衡。

首先來講特效這個東西是比較複雜的。在一些專業的設計當中,特效軌道是獨立出現的,很有可能是獨立出現的。在我們這個設計當中,特效軌道不強求獨立出現,它可以作為視訊素材的一個屬性來出現。這樣是為了降低雲端使用者和網際網路使用者的使用複雜度。

同時我們會保留軌道素材的設計,然後軌道素材所指向的原始視訊僅僅是一個引用的關係。這樣的話是為了增加應用性。否則的話整個時間線的設計會非常的臃腫。

另外,我們為了考慮後面的可擴充套件性,我們對整個時間線做了一個多軌的設計。因為最開始,很多智慧製作在設計的過程中,都是單軌。但我們做第一版設計的時候,就考慮了一個多軌。因為多軌的設計可以保證之後程式迭代的過程中,不會因為打地基打的不好,而在原有基礎上做顛覆性的改造。

所以我們在開始就把這個軌道按照素材型別去做了一個多軌的設計。最後,我們對於輸出的畫布,也就是輸出的舞臺的設計,是一個自動化、個性化和自定義結合的設計。既可以在不設定佈局舞臺的時候,能夠根據原始素材的解析度做自動的輸出,也可以通過指定佈局的方式做自定義的佈局。

因為雲端的設計需要考慮很多,要考慮很多不同的場景需求。可能絕大部分場景是 4:3、16:9 或者 9:16 或者 3:4 這樣的需求。還有一些特殊的場景,它的解析度可能是需要自定義的。所以我們整個的設計實際上是在軌道效果舞臺和素材中間去進行了一個取捨和平衡。

(圖中)左邊的 timeline 的四個要素,是我們整個設計的核心元素,也就是時間線抽象成四層,每一層都是逐層遞進的。可能一個 timeline 有多個軌道,每個軌道有多個素材,每個素材有多種效果。效果可以由人編排,也可以由機器編排。最後輸出到舞臺也好,畫布也好。

這是視訊最終輸出的一個形態,這四個要素是時間線設計的核心。

在這裡插入圖片描述

前面說到的時間線可以大家可以想象一下,它的整體是比較複雜的。如果我自己要組織這樣一個時間線的資料結構的話,那麼我的工作量會非常大。為了降低時間線使用的門檻,並且同時保證專業性。我們做了一個模板工廠的設計。

在模板工廠的設計當中,我們會抽象出一些模板來。

這些模板是相當於把時間線完整的部分,或者是時間線一小部分進行抽象,然後用引數的方式去指定。在整個模板的設計過程中,支援巢狀或者組合。比如說做的一個比較炫酷的視訊,需要素材的編排,包括效果的切換。或者新增些動圖或者字幕,那我們可以用對應的模板去做巢狀和組合式的設計。

這樣可以最大的利用模板的成果轉化。這個模板工廠它核心解決的問題是:降低了使用時間線的門檻。同時還有一個最重要的,解決了製作創意的門檻。這兩個設計為整個製作領域的專業度的提供保障。

模板工廠真正體現在包裝和使用上。能在保證專業性的同時降低門檻,把整個製作設計普惠到每一個想要製作視訊的民眾身上。這兩個門檻是我們認為在整個製作過程中最核心的門檻。

基於前面的一個結果,這是我們設計的一個智慧媒體生產資料的資料流。

在這裡插入圖片描述

因為前面的架構比較乾澀,是一個純技術架構。那最終資料是怎麼流轉,怎麼能從最原始的素材到最後合成出我想要的視訊呢?

它的流程是這樣的。我的左邊是素材,我的素材和我想要製作的視訊是一脈相承的。原始素材是有很多的型別的,可能會有音檢視文,有一些副文字,甚至會有html 程式碼片段。這些都是我的素材庫。

到了中間的過程,是最核心的智慧生產製作鏈路。首先我的素材會經過一系列的AI處理,拿到結構化的資訊。

在拿到結構化的資訊之前,會先對素材進行處理。比方說會先去分析這個音視訊的流資訊,包括一些尺寸資訊格式資訊,這些資訊會輔助中間智慧生產過程中的輸入。之後拿到這個預處理的資訊之後,會對整個智慧化的這個過程去做一個分析。這裡的分析是多維度的。輸出的可能是視覺層面上跟時間軸相關的,或者是跟時間區間相關的,也有可能是語音方面的,還有可能是一些顏色的配比,還是實時過程中摳像出來的畫素集。然後拿到這些經過處理的資料之後,我就可以去跟工具結合製作了。

當然這些工具並不是每種工具都會用到每種能力。但是這些能力都可以作為這些工具的輸入。工具的也是有多種的。包括移動端及web端、通過模板化批量化來生產的,以及通過AI的方式來輔助的。最終我們會有一系列生產效果。

圖中智慧生產製作右邊這一部分,就是在製作過程中最常用的效果的抽象概念。

比方說我們會用到多層的影像的疊加,這個影像可能是視訊,有可能是圖片,會用到多軌的混音調音,用到圖文在同一個軌道上的混編,會把素材的效果去做一個濾鏡或者轉場,會對一些直播流做前景人物或者主體的實時的摳像,也可以做智慧的字幕。還可以做智慧的集錦。也就說通過對視訊的分析去提取出這個視訊的精彩片段做一個集錦。

當然還有一些綜合的製作過程,就是需要人工和智慧去結合,來完成整個製作過程。

最終輸出的話,實際上我們也把它抽象成三類。

  • 第一類是用於分發播放的成片。成片我們可以把它總結為創作類,集錦就是創作類。
  • 第二類是增強類:視訊本來沒有字幕,通過語音識別加上字幕,這是屬於增強類的。
  • 第三類是替換類:主播直播時的背景不太美觀,把背景替換成較吸引人的背景。

這個是輸出成片的3種型別,當然還可以輸出的是素材,輸出的是素材時候,輸出的內容是可以用於二次製作的。

這些素材其實是有的時候是比成片更為寶貴的。因為它是可以反覆利用的。我們這套系統也能夠輸出素材。

最後我們在技術上並不是跟專業非編對立的,我們和專業非編是技術上合作的關係。

我們的模式相當於是網際網路方式的新媒體剪輯。我們需要專業場合的時候,可以在雲端做一個粗剪,然後線上下去做一個精編。這樣可以把時間線去做一個交換,能夠把整體的效果達到最優。

所以說我們在整個媒體內容消費過程中,得到一些反饋的體驗,又會回饋到AI的體系。在資料上成一個閉環。推動這些演算法繼續迭代。同時的話我們生產的內容也會回到媒資庫。回到媒資庫之後,這些內容同時也會作為下一次視訊製作的一個輸入。大家可以看到阿里雲在整個智慧媒體生產製作中,設計的中心理念,是以生產製作為核心、AI 輔助。

Part 3 生產製作為核心、AI 輔助

在這裡插入圖片描述

但是我們為什麼還需要 AI 呢?為什麼還那麼重視 AI 呢?這張圖比較簡單,但是,是一個我們實際上在思考這個用 AI 來輔助我們做生產的一個思路。

在這裡插入圖片描述

當最開始我們最原始的階段是所有的東西都是由人來去編輯的,時間線的編排也是明確的,完全由人來主導。但是有一些場景是人比較費時間來主導或者不那麼容易主導的。

舉個例子,比方說幼兒園監控視訊。家長說我特別想看到我們家小孩在幼兒園的表現,那從監控視訊一幀一幀找自己小孩是非常費勁的。海量的視訊要去處理的時候,會發現通過人已經沒有辦法去處理識別了,所以產量會很低。

當我們從人工編排方式要進化到大規模化的製作方式時,以及需要大幅度的提升自我效率的時候,我們勢必要通過雲端計算和 AI 相結合的方式來做這件事情。

在整個過程當中,我們是要使用 AI 的能力。我覺得這個也是AI最大的魅力和價值,就是它能跟雲端計算很好的結合,能夠為規模化製作以及海量素材分析提供幫助,提升媒體制作的一個效率。

接下來我會從三個實際的例子,來跟大家分享一下 AI 技術跟生產製作流程的一個融合。

在這裡插入圖片描述

這是一個我們一個在雲上轉播的一個例子。在這個例子當中,我們可以看到傳統的轉播可能在現場有很多機位,有很多鏡頭,拍下來很多的視訊素材。

但是我們在電視上看到的就是那幾個頻道,可能很多的視訊素材被浪費掉了。我們在電視臺看到的,是現場導播給我們生成的這樣的畫面。但實際上還有非常多的視訊素材沒有利用上。

因此,我們做了一個雲上轉播的一個架構。技術邏輯是這樣的,我們首先還是會把視訊的直播流,通過直播中心儲存下來。然後我們用雲端的導播建立多個導播的例項,在每一個例項可以使用不同的視角去做我想要的導播的場景。

雲轉播因為可以在網際網路上分發,所以它對於原始直播流和素材的利用率是非常高的。我們也可以把這個視訊收下來,進入這個直播的錄製的過程。對這個實時的直播流用AI進行快速的處理。

在冬奧會轉播之前,青奧會的演練有一個例子。我們當時是做了三種體育賽事的演練。針對這三個賽事,我們對運動員的運動軌跡進行跟蹤,做雲端的分析。然後把每一個運動員每一段運動當中精彩鏡頭通過AI處理的方式,利用雲端剪輯的方式快速的生成素材,並且把素材又轉推成視訊流,再回轉到雲導播的輸入,這相當於是對單邊的直播流的收入。

另一方面是我通過實時技術去自動生成了這種回放集錦。並且在鏡頭之間還可以加一些效果。那這個時候其實如果不考慮完全實時性跟硬體導播臺的差別的話,其實整個生產製作的模式已經跟傳統的模式非常接近了。

我們的魅力就在於說,我們可以把非常多的直播流的利用起來。尤其是在一些賽事上,有些國家的運動員可能並不是前三名,可能這個播放鏡頭沒有給到他們太多。但是這個國家的民眾會非常關心自己國家的運動員。那這個時候我們可以通過這樣的技術去讓每一家機構都是一個導演,然後都能夠去做整個轉播過程,從直播流中導播自己想導播的畫面。所以雲直播的流程是把AI的能力和實時製作及離線或後期製作進行連線,同時能夠大規模的利用上我們的系統,並且能夠讓所有的直播流都能發揮它的價值。

這是我們在雲直播技術上的一個應用。

在這裡插入圖片描述

這個例子也是用的非常多的。我們在做一個片子的時候,我們不可能每個節目都是用完全不一樣的創意。當我需要想複製我的創意的時候,但是我又想我複製的不那麼的生硬的時候,我會非常需要這種的場景,就是一個成片模板化的製作,就是我的素材庫裡的東西是很多的。

前面也有講到我們的素材庫,可能是直播流,也有可能是離線的視訊檔案,還有可能是一些純音訊,可能是人聲,可能是背景音樂,然後有可能是一些字幕。這些字幕可能是外掛字幕也有可能是一些橫幅文字。然後還有可能是一些各種各樣的圖片,包括一些文字資訊。甚至是一個程式碼段。例如 html 的程式碼段,或者是我程式碼當中的 canvas 的一個結構體。這些其實都是我們用於製作的素材。通過這些素材,我們怎麼才能把這個節目製作出來呢?

我們可能還需要一個模板庫,這個模板庫是一個庫的概念,我們可以在模板庫利用設計師生態圈,設計師會在裡面設計出很多的模板。但是我們其實並不需要用 AI 的方式去對整個的模板化的製作去進行一個進階。但進階在哪裡呢?也就是說我們並不想原封不動的套用這些模板而不做一點變化。

比方說現在設計師設計了一個泡泡彈來彈去的背景,需要跟我的前景圖片進行一個融合。這個泡泡他設計的時候,設計師只會設計配色和一些運動軌跡的一個變化。

但是我實際在做合成的時候,如果我每一張圖片都用這個背景去合成的時候,可能會顯得這個背景跟我的圖片它是不協調的。

那我怎麼才能去用 AI 的手段去來做這樣一個改進呢?

就我們可能會去分析這個圖片的色彩,並且去分析整個圖片的調性和這個模板的運動軌跡的變化。通過分析的話,會把當前的素材,它所依賴的特徵跟這個模板的引數進行解析的分割。然後能夠把整個引數級的變化跟我素材的特徵去進行結合。這樣的話我就可以把基礎的模板裂變成很多個性化的模板。這個個性化的模板可以相對應於每一個不同的素材。通過這個個性化的模板,再結合素材集。那前面的左邊是說我的完整的素材集。可能我的素材集是一個海量的,我到底要用什麼樣的素材來做我的這個視訊呢?那這裡可能有一個挑選的過程。

挑選其實是包括兩部分,一部分是搜尋,一部分是擷取。搜尋的過程是AI能夠深度參與的一個過程。可能會根據我的場景去定製,AI 分析可能是基於內容的,也有可能是基於關鍵詞的,甚至是基於知識圖譜的。然後搜尋之後我到底是擷取這個視訊中的哪一段。這個是根據我的主題和視訊內容選擇的。如果我是做一個人物相關的這個視訊,那我可能獲取的素材是跟人物相關的這樣的片段。如果我想要的是一個比如說動作類的,像賽事類的,我要做一個集錦,我可能需要關注的片段是一些跟運動畫面,或者是跟一些鏡頭相關的一些東西。

我們通過兩個部分的結合,就是從海量的素材庫去搜尋到每次製作需要的這個素材集,並且用AI的方式去把一個模板能夠裂變成個性化的模板。之後,我們把這個模板和素材集然後去結合。這個就是我們的原材料。最終我們通過這樣一個結合去構建時間線。

時間線是最終合成的一個依據。整個時間線通過合成和渲染,就能夠渲染出視訊或者一些泛媒體的影像.這個是我們就是在成片模板化製作的一個例子。它的核心實際上就是說我的每一個部分都是可以用 AI 的方式去取代的。運用 AI 的方式不只是用於到初步篩選素材,它還可以深度參與到整個製作過程當中。

在這裡插入圖片描述

第三個就是剛才前面說到的,我們有時候並不是只是為了製作成片。而我的目標是製作一些素材。這些素材本身又是可以被反覆使用。因為製作素材和製作成片有很大的不同。

就拿製作成片來說,我會用到非常多各種各樣的效果,來保證我成片在視覺上的衝擊力。但是我做素材的時候,我可能儘量的保證一個 clean 的結果。我可能並不希望加過多的效果的修飾。我的核心在於這個視訊當中的哪些素材、哪些片段是能被重複使用的。

並且,我可能會根據我重複使用的一些原則和基準來去做我的挑選策略。我的素材源還是兩類,大概分成兩類,直播流和視訊。然後經過視訊智慧生產的一個預處理,可以看到這個關注點跟原來成片製作是完全不同的。

我原來成片製作可能會關注各種效果,各種編排,各種多軌的一個疊加。但是我在做素材的時候,我關注的是這個視訊本身鏡頭,這是一個重要的因素,我需要對鏡頭去進行非常嚴格的分析。這個鏡頭語言最核心的兩個要素,就是景別和拍攝方式。

景別分成遠景、全景、中景、近景和特寫。每一種型別的鏡頭它的用法也是不一樣的。我可能會通過AI的分析去識別出這個鏡頭的級別,並且把這個鏡頭的級別會對畫面進行一個標註。

這個標註不光是標註在時間軸上,還要標註在視訊畫面上。另外一個非常重要的維度就是拍攝方式。

因為我們在做不同型別視訊的時候,可能關注的拍攝方式不一樣。如果我們在做一個故事類節目的時候,我會非常關注拍攝方式,就是鏡頭移動順序不能錯亂。把人的關注點按照順序的方式去銜接起來,而不是整個畫面去滿世界的跳。所以我們需要去研究拍攝方式,就是用固定和運動的拍攝方式去分析鏡頭語言。然後能夠把不同片段的拍攝方式能夠提取出來。但是在有些場景,我們恰恰需要把這些拍攝方式去進行一個綜合。

比如我們在做一個非常炫酷的音樂或者跳舞節目的集錦的時候,我就要故意製造這種錯亂的拍攝視角,從而產生一個炫酷的效果。

所以我們需要根據場景結合來分析鏡頭語言,把這個鏡頭能夠識別好。然後根據不同的景別和拍攝方式把把標籤打好,這樣的話才能夠為後面再次的節目製作和視訊製作做準備。

同時,我們仍然需要一個基礎的庫。比方我們需要資料庫,需要鏡頭的標籤庫,還有鏡頭本身的視訊庫。以及因為人物創作是整個節目製作的非常關鍵的點。

所以我們還會構建一個人物庫。基於這些基礎庫的構建和生產預處理,以及鏡頭的分析。我們就能做素材智慧時間線的一個處理。然後我們經過素材的分析之後,我們會拿到素材的級別結果,拿到拍攝方式的結果,拿到內容特徵提取的分析的結果。拿到這個東西之後,我們可以開始構建時間線。

在時間線的構建當中,因為我們可能在在中間這個階段拿到的結果是非常零碎的。在這個零碎結果中,最終到底哪些畫面才是我們能夠複用的素材呢?那這個時候實際上是需要結合場景去定義一些詞庫,或者一些特徵庫的。

基於這些特徵庫,我們才能夠生成需要的素材時間線的結構。這個素材時間線的結構拿到之後就可以去做素材真正的拆分了。有可能我們從新聞聯播的一期完整節目,能夠拿到一些有價值的片段。這些片段在傳統行業被叫做所謂的通稿,或者是 clean 素材的概念。這個過程實際上就是我們整個智慧製作相比於生產素材的一個不同。

在這裡插入圖片描述

所以我們舉了三個例子,AI 能力是如何在不同的場景去跟我們的製作過程結合的。

最後總結一下我們的視訊雲智慧媒體生產製作的技術層次。在我們的技術層次的設計當中,(圖中)右邊最下面是最核心的,就雲製作的能力。

這個雲製作的能力,實際上是一個硬通貨和核心能力。像剪下拼接多軌疊加多軌混音,圖文混編多幀率,然後多位元速率的一個自適應融合,還有字幕的能力,還有動圖的能力,效果渲染濾鏡轉場等,這些都屬於雲製作的部分。

這是整個智慧製作的一個最核心的部分,如果沒有這些東西的話,不管是AI也好,包裝也好,其實都是沒有根基的。

在製作能力上面是我們設計的包裝能力,包裝能力是把製作能力規模化的一個技術層次。第一個看點是規模化,通過包裝,可以把一些東西提煉出來,抽象出來,而不是每一次都零從開始製作。這是包裝能力的第一個要點。包裝能力第二個點是它可以用 AI 的方式多樣化。

比方說我有一些模板,通過 AI 包裝,可以把一個原始的素材裂變成多種多樣的效果。還有就是元件化。當我把包裝能力做成工具,或者做成sdk的話,這個是元件化的效果,這也是我們能夠快速化和批量化的生成視訊的一個能力。相當於製作專注在核心,而包裝是專注在應用。

圖中左邊可以看到是 AI 的部分。

AI 在我們整個的體系當中,它是一個用於做智慧化和規模化的一個抓手。就是它會深入的融合,在雲製作和雲包裝的能力的每一個模組當中。

最上面這一層,是我們整個技術體系的生態部分,就是我們要做多端的融合,並且要搞定最後一公里的問題。

在這個過程當中,我們把這些能力有很好的一個出口做一個生態。然後我們對這個智慧化的研究路徑也有一些展望。

最開始我們批量化做視訊,可能會用模板化的生產,或者用AI輔助製作和基於簡單規則的就是內容生成。

這些是前三點,是我們已經做到的。第四點是還我們還沒有做到的。是基於場景理解模板的推薦。現在的模板還是人去挑的。以及基於視訊畫面分析的 AI 的濾鏡,現在無論是模板還是濾鏡,其實都是由我們自己來指定的。

我們希望有一天能夠用 AI 來做到這些事情。我的一個終極設想,希望未來 AI 能夠真正獨立去做創作,去生成有故事的視訊。

在這裡插入圖片描述

最後是我們對智慧製作這個體系未來的一個看法。

我們認為未來在製作這個體系,它一定是兩個方面都並重的。

首先是我們會越來越專業。從我們對於視訊的需求來看到,最開始網際網路上做視訊是一個單軌制作,現在可能也是多軌、多種效果,多個素材,多種型別的一個製作。

整個的視訊製作的鏈路會越來越專業。但是在專業的同時,我們覺得整個視訊製作的參與者是越來越多了,這是一個普惠的過程,專業和普惠是一對看上去衝突,但又不矛盾的點。

通過我們的核心設計,以及打地基過程,讓整個的行業包括AI的能力進一步提升,使未來專業化製作成為可能。

普惠是我們通過各種各樣的工具,通過工具化的生產,能夠降低創意和使用的門檻,能夠讓每一個人進入到製作過程中去做自己想要的視訊。

這個是我們整體對這個未來的看法。那具體到點的話,我們認為,首先第一個當我們端跟雲協同製作的時候,會有一個所見即所得,但是渲染效果不統一的問題。我們希望未來的話,端上的製作和雲端的製作,它的效果是一致的。這是未來的一個趨勢。這裡可能會用到雲渲染的技術。現在的實時製作和後期製作相對是割裂的。我們希望未來這兩個部分是能夠完全融合的。

第三塊我們認為隨著螢幕的增大和 5G 的到來,超高清的製作已經已經在一些場景去嘗試,同時專業製作也是一個方向。

最後第四個一個普惠的過程,後面的進化過程可能是全民創作。視訊的製作技術已經不再是所謂的高階的技術,而是一個普惠全民的技術。能夠讓每一個人都能製作自己想要的視訊。最後,我和很多專業製作領域的同行聊,他們也是希望 AI 能夠真正的進化為能夠創作有故事的視訊這樣一個階段。

今天的分享就到這了。謝謝大家。

在這裡插入圖片描述

如果你也對智慧媒體生產群感興趣,歡迎加入微信交流群:點選掃碼

阿里雲視訊雲技術公眾號分享視訊雲行業和技術趨勢,打造“新內容”、“新互動”。

相關文章