AIGC下一步:如何用AI再度重構或最佳化媒體處理?

發表於2024-03-01
讓媒資中“沉默的大多數”再次煥發光彩。

鄒娟|演講者

編者按

AIGC時代下,媒體內容生產領域隨著AI的出現也湧現出更多的變化與挑戰。面對AI的巨大沖擊,如何最佳化或重構媒體內容生產技術架構?在多樣的應用場景中媒體內容生產技術又有著怎樣的實踐效果?LiveVideoStackCon2023深圳站邀請到阿里雲智慧資深技術專家鄒娟,與大家分享阿里雲影片雲的媒體內容生產技術實踐。

策劃 撰寫 / LiveVideoStack、IMMENSE

《AIGC時代下阿里雲影片雲媒體內容生產技術實踐》主題分享,包含如下四個部分:

01 AIGC時代的媒體內容生產技術架構

首先給大家分享阿里雲影片雲媒體服務的頂層架構設計,這為AIGC的快速落地奠定了基礎。媒體服務整體架構分三層。

最底層是雲原生底座,阿里雲影片雲構架在分散式雲原生框架之上,影片雲與我們的客戶一樣,自身也是雲的使用者,可以獲得雲端計算IaaS層彈性、按需按量、規模化的紅利。

中間層為媒體基礎層,即媒體服務的底層技術核心。

這一層分為三個部分:左側的演算法區域包括音影片編解碼與增強演算法、特效渲染演算法、視覺AI演算法、3A演算法等。中間的媒體引擎是執行各類媒體處理任務、AI任務的發動機,負責整合演算法及工程最佳化,設計統一的媒體處理框架,實現媒體處理Pipeline的高質量執行。最右側為媒體計算排程,與媒體引擎緊密配合,把不同型別的媒體任務排程到最合適的叢集和機器上,形成效能、畫質、成本的綜合最優解。

頂層為阿里雲影片雲提供的PaaS媒體服務——PaaS服務層,媒體服務PaaS以媒體內容生產為核心,其產物自然也是媒體內容消費的輸入。例如轉碼輸出的多格式多位元速率檔案/流,大多為播放服務。PaaS服務層的模組劃分思路即按照音影片生產消費的資料流向及模組依賴關係,劃分為音影片採集-媒體處理-生產製作-媒資管理-媒體消費5個部分,其中“媒體匯聚”代表入方向,“媒體消費”代表出方向,“媒體處理”和“生產製作”用於媒體資料的內部處理和二創,“媒資”則是媒體資料/業務流程/生命週期策略管理的底座。

早在2017年,阿里雲影片雲就提供了影片AI相關服務,比如智慧封面、影片DNA、智慧稽核等,那時這些服務以原子能力的形式提供,獨立於影片雲的媒體處理、生產製作、媒資服務之外。但隨著AI能力的豐富,很多AI服務的輸出產物就是音影片(比如影片集錦),或者需要與媒體處理同步進行才能有更好的效果(比如影片舊字幕擦除後疊加新字幕)。

因此技術架構迭代的第一步就是考慮媒體底層的AI能力融合。AIGC時代,媒體底層需要靈活融合各種AI能力,這種融合並不是業務層工作流的Activity編排,這樣一般會引入多次編解碼,帶來畫質與效能的損耗。我們選擇把AI處理直接融入音影片處理pipeline,在Frame層面做最細顆粒度的編排。

迴歸到媒體業務流本身,在AI時代下,媒體服務PaaS可以在哪些方面最佳化?其實媒體業務流本身沒有太大變化,變化的核心是使用了AI,希望AI能夠模擬人類的思維,包括理解人的意圖以及正確執行人的指令。當技術發展到一定程度,AI可以模擬人類的思維模式,場景就會被重構。阿里雲影片雲技術架構的迭代也會圍繞這一思路展開。

阿里雲影片雲媒體內容生產技術架構在AIGC時代的迭代,也將從內容生產的三駕馬車--媒體生產製作、媒資管理、媒體處理三個板塊開展。

生產製作板塊,我們的迭代方向是從單個製作環節使用AI技術轉向全智慧製作。除創意依賴人之外,AI可以參與到生產製作的其他環節,包括素材的挑選和生成、時間線的製作編排、以及效果渲染的大模型演算法最佳化。

媒資板塊的傳統實現需要較多人工投入,例如專業媒體機構的編目軟體需要大量人工編目資料錄入的工作,阿里雲影片雲設計的新一代媒資系統能夠像人一樣理解媒資內容,使用自然語言進行搜尋與管理,併為下一步的挖掘與圖譜分析打下基礎。

媒體處理的迭代方向聚焦於效果的極致最佳化。媒體處理可以抽象為單入單出的模型,基於此模型實現最大程度的效果最佳化,包括高畫質晰度的增強場景,低清晰度的重生場景,使用音訊的雙聲道裝置獲得全景聲或環繞聲效果的場景等。

文章前面提到,媒體任務的最終執行會收口到媒體引擎層,這需要媒體引擎把AI處理融入媒體處理Pipeline。隨著AI能力的日漸豐富,阿里雲影片雲的媒體引擎也進行了架構最佳化與技術升級,在AIGC爆發前完成了媒體底座的迭代,成為融合AI與媒體處理的一體化媒體引擎,為影片雲快速引入並落地大模型演算法節約了時間,接下來將分享一體化媒體引擎的關鍵技術。

02 融合AI與媒體處理一體化媒體引擎關鍵技術

大模型的引入帶來龐大的算力消耗,對媒體引擎效能的挑戰尤為突出,我們設計的高效能智慧媒體引擎的要點總結為以下三個方面:

第一,架構方面,做分散式處理,提高多機並行。 這裡的分散式處理並非表示將海量任務分散式排程到不同機器,而是指單個任務的分散式處理架構。當任務的複雜度較高時,將其不同環節分散到不同的機器上,解決單機無法滿足任務算力的問題,或者任務的特定環節需要指定機型的問題。

第二,程式方面,統一pipeline。 影片雲的ToB模式,要求我們支援不同客戶的多種場景和應用,統一pipeline可以減少各場景的計算冗餘,同時對底層演算法庫和媒體處理框架的統一則讓引擎層執行不同任務具有更好的魯棒性。

第三,演算法方面,阿里雲影片雲實現軟硬一體的最佳化,透過CPU、GPU以及AISC編解碼加速,支援雲上各時期的多種機型規格,同時從演算法和工程兩個維度最佳化單幀處理效能,在大模型算力緊張的時代最大程度的利用現有算力。

以單任務分散式處理——超高畫質影片AI處理為例,1080P超分到4K使用了深度學習演算法,那麼將該任務排程到高配GPU機器上執行,可能會導致機器的CPU空閒而不利於資源的整體利用。阿里雲影片雲的媒體引擎支援對單任務進行分散式處理,可以將解碼、前處理、編碼、Merge放在不同的機器執行,也可以將單任務切片成多個子任務再進行分散式處理。比如超分處理可以放在GPU的機器上,解碼、編碼以及Merge可以排程到另外的叢集,對於是幀級別傳輸的場景,媒體引擎會在pipeline內部進行媒體資料的YUV交換和無失真壓縮,從而實現單任務多環節計算資源的最優搭配。

媒體引擎會接收到各種各樣的媒體計算任務,接上一個技術點“單任務的分散式處理”繼續探討,如何判斷哪些任務需要走分散式,哪些任務單機執行反而效率最高呢?阿里雲影片雲媒體引擎設計並實現了Worker-Brain決策大腦,對單任務消耗的資源做精準預估,自動判斷程式和運算元所需機型,對任務是否切片和運算元編排流程進行決策,同時在任務執行時自動根據演算法複雜度進行升降機,消除cpu毛刺,實現穩定性自保護機制。

另外,阿里雲影片雲在媒體引擎層統一了媒體處理任務框架。由於直播、點播、生產製作以及雲剪輯等業務的發展階段不一樣,存在演算法依賴庫不統一或版本不一致的歷史問題。媒體引擎將自研演算法依賴版本進行了統一,用相同的媒體處理框架支援不用的任務型別,甚至在一些版本上實現雲和端的統一。宏觀來講,阿里雲影片雲將各種業務資源並池,不同的業務共用異構的資源池,資源池之間也可互備來保證整體服務的穩定。

這是綜合應用“單任務分散式處理”和“Work-Brain智慧決策”的全智慧媒體處理引擎實踐,以“數字人摳像並且將其與雲剪輯融合”的場景為例,左邊是素材和時間線涉及的原材料,時間線可能需要對素材做ASR,同時還存在數字人的生成與同步、人聲克隆、摳像背景替換、畫質增強等要求。整個任務相當複雜,且涉及多個運算元,透過Worker-Brain進行資源評估後,該任務既需要將pipeline的不同環節拆到不同的機型執行,進行單任務分散式處理,也需要將長影片切片,對任務進行並行處理。而另一個標準轉碼任務(比如單入單出1080p 264轉480p 264)經過Worker-Brain決策後,在單機完成整個任務的執行是最優的。

最後分享軟硬一體的異構計算。CPU加速相對比較傳統,涉及多執行緒的幀間最佳化、幀內最佳化、指令集最佳化以及資料讀寫最佳化。結合到AI異構場景下,經常需要考慮CPU與GPU之間的關係,以前大多選擇一臺CPU+GPU的機器完成整個任務,現在可以基於前面提到的架構,把單個AI任務分離,把CPU和GPU的部分排程到不同機器上處理再合併。

阿里雲影片雲還支援各種異構計算,包括CPU/GPU/AISC等,比如ASIC的硬解硬編需要平衡效能、畫質、延時、成本等多種指標,還需要考慮穩定性因素,因為單臺AISC伺服器一般擁有更大的吞吐量,出現異常受影響的任務數更多,這時還需要考慮主備模版的兜底和任務的降級切換策略。因此媒體引擎層的異構計算需要統籌CPU、GPU、ASIC的算力和特性,將雲端資源充分利用起來。

03 媒體內容生產AIGC技術實踐

第三部分是阿里雲影片雲關於內容生產AIGC的技術實踐。

在AIGC爆發前,使用者已經開始使用AI,AI相關話題已經“火”了好幾次,阿里雲影片雲的AI服務也上線超過6年。

此前使用者更多是在單點環節使用AI,例如圖上展示的生產製作和媒體處理的能力,在AIGC爆發前,許多廠家、開發者、創業者都使用過,此類能力大多針對特定場景,要進行規模化時,只能進行一些微調,如果不針對特定場景,則存在效果泛化性不夠導致準召率不高的情況出現。

在AIGC時代到來後,阿里雲影片雲重新審視了媒體內容生產業務流程,媒體處理/媒資/媒體處理三駕馬車都值得用AI再度重構或最佳化。

媒體處理的AIGC重構較多依賴於媒體引擎的底層技術。 各種架構的升級改造都是為了滿足或迎合傳統的音影片前處理與AI演算法、編碼器結合的場景,而前面提到的,媒體引擎的統一媒體處理框架和引擎架構最佳化,可以完全複用在AIGC時代,媒體任務在底層的執行,本質與前AI時代沒有區別。

媒體處理PaaS服務層的重構設計則體現在API與流程編排上。 在API層面,阿里雲影片雲把AI和傳統的媒體處理在媒體與管道協議上進行統一,這種統一不僅是協議層面的統一,也代表著底層排程資源可以進行混部或混合排程。關於流程編排,AI環節和媒體處理環節可以在相同的工作流引擎中自由編排。

媒體處理AIGC重構的核心在演算法與媒體引擎的聯合最佳化。 下面展示兩個案例:

阿里雲影片雲用更精細的影像紋理細節提取方式,來進行細節修復和生成,演算法最佳化的思路是還原影像的真實面貌,這與我們在2015年、2016年開始研發的窄帶高畫質思路如出一轍。多年以來,這個方向一直沒有變過,也比較契合許多行業和場景的訴求。

我們在4K超分+HDR超高畫質的實踐,演算法側採用區域性變化策略,使亮度更有層次感。展示案例對樹木紋理的細節進行了增強,在色彩方面進行了調整最佳化。另外值得一提的是,此任務剛上線時處理速度非常慢,透過媒體引擎的單任務分散式框架,對任務切片並行處理後,最終的處理速度達到剛上線時的100倍,大大縮短了客戶app釋出高質量影片的週期。

阿里雲影片雲的媒資系統架構分為三層,分別是媒體資料層、基礎服務層和智慧服務層

關於媒體資料層,我們大概在三年前將媒資的後設資料體系重構為可靈活定義和組織的任意實體,可零程式碼接入AI生成的各類媒資後設資料,同時實現了統一MediaID,支援影片雲內部多產品的媒資互通。近一年對媒資索引進行了重構,將基於文字後設資料的索引和基於特徵值的向量索引整合起來,透過統一的API提供搜尋服務。

關於媒資智慧服務層,我們在媒體資料之上,採用多模態語義重構了媒資內容的結構化邏輯,採用自然語言搜尋替代關鍵詞搜尋。這兩項基礎又可以應用到智慧編目和智慧資源管理模組,比如智慧編目可以自動填充內容描述欄位,以及根據內容結構化結果自動拆分片段;基於定向指令的搜尋結果可以用於媒體資源之間的關聯和聚類等。

內容理解是搜尋的基礎,在大模型之前的多模態內容理解,是將視覺資訊、語音資訊等都轉換為文字,如影片畫面內容識別為各種標籤,語音識別為ASR文字等,視音訊對映為文字本身就會造成資訊的丟失,對近義詞和同義詞的擴充套件理解就更不敏感,無法真正從視音訊維度理解語義。阿里雲影片雲在 9 月底上線了基於大模型的智慧搜尋,將影片的圖、音、文統一到一個高維的向量空間中,避免語義損失。同時,搜尋的文字也轉化為高維向量,不再分詞,與傳統影片 AI 搜尋相比,Top5 的準召率大幅提升。

搜尋廣泛應用於媒體服務的各個環節。除了媒體管理本身,製作素材的選擇和時間軸素材的智慧匹配也可以透過重組後的搜尋服務獲得更準確的結果。內容理解是搜尋的基礎,大模型之前的多模態內容理解,是將視覺資訊、語音資訊和其他資訊均轉換為文字,比如影片畫面內容識別為各種標籤,語音識別為ASR文字等,視覺和音訊對映成文字本身就會造成資訊的丟失,對於近義詞、同義詞的擴充套件理解就更加不敏感,無法真正從視覺和音訊的維度理解語義。阿里雲影片雲在9月底上線了基於大模型的智慧搜尋,將影片的畫面、音訊和文字統一到一個高維向量空間,避免語義丟失。同時搜尋的文字也轉成高維向量,不再進行分詞,相較於傳統的影片AI搜尋,Top5的準召率有明顯提升。

搜尋在媒體服務各板塊都有廣泛應用,除了媒資管理本身,生產製作的素材挑選和時間線素材智慧匹配,也可以透過重構後的搜尋服務獲得更精準的結果。

阿里雲影片雲對於生產製作的頂層設計比媒資更早進行,早在2017年的第一版就考慮到了AI可能會參與到時間線Timeline的生產、編排和渲染中,因此第一張圖的基礎架構沿用至今。而這一輪的AIGC重構點主要有兩個,1)AI完全融入時間線,例如在時間線的素材和效果定義中加入AI因子,即定義AI型別的素材(比如素材由AI生成)和AI型別的效果。2)實現了並行剪輯的智慧分片策略,並提升了Timeline的可切分比例,以前Timeline Split點需要避開Timeline中的各種特效和迴圈素材,最佳化後,幾乎相容了95%的Timeline。智慧分片策略則與媒體引擎的Worker-Brain配合,以時間線合成的時效性為目標,決策最優運算元和流程編排。

接下來,會介紹幾個已經在阿里雲影片雲生產製作產品應用AIGC技術的實踐。

Case1:數字人剪輯。 這是目前AIGC商業化最成功的場景,數字人在影片製作、虛擬主播、線上教育和廣告行業中,提供與真人難以區分的視覺、音訊和互動體驗,降低了內容生產的成本和時間,在實時場景可以不間斷地工作,在非實時場景可以規模化生產,滿足了全球市場定製化規模化生產Presentation影片的需求。

2023年10月底的雲棲大會,央視採訪並播出了題為《生成式大模型進軍影片領域 “數字人”應用場景擴充》的報導,介紹了阿里雲影片雲的數字人剪輯技術和應用。阿里雲影片雲使用數字人剪輯技術,結合批次混剪timeline,採用不同的數字人形象渲染,接近真人語音的人聲克隆,一小段文案,通義萬相生成若干背景,多項技術共同配合,完成了影片的規模化生產。目前我們的不少客戶使用這個方案減少真人主播的成本支出,提升成片製作的數量。

Case2:智慧實時製作。 阿里雲影片雲基於大模型升級了雲導播產品虛擬演播室場景的實景摳像效果,這次升級有三個核心點:第一,由原來的單層摳像升級為多層多實體摳像,既可以僅摳人像,也可以把人像連同部分物品摳除,保留需要的物品和背景;第二,摳像效果顯著增強,體現在面對極為雜亂的背景(比如雲棲大會展會現場),仍然在分割邊緣有髮絲級精度的效果,這將大大降低虛擬演播室的環境門檻,讓隨時隨地的外場直播也可獲得演播室的體驗;第三,大模型對算力消耗較大,實時製作場景需要從演算法到工程進行最佳化,以保證實時性,比如模型裁剪、大小模型結合改造、多執行緒最佳化等,這是大模型技術應用在直播及更低延時場景的必經之路。

Case3: 一鍵成片。 一鍵成片是阿里云云剪輯智慧生產的綜合應用,覆蓋生產製作業務流程中,包括素材預挑選、片段擷取、素材補充生成在內的素材準備與選取、智慧時間線編排、效果包裝、合成渲染等多個環節。AIGC在每個環節都可能發揮作用,比如基於多模態語義的影片搜尋與摘要可用於素材預挑選,文生圖或文生影片可用於素材的補充,數字人+人聲復刻可用於配音和包裝,支援AI與媒體處理幀級別編排的媒體引擎用於最終的合成渲染,這絕非單點演算法、單個框架或者單項能力之功,而是AIGC技術與媒體服務多環節多層次融合的完整系統工程。

春節期間Sora爆火,突破了文生影片大模型以前只能生成幾秒鐘空鏡頭的固有印象。Sora有更深入的文字指令理解能力與互動能力,生成的鏡頭層次更多,內容更豐富,時長可達1分鐘,以Sora為代表的新一代文生影片大模型,讓AIGC距離完美成片更近一步。

迴歸生產製作的業務流本質,AIGC完美創作並生產成品,仍然需要經歷創意、素材、編排、剪輯與包裝、渲染與合成這幾個階段。目前幾乎所有剪輯的“創意”仍然由人來主導,AI還無法自主進行原創,尤其是針對故事性影片的原創;“素材”則是AIGC深入貢獻的環節,從已有素材的搜尋、到各種文/圖生圖/影片、風格化帶來的新素材、素材的修復與畫面修改等,都有大模型的身影;基於大模型的技術在“剪輯包裝”和“渲染合成”這兩個環節提供較為散裝的支援,整體仍以傳統AI和標準剪輯技術渲染技術為主。總的來說,媒體內容的“素材”生產隨著文生影片大模型的快速進展有了巨大的突破,但是“完美成片”的全智慧生產製作仍然處在初級階段,從另一角度看,這也代表AIGC未來在生產製作領域還有巨大的發展空間。

04 未來展望

當前AIGC的整體思路還是向人學習,下一步的發展可能會像人一樣,以及在某些領域超越人,比如AIGC的效率在絕大多數場景下已經超越了人,而在思考力和決策力方面大多需要依賴人的反饋,以便進行持續最佳化。

如何創作內容有故事性、有質感的影片,是生產製作領域追求的目標。我們期待未來AI能夠自行挖掘創意點,自主設計原創劇本,貫通前期拍攝和後期製作技術,生產出高質量的成片,而非僅僅生成空鏡頭或單鏡頭素材。AIGC用於媒體處理最直接的收益是音影片效果的增強,而在所有的增強場景中,電影修復無疑是難度較大的,要把老電影修復到還不錯的狀態,目前部分環節仍然需要人工參與。我們期待未來即便在電影修復場景,也能有更好的泛化性和更逼真的效果。在媒資領域,阿里雲影片雲希望建立一套自然語言理解的體系,實現媒體資源的多模態全語義理解,讓媒資中“沉默的大多數”透過新一代的AI分析,語義挖掘、關聯、圖譜技術再次煥發光彩。

以上就是我的分享內容,謝謝大家。

相關文章