AI浪潮下,大模型如何在音影片領域運用與實踐?

阿里雲影片雲發表於2023-12-14
影片雲大模型演算法「方法論」。

劉國棟|演講者

在AI技術發展如火如荼的當下,大模型的運用與實踐在各行各業以千姿百態的形式展開。音影片技術在多場景、多行業的應用中,對於智慧化和效果效能的體驗最佳化有較為極致的要求。如何運用好人工智慧提升演算法能力,解決多場景業務中的具體問題,需要創新地探索大模型技術及其應用方式。本文由LiveVideoStackCon2023深圳站演講《AI新正規化下,阿里雲影片雲大模型演算法實踐》整理而成,演講者為阿里雲智慧高階演算法專家劉國棟,分享阿里雲影片雲的大模型演算法實踐。

《AI新正規化下,阿里雲影片雲大模型演算法實踐》主題分享,包含如下四個部分:

AI浪潮下,大模型如何在音影片領域運用與實踐?

 

01 音影片AI發展趨勢與業務對AI演算法的要求

首先我們看第一部分:音影片AI發展趨勢與業務對AI演算法的要求。

AI浪潮下,大模型如何在音影片領域運用與實踐?

當下,音影片服務已廣泛應用於互娛、廣電傳媒、教育、金融等各種行業,對場景的滲透也越來越深。這些行業、場景對智慧化和體驗的追求愈來愈高,同時使用者希望用得起、更普惠。完成這樣的目標,AI可以發揮重要作用,這已成為行業共識。

隨著AIGC的發展,音影片領域的AI技術也呈現出了新的趨勢,即對AI技術的通用性、理解能力、生成能力都提出了更高的要求。過去純粹的定製小模型開發、單模態處理和預測正規化有不少缺陷,觸達到了能力上限,而目前音影片AI技術則走向了泛化能力非常強的預訓練大模型、多模態資訊融合、生成式等方向。還有值得提出的一點是AI Agent的能力,即要求AI有感知、決策、行動的能力,它目前已成為一個重要的研究方向。

AI浪潮下,大模型如何在音影片領域運用與實踐?

當前,阿里雲影片雲的核心業務包括直播、點播、媒體服務、音影片通訊,形成了完整的產品、解決方案陣列。這些業務、產品覆蓋音影片從採集、生產、處理、媒資管理、傳輸與分發、播放與消費的全鏈路。

目前AI為音影片全鏈路的各環節提供了演算法原子能力。舉例來講,在處理環節,我們開發了多個AI演算法,在影片方面包括影片增強、影片修復、超分、插幀,HDR等;在音訊方面包括智慧降噪、語音增強、空間音訊、影視音效等。這些AI演算法都整合到產品中,提升了產品的競爭力。

當然,AI除了提供演算法原子能力之外,也滲透到影片雲的引擎層、排程層、業務層,進一步提升它們的智慧化水平。

AI浪潮下,大模型如何在音影片領域運用與實踐?

儘管AI已經大量融入業務,我們對業務做了深入分析後,還是發現了一些痛點問題。舉例說明,雲剪輯,很多時候還是需要指定剪輯模版,缺乏自動化,另外,獲取高質量的素材也很難;在媒資管理中,影片檢索的質量仍然存在不少提升空間。但同時,由於大模型、AIGC帶來的巨大變革,我們認為解決這些業務痛點問題已成為可能。

我們總結出幾點新趨勢下影片雲業務對AI演算法的要求,包括追求效果效能上的極致體驗,追求演算法的泛化性、通用性,提升AI自主決策、規劃處理鏈路的能力,以及降低開發、接入、使用的成本

 

02 影片雲大模型演算法系統架構與關鍵技術

針對音影片業務對AI演算法的更高要求,我們採用了大模型的技術,設計了一套基於影片雲大模型演算法開發的系統架構,並實踐、提煉了一些關鍵技術,形成了一套較為通用的大模型演算法落地業務場景的“方法論”。

AI浪潮下,大模型如何在音影片領域運用與實踐?

我們先看下大模型時代來臨前,是如何設計演算法的。

多數情況下,我們採用小模型、傳統演算法或者兩者結合的方法。其優點是:小模型、傳統演算法在演算法開發、工程最佳化方面已相對比較成熟,小模型的訓練資源佔用少且訓練速度快,部署容易,端側落地性強。但是問題也比較突出,比如模型的泛化能力差,效果上限比較低,理解、生成能力比較差等。

AI浪潮下,大模型如何在音影片領域運用與實踐?

而大模型出現後,它的通用性、泛化性、多模態能力、強大的理解和生成能力等都讓我們驚歎不已,這些正是小模型和傳統演算法所欠缺的。用大模型技術去解決之前的演算法問題,甚至重做一遍,提高演算法效果的上限,我們認為這是比較可行的做法。

不過我們也發現了大模型的一些通病,比如對細粒度的問題還不能完美處理、容易出現幻覺現象、推理訓練成本都比較高等。如果要在實際業務中應用大模型,這些問題都應該要儘量避免甚至解決。

AI浪潮下,大模型如何在音影片領域運用與實踐?

那我們是如何推進大模型演算法演進的呢?

首先,我們根據影片雲的業務特點,設計和搭建了一套基於影片雲大模型演算法開發的系統架構。整個系統涵蓋了分析、規劃、推理、評價、訓練與微調的全鏈路,並且是可進化、可決策的。

可決策主要體現在,系統會根據客戶需求和自身的分析,結合影片雲知識庫及LLM做出決策,制定合適的處理鏈路和選擇模型去完成任務。

可進化主要體現在兩個方向,一方面,系統會透過推理、評價、訓練不斷迭代,完善模型;另一方面,知識庫也是不斷更新的,比如說好的解決方法和評價資訊以及業務反饋、沉澱的資料等都會送入知識庫,確保知識的新鮮度、準確度。

AI浪潮下,大模型如何在音影片領域運用與實踐?

基於大模型演算法系統框架,我們不斷地在業務中實踐、演進,提煉出一套通用的大模型演算法開發的“方法論”,使其能高質量地解決業務中的實際問題。

第一,大小模型協同技術

針對前面指出的大模型、小模型或傳統演算法各自存在的問題,我們提出幾種大小模型、傳統演算法協同的方法,包括三者的串聯、並聯,用小模型特徵引導大模型或者大模型引導小模型,以及它們的組合。目前,我們在實踐中已經採用了大小模型協同的方法,比如實景摳圖、聲音克隆等演算法,已經取得了比較好的效果。

AI浪潮下,大模型如何在音影片領域運用與實踐?

第二,大模型微調

目前音影片領域的大模型往往針對通用場景,在實際業務中效果不太好,當然這並不是講這些模型完全不可用。在一些情況下,我們針對自己的業務場景,篩選出相對高質量的大模型,再結合我們的資料、知識庫進行大模型的微調。

整個過程會涉及到訓練資料的製作、微調的具體方法、幻覺和災難性遺忘的應對、以及訓練策略和效果評價方法等一系列問題。

我們在實踐中主要採用了引數高效的微調方法,對調整哪些網路結構層也做了大量實驗。訓練策略上採用模型解耦,多步訓練的策略。比如在影片搜尋中,我們就採用了類似的方案,使得模型準確度有了大幅提升。

AI浪潮下,大模型如何在音影片領域運用與實踐?

第三,大模型的訓練最佳化

大模型訓練的計算量巨大,視訊記憶體的佔用也非常大,這導致訓練週期很長,演算法迭代速度很慢,影響演算法的落地。

我們從IO、計算、儲存等角度出發,實踐了一些並行訓練、視訊記憶體最佳化的方法,包括多種並行,混合精度訓練,梯度檢測點等,以及採用Zero、Offload、Flashattention等工具。這些方法使得我們可以在一些效能不高的GPU上,如RTX3090/RTX4090/V100,完成多機多卡的訓練,從而降低演算法的開發週期。

AI浪潮下,大模型如何在音影片領域運用與實踐?

第四,大模型壓縮和推理最佳化

實際業務對成本的要求是比較高的,我們希望在保證模型效果的前提下,儘量提升推理的效能。

實踐中,我們對模型做了多輪的壓縮,交替使用多種壓縮方法,包括使用輕量的backbone,低秩分解,以及剪枝,知識蒸餾、量化等。比如在摳圖中,我們採用多種壓縮方式的組合,使模型大小有了顯著下降,引數減少30%以上。

此外,我們也做了很多推理層面的最佳化,比如運算元融合、運算元最佳化、矩陣最佳化,視訊記憶體最佳化,批處理最佳化等,並藉助阿里雲神龍團隊的HRT推理引擎,使得大模型推理效能得到進一步提升。

 

03 影片雲大模型演算法典型實踐案例

AI浪潮下,大模型如何在音影片領域運用與實踐?

接下來介紹當前阿里雲影片雲在大模型方面的進展。在過去近一年的時間內,阿里雲影片雲在大模型方面做了深入探索,開發了多個演算法,所做工作涉及音影片採集、生產、處理、媒資管理、傳輸分發、播放消費全鏈路的多個環節。

正如上圖所示,在生產製作環節,我們開發實景摳圖、聲音克隆、文生圖、圖生圖、AI作曲等多個基於大模型的演算法;在媒資管理環節,開發了基於大模型的影片搜尋、影片標籤、影片概要等技術;在處理環節,我們開發了基於大模型的影片修復、語音增強等演算法。

目前我們已經初步形成了較為完整的影片雲大模型演算法陣列。這些演算法中很多都已整合進產品,並服務客戶。在這裡,我將從生產製作、媒資管理、處理方面分別介紹一項典型演算法實踐,即實景摳圖、影片檢索、影片修復

AI浪潮下,大模型如何在音影片領域運用與實踐?

實景摳圖是一項非常重要的底層技術,它的應用面非常廣,比如我們熟知的數字人制作、虛擬演播廳、影視特效、影片剪輯、視訊會議等都會用到它。

阿里雲影片雲在摳圖方面有多年的積累,已開發多種摳圖演算法,可以應對客戶端、伺服器等的不同需求,也已在多種業務場景落地。

這裡重點介紹的是面向伺服器的基於大模型的摳圖技術。

AI浪潮下,大模型如何在音影片領域運用與實踐?

一般情況下,想要得到高質量的摳圖結果,都要採用搭建綠幕的方式。因為這種情況對光照、裝置、去溢色等都有非常專業的要求,在一定程度上限制了綠幕摳圖的應用範圍。

而在實際業務中,往往需要對實景拍攝的影片,摳出前景來。由於拍攝環境多變、內容多種多樣,用演算法自動進行摳圖實現難度比較大。

AI浪潮下,大模型如何在音影片領域運用與實踐?

如何對實景影片實現高質量摳圖呢?這涉及到演算法選型的問題。

我們先看下小模型方法能否實現高質量摳圖。經過深入調研,我們發現很多摳圖效果好的方法都採用人工干預的方法,這種方式對單幀影像比較友好,但對於影片,往往處理耗時久,不太實用。而採用非互動式方式的摳圖,魯棒性則較差,往往只能較好地摳人像,難以在多場景推廣。

大模型分割演算法的出現,讓我們看到了採用大模型提升摳圖效果的可能性。以SAM為例,它的分割泛化能力非常強,分割質量高,對噪聲、陰影等也能做到很好的處理。

我們希望藉助大模型分割的能力來實現高質量的摳圖。

AI浪潮下,大模型如何在音影片領域運用與實踐?

我們提出了一種基於大模型的實景摳圖方案。它能統一處理藍綠幕與實景摳圖,所以實際處理中不用再區分背景是藍綠幕還是實景。此外,該方案不僅可以摳人像,還可以摳與人連帶的附屬物,並且摳圖的質量都非常高。

它的整體流程如下:首先使用者提供一些摳圖所需的資訊,這些資訊以文字形式嵌入,然後輸入影像與文字嵌入向量逐步經過目標檢測、基於輕量化大模型的物體分割、基於小模型的摳圖網路。

在這個框架中,模組是可插拔的,而且採用的是大小模型結合的方式。小模型會充分吸收大模型的資訊,比如這裡的摳圖網路,它吸收來自分割模型的特徵,提高了摳圖的效果。

AI浪潮下,大模型如何在音影片領域運用與實踐?

我們重點看下分割大模型是如何做到輕量化的。

首先選擇一個各方面都表現比較好的基礎大模型(泛化性好、分割準確度高、效果和效能平衡)。

接下來的工作是調整它,解決其適配業務場景的問題,使它在業務場景下表現得比較完美。這裡會進行微調,我們設計了Adapter結構,實踐中採用了MLP和低秩分解組合的形式。另外,Adapter的插入位置也進行了很多嘗試。還有一點是訓練資料的製作,以及資料配比等等都非常重要。

有了一個效果比較好的大模型,我們開始設計輕量化的大模型,這個模型採用輕量化的vit結構作為backbone,使用前面訓練好的大模型對它進行蒸餾,使用剪枝等技術進行最佳化。

經過這些操作,輕量化模型的引數下降到基礎大模型的2/3。在這個過程中,我們也沉澱了多個不同複雜度、不同摳圖能力的模型,把它們的能力送到知識庫中。實際業務使用時,決策中心會根據要求呼叫合適的模型。

AI浪潮下,大模型如何在音影片領域運用與實踐?

除了演算法層面的最佳化,我們還進行了一些工程側的最佳化,主要包含三方面:

1、工程架構的最佳化,這裡採用了CPU、GPU非同步並行;

2、網路推理方面的最佳化,如使用推理框架HRT,採用fp16、int8推理;

3、傳統演算法模組的最佳化,如控制最佳化、迴圈最佳化、訪存最佳化、執行緒最佳化等。

經過演算法、工程兩方面的最佳化,對於輸入的1080p影片,我們在A10上實現了33fps的高質量摳圖。

AI浪潮下,大模型如何在音影片領域運用與實踐?

我們看下摳圖的效果。對於輸入影像,我們實現了摳人像、以及摳人像加桌子/化妝品/手機等附屬物的效果。這個摳圖質量還是比較高的,特別是髮絲摳圖效果非常細膩,人物、物體的摳圖邊緣都很精細。

另外,我們也開發了前背景和諧化的技術,解決了摳出的前景與被貼入背景在光照、對比度、色彩等方面不協調的問題。

AI浪潮下,大模型如何在音影片領域運用與實踐?

在剛剛過去的雲棲大會,我們也展示了一個摳圖的應用,在開放環境中,實現異地多人實時連麥+虛擬背景的功能。右圖是現場演示的影像。

AI浪潮下,大模型如何在音影片領域運用與實踐?

我們再看下媒資管理中的影片搜尋。它的應用也非常廣,包括廣電傳媒、雲導播、雲盤管理、短影片內容推薦、影片監控等。

AI浪潮下,大模型如何在音影片領域運用與實踐?

這裡先介紹下傳統的影片檢索方法。

它通常採用小模型方法對影片內容進行識別,包括人臉識別、物體識別、Log識別、OCR、ASR等等,然後生成標籤,這些標籤是文字關鍵詞形式的,且大部分是實體標籤。這些標籤都會送到資料庫中。對於使用者輸入的查詢語句,進行標籤的查詢,並返回對應影片的片段。

這裡存在一個比較大的問題,即搜尋往往是實體的搜尋,而對於實體的動作、相互之間關係等很難檢索到正確的影片,另外,搜尋往往對查詢詞很敏感。

AI浪潮下,大模型如何在音影片領域運用與實踐?

我們看到多模態表徵技術將影像和文字對映到統一的高維空間中,實現了實體、實體關係等的高質量檢索,並對文字中的同義詞、近義詞不敏感。這些典型的表徵技術包括CLIP、BLIP技術等,還有針對中文的ChineseCLIP、TEAM等。但這些技術是針對單幀影像的,而我們的場景都是影片。那如何實現影片的檢索?如何提升高維向量檢索的時效性呢?

AI浪潮下,大模型如何在音影片領域運用與實踐?

我們提出了一種基於嵌入模型的影片檢索演算法

對於影片而言,同一個鏡頭,最好用同一個或少數幾個embedding vector表示。這樣做的好處是減少了embedding向量的數量,也就減少了儲存的空間和檢索的計算量,同時,由於是對鏡頭進行處理,表徵的質量更高,檢索的質量也就更高。我們透過三步達到這個目標:

1、首先,對影片內容分析,結合固定步長抽幀和自適應抽幀,初步過濾掉一些資訊冗餘的幀;

2、其次,採用相鄰取樣幀,進行時空維度的特徵編碼;

3、最後,對嵌入向量,從檢索角度,進行多級聚類和量化。

經過這三個過程,在同一鏡頭內,得到的最終向量只有非常少數,大大降低了向量的儲存空間,提升了檢索的效率,而且也提高了檢索質量。

這裡我們設計了多幀的視覺編碼器,採用微調、蒸餾等方法保證了它的效果,並實現了它與文字的對齊。

在前面方法的基礎上,我們又提出了一種資訊融合的影片檢索演算法。這裡解決的問題是:

一是實現視覺+聲音與文字間的檢索,比如檢索出小鳥在樹上叫的影片片段,二是實現更細粒度的檢索,比如某位名人在某個著名景點的活動。

針對這兩個問題,我們分別設計了時空視聽嵌入模組和關鍵實體識別模組,分別提取不同粒度的表徵資訊。在檢索階段,我們會分別對兩種粒度的嵌入向量進行檢索,再對二者的資訊進行融合,最終實現更好的檢索效果。

此演算法發揮了不同模型優勢,融合了多模態的資訊,並提升了檢索的適用範圍。

AI浪潮下,大模型如何在音影片領域運用與實踐?

我們再看下多模態融合是如何實現的。整個過程如上圖所示。

它實現了同一場景視覺與聽覺的特徵融合,也實現了視聽特徵與文字的模態對齊。我們借鑑了ImageBind的方法,把音訊、文字都對齊到了視覺空間。

AI浪潮下,大模型如何在音影片領域運用與實踐?

目前,該功能已經整合進媒體服務產品中。這裡展示了一些影片搜尋的效果,我們可以看到新方法的一些效果,它對動作、時間、數量等都有比較好的檢索能力。

AI浪潮下,大模型如何在音影片領域運用與實踐?

最後看下處理方面的影片修復演算法。影片修復的應用場景非常廣泛,比如體育賽事、綜藝節目、影視劇、紀錄片、動漫、老歌MV等場景。

AI浪潮下,大模型如何在音影片領域運用與實踐?

影片修復的維度非常多樣,比如針對瑕疵、拍攝或製作中的噪聲、細節、色彩等,都可以進行修復。這裡講的影片修復針對的是直播、點播等場景中,在製作、編輯、轉碼中引入的細節退化問題。如左圖所示,我們能看到明顯的細節退化,比如模糊、塊效應、邊緣鋸齒等。

AI浪潮下,大模型如何在音影片領域運用與實踐?

那用什麼方法來解決細節退化呢?這裡牽扯到演算法選型的問題。

從我們之前積累的經驗看,GAN方法對一些垂直領域的、退化不是非常嚴重的場景,可以有比較好的效果。但當片源或流的質量比較差時,GAN方法的細節恢復就顯得不夠了,而且此時生成的效果也不太自然。此外RealESRGAN的效果,一定程度上也印證了我們的結論。

我們發現,基於SD預訓練模型的StableSR可以取得更好的細節生成效果,具體表現為:它對源質量適應性強,效果自然、穩定,細節恢復質量高。因此我們選擇SD來應對這樣的修復場景。

下面介紹我們的方案。該演算法借鑑了StableSR的一些想法,網路層面也是由UNet和VAEFGAN組成的。我們結合業務場景進行深入的設計和調整,特別是針對badcase的處理做了大量工作。這裡簡單介紹幾方面:

1、在訓練資料方面,採用了離線和線上結合的資料降質模擬策略;

2、針對VAEGAN中編碼器處理後有資訊損失的問題,我們採用了編碼器特徵導引解碼器的網路形式,並對他們進行聯合微調;

3、在訓練策略上,透過引入HR編碼器特徵,把擴散模型與VAEGAN解耦;

4、此外我們也採用了多階段訓練策略。

AI浪潮下,大模型如何在音影片領域運用與實踐?

這裡展示了SD修復的效果。從圖中不難看出,新方法對人像和自然物都有很好的修復,比如,頭髮上的很多細節都恢復出來了,人的五官變得更清晰了,遠處船上及繩索上的細節、建築物的細節也恢復出來了。

 

04 音影片大模型的思考

AI浪潮下,大模型如何在音影片領域運用與實踐?

關於音影片大模型的思考,這裡介紹四個方面:

第一是端側智慧。隨著終端晶片對大模型支援的力度越來越大,比如apple、高通等公司都發布了大模型終端晶片,大模型在端側落地已是必然趨勢。目前我們從端側大模型設計、推理最佳化兩方面入手,針對高階機型,進行了端側大模型落地的探索。

第二是雲端一體。從技術層面講,需要解決兩方面的問題,第一個是如何劃分大模型雲、端的計算負載,第二個是大模型的特徵編碼。

第三是模型的統一。這裡重點強調兩個統一,視覺模型backbone的統一、以及多模態encoder的統一。在有了統一的基座模型之後,可以針對業務場景對下游任務進行finetune。

第四是大模型的決策能力。我們希望大模型不僅能解決單點問題,還希望它有規劃、行動的能力,也就是Agent的概念。現在在演算法層面,我們已經做了一些工作,接下來我們希望用大模型來提升引擎、排程、業務層的智慧化水平。

我的分享就到這裡,謝謝!

相關文章