被誤解的「中文版Sora」背後,位元組跳動有哪些技術?

机器之心發表於2024-03-12
2024 開年,OpenAI 就在生成式 AI 領域扔下了重磅炸彈:Sora。

這幾年,影片生成領域的技術迭代持續加速,很多科技公司也公佈了相關技術進展和落地成果。在此之前,Pika、Runway 都曾推出過類似產品,但 Sora 放出的 Demo,顯然以一己之力抬高了影片生成領域的標準。

在今後的這場競爭中,哪家公司將率先打造出超越 Sora 的產品,仍是未知數。

國內這邊,目光聚集於一眾科技大廠。

此前有訊息稱,位元組跳動在 Sora 釋出之前就研發出了一款名為 Boximator 的影片生成模型。

Boximator 提供了一種能夠精確控制影片中物體的生成方法。使用者無需編寫複雜的文字提示,可以直接在參考影像中透過在物體周圍畫方框來選擇目標,然後新增一些方框和線條來定義目標的結束位置或跨幀的整個運動路徑,如下圖所示:

圖片

對此,位元組跳動保持了低調的態度:相關人士回覆媒體,Boximator 是影片生成領域控制物件運動的技術方法研究專案。目前還無法作為完善的產品落地,距離國外領先的影片生成模型在畫面質量、保真率、影片時長等方面還有很大差距。

在對應的技術論文介紹(https://arxiv.org/abs/2402.01566)中,我們也能看到,Boximator 是以外掛的形式執行,可與現有的影片生成模型無縫整合,在保持影片質量的同時,增加運動控制功能。

影片生成背後的技術涉及多個細分方向,與影像 / 影片理解、影像生成、超解析度等技術都有關係。深挖之後,我們發現在眾多分支領域,位元組跳動已公開發表了一些研究成果。

這篇文章將介紹來自位元組跳動智慧創作團隊的 9 項研究,涉及文生圖、文生影片、圖生影片、影片理解等多項最新成果。我們不妨從這些研究中,追蹤探索視覺生成類模型的技術進展。

關於影片生成位元組有哪些成果?

在今年 1 月上旬,位元組跳動就釋出過一個影片生成模型 MagicVideo-V2,一度引發社群熱議。

圖片

  • 論文標題:MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
  • 論文連結:https://arxiv.org/abs/2401.04468
  • 專案地址:https://magicvideov2.github.io/

MagicVideo-V2 的創新在於將文字到影像模型、影片運動生成器、參考影像嵌入模組和幀插值模組整合到端到端影片生成 pipeline 中。得益於這一架構設計,MagicVideo-V2 在「審美」上能夠保持著穩定的高水平表現,不僅生成美觀的高解析度影片,還兼具比較好的保真度和流暢度。

具體而言,研究者首先使用 T2I 模組建立一個 1024×1024 的影像,封裝所描述的場景。隨後,I2V 模組對該靜態影像進行動畫處理,生成 600×600×32 的幀序列,之前的潛在噪聲確保了初始幀的連續性。V2V 模組將這些幀增強到 1048×1048 解析度,同時完善影片內容。最後,插值模組將序列擴充套件到 94 個幀,得到 1048×1048 解析度的影片,所生成影片具有較高的美學質量和時間平滑性。

圖片

研究者進行的大規模使用者評估證明:MagicVideo-V2 比一些知名的 T2V 方法更受青睞(綠色、灰色和粉色條分別代表 MagicVideo-V2 被評為較好、相當或較差)。

圖片

圖片

高質量影片生成背後
統一視覺和語言學習的研究正規化

從 MagicVideo-V2 的論文中,我們可以看出,影片生成技術的進展,離不開文生圖、圖生影片等 AIGC 技術的鋪路。而生成高審美水準內容的基礎在於理解,特別是模型對於視覺和語言兩種模態學習、融合能力的進步。

近年來,大語言模型的可擴充套件性和通用能力,催生出了統一視覺和語言學習的研究正規化。為了跨越「視覺」和「語言」兩種模態之間的天然鴻溝,研究者們將預訓練好的大語言模型和視覺模型的表徵連線起來,提取跨模態特性,完成如視覺問題解答、影像字幕、視覺知識推理和對話等任務。

在這些方向上,位元組跳動也有相關探索。

比如,針對開放世界視覺任務中的多目標推理分割挑戰,位元組跳動聯合北京交通大學、北京科技大學的研究者提出了高效畫素級推理大模型 PixelLM,並將其開源。

圖片

  • 論文標題:PixelLM:Pixel Reasoning with Large Multimodal Model
  • 論文連結:https://arxiv.org/pdf/2312.02228.pdf
  • 專案地址:https://pixellm.github.io/

PixelLM 能夠熟練地處理具有任意數量的開放集目標和不同推理複雜性的任務,下圖展示了 PixelLM 在各種分割任務中生成高質量目標掩碼的能力。

圖片

PixelLM 的核心是一個新穎的畫素解碼器和一個分割 codebook:codebook 包含了可學習的 token,這些 token 編碼了與不同視覺尺度目標參考相關的上下文和知識,畫素解碼器根據 codebook token 的隱藏嵌入和影像特徵生成目標掩碼。在保持 LMM 基本結構的同時,PixelLM 可以在沒有額外的、昂貴的視覺分割模型的情況下生成高質量的掩碼,從而提高了效率和向不同應用程式的可遷移性。

圖片

值得關注的是,研究者構建了一個全面的多目標推理分割資料集 MUSE。他們從 LVIS 資料集中選取了共 910k 個高質量例項分割掩碼以及基於影像內容的詳細文字描述,利用這些構建了 246k 個問題 - 答案對。

相比於影像,如果涉及影片內容,模型遭遇的挑戰難度就又增加了不少。因為影片不僅包含豐富多變的視覺資訊,還涉及時間序列的動態變化。

現有的多模態大模型在處理影片內容時,通常將影片幀轉化為一系列的視覺 token,並與語言 token 結合以生成文字。但隨著生成文字長度的增加,影片內容的影響會逐漸減弱,導致生成的文字越來越多地偏離原影片內容,產生所謂的「幻覺」。

面對這一問題,位元組跳動聯合浙江大學提出了專門針對影片內容的複雜性設計的多模態大模型 Vista-LLaMA。

圖片

  • 論文標題:Vista-LLaMA:Reliable Video Narrator via Equal Distance to Visual Tokens
  • 論文連結:https://arxiv.org/pdf/2312.08870.pdf
  • 專案地址:https://jinxxian.github.io/Vista-LLaMA/

Vista-LLaMA 採用了一種改良的注意力機制 —— 視覺等距離 token 注意力(EDVT),在處理視覺與文字 token 時去除了傳統的相對位置編碼,同時保留了文字與文字之間的相對位置編碼。這種方法大幅提高了語言模型對影片內容的理解深度和準確性。

特別是,Vista-LLaMA 引入的序列化視覺投影器為影片中的時間序列分析問題提供了新的視角,它透過線性投影層編碼視覺 token 的時間上下文,增強了模型對影片動態變化的理解能力。

圖片

在最近被 ICLR 2024 接收的一項研究中,位元組跳動的研究者還探討了一種提升模型對影片內容學習能力的預訓練方法。

由於影片 - 文字訓練語料的規模和質量有限,大多數視覺語言基礎模型都採用影像 - 文字資料集進行預訓練,並主要關注視覺語義表徵建模,而忽略了時間語義表徵和相關性。

為了解決這個問題,他們提出了 COSA,一種串聯樣本預訓練視覺語言基礎模型。

圖片

  • 論文標題:COSA: Concatenated Sample Pretrained Vision-Language Foundation Model
  • 論文連結:https://arxiv.org/pdf/2306.09085.pdf
  • 專案主頁:https://github.com/TXH-mercury/COSA

COSA 僅使用影像 - 文字語料庫對視覺內容和事件級時間線索進行聯合建模。研究者將多個影像 - 文字對按順序串聯起來,作為預訓練的輸入。這種轉換能有效地將現有的影像 - 文字語料庫轉換成偽長格式影片 - 段落語料庫,從而實現更豐富的場景轉換和明確的事件 - 描述對應關係。實驗證明,COSA 能夠持續提高各種下游任務的效能,包括長 / 短影片 - 文字任務和影像 - 文字任務(如檢索、字幕和問題解答)。

圖片

圖片

從影像到影片
被重新認識的「擴散模型」

在視覺 - 語言模型之外,擴散模型同樣是大部分影片生成模型採用的技術。

透過在大量影像 - 文字配對資料集上進行嚴格訓練,擴散模型能夠完全根據文字資訊生成細節豐富的影像。除了圖片生成,擴散模型還可用於音訊生成、時間序列生成、3D 點雲生成等等。

比如在一些短影片應用中,使用者只需要提供一張圖片,就能生成一段以假亂真的動作影片。

數百年來保持神秘微笑的蒙娜麗莎,都能馬上跑起來:

圖片

這項有趣應用背後的技術,是新加坡國立大學和位元組跳動的研究者聯合推出的「MagicAnimate」。

MagicAnimate 是一個基於擴散的人類影像動畫框架,在根據特定的運動序列生成影片的任務中,能夠很好地保證整個動畫的時間一致性並提升動畫保真度。而且,MagicAnimate 專案是開源的。

圖片

  • 論文標題:MagicAnimate:Temporally Consistent Human Image Animation using Diffusion Model
  • 論文連結:https://arxiv.org/pdf/2311.16498.pdf
  • 專案地址:https://showlab.github.io/magicanimate/

為了解決生成動畫普遍存在的「閃爍」問題,研究者透過將時間注意力(temporal attention)塊合併到擴散主幹網路中,來構建用於時間建模的影片擴散模型。

MagicAnimate 將整個影片分解為重疊的片段,並簡單地對重疊幀的預測進行平均。最後,研究者還引入影像 - 影片聯合訓練策略,以進一步增強參考影像保留能力和單幀保真度。雖然僅接受了真實人類資料的訓練,MagicAnimate 卻展現出了泛化到各種應用場景的能力,包括對未見過的領域資料進行動畫處理、與文字 - 影像擴散模型的整合以及多人動畫等。

圖片

另一項基於擴散模型思想的研究「DREAM-Talk」,則解決了從單張肖像影像生成會說話的情緒化人臉的任務。

圖片

  • 論文標題:DREAM-Talk:Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation
  • 論文連結:https://arxiv.org/pdf/2312.13578.pdf
  • 專案地址:https://dreamtalkemo.github.io/

我們知道,在這項任務中,很難同時實現富有表現力的情感對話和準確的唇語同步,通常為了保證唇語同步的準確性,表現力往往會大打折扣。

「DREAM-Talk」是一個基於擴散的音訊驅動框架,分為兩個階段:首先,研究者提出了一個新穎的擴散模組 EmoDiff,可根據音訊和參考情緒風格生成多種高度動態的情緒表情和頭部姿勢。鑑於唇部動作與音訊之間的強相關性,研究者隨後利用音訊特徵和情感風格對動態進行了改進,從而提高了唇部同步的準確性,此外還部署了一個影片到影片渲染模組,實現了將表情和唇部動作轉移到任意肖像。

從效果上看,DREAM-Talk 在表現力、唇部同步準確性和感知質量方面的確不錯:

圖片

但不管是影像生成還是影片生成,當前基於擴散模型路線的研究都還有一些基礎挑戰需要解決。

比如很多人關心生成內容的質量問題(對應 SAG、DREAM-Talk),這可能與擴散模型的生成過程中的一些步驟有關,比如引導取樣。

擴散模型中的引導取樣大致可分為兩類:需要訓練的和無需訓練的。免訓練引導取樣是利用現成的預訓練網路(如美學評估模型)來引導生成過程,旨在以更少的步驟和更高的精度從預訓練的模型中獲取知識。當前的訓練無指導取樣演算法基於對乾淨影像的一步估計來獲得指導能量函式。然而,由於預訓練網路是針對乾淨影像進行訓練的,因此乾淨影像的一步估計過程可能不準確,尤其是在擴散模型的早期階段,導致早期時間步驟的指導不準確。

針對該問題,位元組跳動和新加坡國立大學的研究者共同提出了 Symplectic Adjoint Guidance (SAG)。

圖片

  • 論文標題:Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
  • 論文連結:https://arxiv.org/pdf/2312.12030.pdf

SAG 透過兩個內階段計算梯度引導:首先,SAG 透過 n 個函式呼叫估計乾淨影像,其中 n 作為一個靈活的引數,可以根據特定的影像質量要求進行調整。其次,SAG 使用對稱偶方法精確高效地獲得關於記憶體需求的梯度。這種方法可支援各種影像和影片生成任務,包括風格引導影像生成、美學改進和影片風格化,並有效提升了生成內容的質量。

最近入選 ICLR 2024 的一篇論文,則著重討論了「擴散機率模型梯度反向傳播的臨界靈敏度方法」。

圖片

  • 論文標題:Adjoint Sensitivity Method for Gradient Backpropagation of Diffusion Probabilistic Models
  • 論文連結:https://arxiv.org/pdf/2307.10711.pdf

由於擴散機率模型的取樣過程涉及對去噪 U-Net 的遞迴呼叫,因此 naïve 梯度反向傳播需要儲存所有迭代的中間狀態,從而導致極高的記憶體消耗。

在這篇論文中,研究者提出的 AdjointDPM 首先透過求解相應的機率流 ODE 從擴散模型中生成新樣本。然後,透過求解另一個增強的 ODE,使用鄰接靈敏度方法反向傳播模型引數(包括調節訊號、網路權重和初始噪聲)損失的梯度。為了減少前向生成和梯度反向傳播過程中的數值誤差,研究者使用指數積分進一步將機率流 ODE 和增強型 ODE 重新引數化為簡單的非剛性 ODE。

研究者指出,AdjointDPM 在三個任務中極具價值:將視覺效果轉換為識別文字嵌入、針對特定型別的風格化對擴散機率模型進行微調,以及最佳化初始噪聲以生成用於安全審計的對抗樣本,以減少最佳化工作中的成本。

對於視覺類的感知任務,採用文字到影像的擴散模型作為特徵提取器的方法也受到越來越多的關注。在這一方向上,位元組跳動的研究者在論文中提出了一種簡單而有效的方案。

圖片

  • 論文標題;Harnessing Diffusion Models for Visual Perception with Meta Prompts
  • 論文連結:https://arxiv.org/pdf/2312.14733.pdf

這篇論文的核心創新是在預訓練的擴散模型中引入可學習的嵌入(元提示)以提取感知特徵,不依賴額外的多模態模型來生成影像標題,也不使用資料集中的類別標籤。

元提示有兩方面的作用:首先,作為 T2I 模型中文字嵌入的直接替代物,它可以在特徵提取過程中啟用與任務相關的特徵;其次,它將用於重新排列提取的特徵,以確保模型專注於與手頭任務最相關的特徵。此外,研究者還設計了一種迴圈細化訓練策略,充分利用擴散模型的特性,從而獲得更強的視覺特徵。

「中文版 Sora」誕生之前
還有多遠的路要走?

在這幾篇新論文中,我們已經瞭解到位元組跳動這樣的國內科技公司,在影片生成技術上的一系列積極的探索。

但是與 Sora 相比,無論是位元組跳動,還是 AI 影片生成領域的一眾明星公司,都存在肉眼可見的差距。Sora 的優勢建立在對 Scaling Law 的信仰和突破性的技術創新上:透過 patchs 統一影片資料,依託 Diffusion Transformer 等技術架構和 DALL・E 3 的語義理解能力,真正做到了「遙遙領先」。

從 2022 年文生圖的大爆發,到 2024 年 Sora 的橫空出世,人工智慧領域的技術迭代速度,已經超過了大家的想象。2024 年,相信這一領域還會出現更多的「爆款」。

位元組顯然也在加緊投入技術研發。近期,谷歌 VideoPoet 專案負責人蔣路,開源多模態大模型 LLaVA 團隊成員之一、前微軟研究院首席研究員 Chunyuan Li 均被曝出已加入位元組跳動智慧創作團隊。該團隊還在大力招聘,官網上已放出多個大模型演算法相關崗位。

不僅僅是位元組,BAT 等老牌巨頭也放出眾多令人矚目的影片生成研究成果,一眾大模型創業公司更是極具衝勁。文生影片技術又將出現哪些新的突破?我們拭目以待。

相關文章