港科大開源VideoVAE+,影片重建質量全面超越最新模型

机器之心發表於2024-12-30

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


港科大團隊重磅開源 VideoVAE+,提出了一種強大的跨模態的影片變分自編碼器(Video VAE),透過提出新的時空分離的壓縮機制和創新性引入文字指導,實現了對大幅運動影片的高效壓縮與精準重建,同時保持很好的時間一致性和運動恢復。
圖片
  • 論文地址:https://arxiv.org/abs/2412.17805

  • 程式碼已開源:https://github.com/VideoVerses/VideoVAEPlus

VideoVAE + 模型大幅超過最新模型包括英偉達在 2024.11 釋出的 Cosmos Tokenizer,同時也超越一眾方法包括騰訊在 2024.12 釋出的 Hunyuan Video,CogvideoX VAE,WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。港科大開源VideoVAE+,影片重建質量全面超越最新模型
什麼是 VideoVAE 模型

VideoVAE 模型(Video Variational Autoencoder)是一種基於深度學習的生成模型,用於對影片資料進行壓縮、重建和生成,講影片從 RGB 畫素空間投影到低維度的 latent 空間。常用於結合 Diffusion 生成模型組成兩階段的模型結構:即先透過 VideoVAE 的編碼器(Encoder)實現壓縮資料維度,去除冗餘資訊,再在低維 latent 空間用 diffusion 模型進行 latent 生成,最後透過 VideoVAE 的解碼器(Decoder)將 latent 解碼到 RGB 影片,從而實現降低計算資源,更加高效的生成。

目前方法

一些方法直接採用影像 VAE 進行逐幀壓縮,忽略了幀與幀之間的時間關聯性,導致影片生成過程中出現嚴重的時序閃爍問題。此外,時間維度上的冗餘資訊未被充分壓縮,使得後續的擴散模型訓練效率低下,成本高昂。

另外,最近很多方法開始使用 VideoVAE,考慮時間維度,但仍存在諸多問題。包括細節模糊和失真(比如面部、手部、邊緣和文字),以及重建大幅運動的影片時,出現運動卡頓(缺乏連貫及合理的時序過渡)和偽影等問題。
圖片
圖 1:該研究將該研究的方法和一眾優秀工作包括 Open Sora Plan, Open Sora, CV-VAE, CogVideoX-VAE, Easy Animate-VAE 進行了視覺對比,VideoVAE + 能夠準確重建大幅運動的影片,並且有效解決了運動卡頓,重建模糊,細節缺失等問題。

方法

為了解決上述問題,VideoVAE + 提出了一種新的 cross-modal Video VAE 架構,其設計的關鍵點包括:

1. 時空分離的壓縮機制:提出一種時序感知的空間壓縮方法,有效分離空間和時間資訊處理,避免因時空耦合而導致的運動偽影。

2. 輕量級運動壓縮模型:專門設計了一個模型用於時序壓縮,高效捕獲影片中的運動動態。

3. 文字資訊融合:利用文字到影片資料集中的文字資訊作為指導,提高影片細節的保留能力和時間穩定性。

4. 影像和影片的聯合訓練:透過在影像和影片資料上的聯合訓練,增強了模型在多工上的重建效能和適應性。
圖片
文章對比了三種時空建模方法:同步建模、順序建模以及該研究提出的最優時空建模方案。
  • 方式 1 同時建模:透過將預訓練的 2D 空間 VAE 擴充套件為 3D VAE 實現,進行時間和空間的同步壓縮。然而,這種方法在捕捉時間動態時容易導致資訊混淆,影響生成質量。

  • 方式 2 順序建模:先透過空間編碼器壓縮空間維度,再用時間編碼器壓縮時間資訊。但這種方式對時序細節的處理較為有限,容易出現時序一致性問題。

  • 該研究的方法:該研究結合兩種方法的優勢,提出最優的時空建模策略。

該研究的方案具體包括時序感知的空間自編碼器(Temporal-aware Spatial AutoEncoder)和時序自編碼器(Temporal Autoencoder):

在第一階段,該研究將 2D 卷積擴充套件為核大小為 (1,3,3) 的 3D 卷積,並與同時建模類似,同時新增了額外的 3D 卷積層來建模時序維度,該研究將第一階段的模型稱為時序感知的空間自編碼器。但與方式 1 同時建模不同的是,在第一階段中,該研究僅壓縮空間資訊,而不壓縮時序資訊。

在第二階段中,該研究引入了另一個時序自編碼器(Temporal Autoencoder)來進一步編碼和壓縮時間維度資訊,這作為第二階段的壓縮部分。該研究遵循方式 2 的時間編碼器和解碼器設計。透過這種方式該研究同時實現了更好的細節恢復能力和運動恢復能力。

同時,該研究提出引入跨模態資訊,透過文字指導進一步增強影片生成的細節保留和時間一致性。

該技術的主要特點有:

1. 智慧特徵分塊

將影片的視覺特徵圖分割成小塊(patch),並將它們作為 token 進行處理,不同層採用多種尺寸(8×8、4×4、2×2、1×1),確保每層特徵的細節追蹤到位。

2. 跨模態注意力機制

首次在 Video VAE 任務上引入文字資訊作為語義指導,讓視覺 token(作為 Query)與文字嵌入(作為 Key 和 Value)計算跨模態注意力,提升細節重建質量。

3. 強大的文字嵌入器

採用先進的 Flan-T5 模型,將文字轉化為語義向量,為影片生成提供堅實的語義基礎。

其次,該研究採用了影像與影片的聯合訓練。模型能夠同時接受影像和影片作為訓練資料,既學習影像壓縮能力,又提升影片壓縮效能。在訓練中該研究觀察到,加入更多高質量的影像資料,能進一步增強影片自編碼效能。

結果

該研究提供了 latent 在 16 channel 和 4 channel 兩個版本的模型,以及在三個不同的資料集上對效果進行了全面評測。

該研究的 VideoVAE + 模型大幅超過最新模型包括英偉達在 2024.11 釋出的 Cosmos Tokenizer,同時也超越一眾方法包括騰訊在 2024.12 釋出的 Hunyuan Video,CogvideoX VAE, WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。
圖片
同時該研究提供了 Demo video 可以更直觀地檢視模型的視覺效果。港科大開源VideoVAE+,影片重建質量全面超越最新模型

相關文章