影片生成要有自己的系統!尤洋團隊歷時半年開源VideoSys

机器之心發表於2024-08-26

影片時代需要自己的基礎設施。VideoSys 的目標是使影片生成對於每個人而言都簡便、迅速且成本低廉。


自今年起,OpenAI 的 Sora 和其他基於 DiT 的影片生成模型在 AI 領域掀起了又一波浪潮。但由於起步較晚,影片生成領域的很多基礎設施都還有待完善。

今年 2 月份,新加坡國立大學尤洋團隊開源的一個名為 OpenDiT 的專案為訓練和部署 DiT 模型開啟了新思路。這是一個易於使用、快速且記憶體高效的系統,專門用於提高 DiT 應用程式的訓練和推理效率,包括文字到影片生成文字到影像生成

專案上線後非常受歡迎,尤洋團隊也一直在繼續這方面的工作,包括增加對 Open-Sora 等模型的支援,開發 DSP、PAB 加速技術等。
圖片
最近,他們更是把這些進展都融合到了一起,開發出了一個名為 VideoSys 的影片生成系統。
圖片
團隊表示,與 LLM 不同,影片模型要處理長序列和複雜的執行流程。並且模型的每個元件都具有獨特的特徵,對記憶體和計算提出了不同的挑戰。

VideoSys 是一個簡單高效的影片生成系統,旨在讓影片生成對於每個人而言都簡便、迅速且成本低廉。
圖片
此外,它還是一個開源專案,為影片生成提供了一個使用者友好的高效能基礎設施。這個全面的工具包將支援從訓練、推理到服務和壓縮的整個 pipeline。它標誌著影片生成的新篇章。
圖片
從 OpenDiT 到 VideoSys,尤洋團隊的相關工作已經收穫了 1.4k 的 star 量。
圖片
  • 專案連結:https://github.com/NUS-HPC-AI-Lab/VideoSys

VideoSys 的安裝、使用方法和相關技術如下。

安裝方法

安裝準備:
Python >= 3.10
PyTorch >= 1.13(建議使用 2.0 以上版本)
CUDA >= 11.6

強烈建議使用 Anaconda 建立一個新環境(Python>=3.10)來執行示例:
conda create -n videosys python=3.10 -y
conda activate videosys

安裝 VideoSys:
git clone https://github.com/NUS-HPC-AI-Lab/VideoSyscd VideoSys
pip install -e .

使用方法

VideoSys 透過各種加速技術支援許多擴散模型,使這些模型能夠執行得更快並消耗更少的記憶體。

你可以在下表中找到所有可用模型及其支援的加速技術。
圖片
加速技術

Pyramid Attention Broadcast (PAB)
圖片
PAB 是業內第一種可以實時輸出的、基於 DiT 的影片生成方法,無需任何訓練即可提供無損質量。透過減少冗餘注意力計算,PAB 實現了高達 21.6 FPS 的幀率和 10.6 倍的加速,同時不會犧牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在內的基於 DiT 的影片生成模型的質量。值得注意的是,作為一種不需要訓練的方法,PAB 可以為任何未來基於 DiT 的影片生成模型提供加速,讓其具備實時生成的能力。詳情請參見機器之心報導:《史上首個實時 AI 影片生成技術:DiT 通用,速度提升 10.6 倍

  • 論文:https://arxiv.org/abs/2408.12588
  • 部落格:https://arxiv.org/abs/2403.10266
  • 文件:https://github.com/NUS-HPC-AI-Lab/VideoSys/blob/master/docs/pab.md

Dyanmic Sequence Parallelism(DSP)
圖片
DSP 是一種新穎、優雅、超高效的序列並行演算法,適用於 Open-Sora、Latte 等多維 transformer 架構。

與 sota 序列並行方法 DeepSpeed Ulysses 相比,它在 Open-Sora 中實現了 3 倍的訓練加速和 2 倍的推理加速。對於 10 秒(80 幀)的 512x512 影片,Open-Sora 的推理延遲如下:
圖片
  • 論文:https://arxiv.org/abs/2403.10266
  • 文件:https://github.com/NUS-HPC-AI-Lab/VideoSys/blob/master/docs/dsp.md

更多詳細資訊請參考該專案 Github 介面。

相關文章