影片時代需要自己的基礎設施。VideoSys 的目標是使影片生成對於每個人而言都簡便、迅速且成本低廉。
自今年起,OpenAI 的 Sora 和其他基於 DiT 的影片生成模型在 AI 領域掀起了又一波浪潮。但由於起步較晚,影片生成領域的很多基礎設施都還有待完善。今年 2 月份,新加坡國立大學尤洋團隊開源的一個名為 OpenDiT 的專案為訓練和部署 DiT 模型開啟了新思路。這是一個易於使用、快速且記憶體高效的系統,專門用於提高 DiT 應用程式的訓練和推理效率,包括文字到影片生成和文字到影像生成。專案上線後非常受歡迎,尤洋團隊也一直在繼續這方面的工作,包括增加對 Open-Sora 等模型的支援,開發 DSP、PAB 加速技術等。最近,他們更是把這些進展都融合到了一起,開發出了一個名為 VideoSys 的影片生成系統。團隊表示,與 LLM 不同,影片模型要處理長序列和複雜的執行流程。並且模型的每個元件都具有獨特的特徵,對記憶體和計算提出了不同的挑戰。VideoSys 是一個簡單高效的影片生成系統,旨在讓影片生成對於每個人而言都簡便、迅速且成本低廉。此外,它還是一個開源專案,為影片生成提供了一個使用者友好的高效能基礎設施。這個全面的工具包將支援從訓練、推理到服務和壓縮的整個 pipeline。它標誌著影片生成的新篇章。從 OpenDiT 到 VideoSys,尤洋團隊的相關工作已經收穫了 1.4k 的 star 量。- 專案連結:https://github.com/NUS-HPC-AI-Lab/VideoSys
VideoSys 的安裝、使用方法和相關技術如下。 Python >= 3.10
PyTorch >= 1.13(建議使用 2.0 以上版本)
CUDA >= 11.6
強烈建議使用 Anaconda 建立一個新環境(Python>=3.10)來執行示例:conda create -n videosys python=3.10 -y
conda activate videosys
git clone https://github.com/NUS-HPC-AI-Lab/VideoSyscd VideoSys
pip install -e .
VideoSys 透過各種加速技術支援許多擴散模型,使這些模型能夠執行得更快並消耗更少的記憶體。你可以在下表中找到所有可用模型及其支援的加速技術。Pyramid Attention Broadcast (PAB)PAB 是業內第一種可以實時輸出的、基於 DiT 的影片生成方法,無需任何訓練即可提供無損質量。透過減少冗餘注意力計算,PAB 實現了高達 21.6 FPS 的幀率和 10.6 倍的加速,同時不會犧牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在內的基於 DiT 的影片生成模型的質量。值得注意的是,作為一種不需要訓練的方法,PAB 可以為任何未來基於 DiT 的影片生成模型提供加速,讓其具備實時生成的能力。詳情請參見機器之心報導:《史上首個實時 AI 影片生成技術:DiT 通用,速度提升 10.6 倍》- 論文:https://arxiv.org/abs/2408.12588
- 部落格:https://arxiv.org/abs/2403.10266
- 文件:https://github.com/NUS-HPC-AI-Lab/VideoSys/blob/master/docs/pab.md
Dyanmic Sequence Parallelism(DSP)DSP 是一種新穎、優雅、超高效的序列並行演算法,適用於 Open-Sora、Latte 等多維 transformer 架構。與 sota 序列並行方法 DeepSpeed Ulysses 相比,它在 Open-Sora 中實現了 3 倍的訓練加速和 2 倍的推理加速。對於 10 秒(80 幀)的 512x512 影片,Open-Sora 的推理延遲如下:- 論文:https://arxiv.org/abs/2403.10266
- 文件:https://github.com/NUS-HPC-AI-Lab/VideoSys/blob/master/docs/dsp.md