開源!上海AI Lab影片生成大模型書生·築夢 2.0來了

机器之心發表於2024-09-23
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近日,上海人工智慧實驗室推出新一代影片生成大模型 “書生・築夢 2.0”(Vchitect 2.0)。根據官方介紹,書生・築夢 2.0 是集文生影片、圖生影片、插幀超分、訓練系統一體化的影片生成大模型。

圖片

  • 主頁:https://vchitect.intern-ai.org.cn/

  • Github: https://github.com/Vchitect/Vchitect-2.0開源!上海AI Lab影片生成大模型書生·築夢 2.0來了

本文將詳細介紹築夢 2.0 背後的核心亮點與技術細節。

核心亮點

1、 支援更長的影片生成

目前來看,築夢 2.0 支援 5s-20s 長影片生成,超過其他開源模型的生成時長。開源!上海AI Lab影片生成大模型書生·築夢 2.0來了開源!上海AI Lab影片生成大模型書生·築夢 2.0來了同時支援高達 720x480 解析度的生成。該模型還能夠處理多種影片格式,包括橫屏、豎屏、4:3、9:16 和 16:9 等比例,極大地擴充套件了其應用場景。 開源!上海AI Lab影片生成大模型書生·築夢 2.0來了開源!上海AI Lab影片生成大模型書生·築夢 2.0來了

2. 新一代影片增強演算法 VEnhancer

與其他開源模型不同,築夢 2.0 同步開源了用於影片增強的生成式模型 ——VEnhancer,整合了插幀、超解析度和修復功能。該增強演算法可在 2K 解析度、24fps 的情況下生成更加清晰、流暢的影片,解決了影片抖動等常見問題,顯著提升了影片的穩定性。開源!上海AI Lab影片生成大模型書生·築夢 2.0來了此外,該演算法還可用於增強其他生成模型的影片表現,GitHub 中展示了它對快手可靈生成影片的顯著改進,對於追求高質量內容輸出的創作者來說,VEnhancer 無疑是一個重要的工具。

3. 全球首個支援長影片生成評測的框架

該在原有的 VBench 評測框架基礎上,最佳化並升級了對長影片生成的評測能力,目前已包含 Gen-3、可靈、OpenSora 等主流模型。這使開發者和使用者能夠更系統地評估模型效能,尤其是在長影片生成方面。書生・築夢 2.0 在開源 2B 模型中表現卓越,效能甚至可以媲美開源最優的 5B 模型。

築夢 2.0 技術解析

1、模型架構

根據開原始碼分析,書生・築夢 2.0 採用了時下熱門的擴散式 Transformer(Diffusion Transformer)網路模型。不同於 CogVideoX 的全注意力機制,築夢 2.0 透過並行結構的 Transformer 模組處理影片的空間和時間資訊,包括自注意力(self-attention)、交叉注意力(cross-attention)和時間注意力(temporal-attention)。
圖片具體來說,自注意力模組負責每一幀之間的 token 互動,交叉注意力則使用所有幀的 token 作為查詢,文字 token 作為鍵和值,而時間注意力則在不同幀的相同位置之間執行 token 的注意力操作。最終,模型透過線性層融合自注意力和交叉注意力的輸出,再與時間注意力的結果相加,從而實現高效的影片生成任務處理。

2、訓練框架

此外,書生・築夢 2.0 同時開源了他們的訓練和推理框架 LiteGen。從改框架的最佳化介紹上看,該框架針對性地提供了 diffusion 任務所需的各項最佳化。
圖片對於如何進一步最佳化視訊記憶體以支援更大序列長度的訓練這一方面,他們的開原始碼採用了 Activation Offload 與 Sequence Parallel 技術進行最佳化。在實現上,他們的 Activation Offload 在計算時將暫未使用的中間啟用 offload 到 CPU 記憶體上,需要時再複製到視訊記憶體中,這樣可以讓 GPU 視訊記憶體中儘量只留有當前計算所必須的啟用,減少了視訊記憶體峰值使用量。從開原始碼的分析開看,他們採用了通訊計算重疊的方式實現 Activation Offload,這將有助於降低裝置間複製通訊對整體效能的影響。

據其開原始碼的說明描述,在 A100 GPU 上,採用 Activation Offload 讓築夢 2.0 的 2B 模型單卡序列長度提升了 42%;進一步應用 Sequence Parallel 擴充至 8 卡,最大序列長度提升 8.6 倍,可以滿足分鐘級影片生成訓練的計算需求。
圖片從其程式碼實現上來看,他們的框架設計得較為輕量,使用介面簡潔,可以在改動比較小的情況下整合框架內的各項最佳化,在易用性上具有不錯的優勢。
圖片團隊介紹

上海人工智慧實驗室的書生·築夢團隊由來自上海人工智慧實驗室和新加坡南洋理工大學S-Lab的成員組成,專注於影片生成技術的前沿研究與應用開發。他們致力於透過創新的演算法和架構最佳化,提升影片生成模型的質量和效率。近期,他們的工作包括VBench、VideoBooth 、FreeU、FreeInit、Latte 、VEnhancer等,這些專案在影片生成、插幀、超解析度處理以及生成質量評估等多個關鍵領域都取得了顯著進展。

相關文章