潞晨科技正式推出 Open-Sora 2.0 —— 一款全新開源的 SOTA 影片生成模型,僅 20 萬美元(224 張 GPU)成功訓練商業級 11B 引數影片生成大模型。開發高效能的影片生成模型通常耗資高昂:Meta 的影片模型訓練需要 6000 多張 GPU 卡片,投入數百萬美元。在多項關鍵指標上,它與動輒百萬美元訓練成本的模型分庭抗禮,全面提升影片生成的可及性與可擴充性。
今天,影片生成領域迎來開源革命!Open-Sora 2.0—— 全新開源的 SOTA(State-of-the-Art)影片生成模型正式釋出,僅用 20 萬美元(224 張 GPU)成功訓練出商業級 11B 引數影片生成大模型,效能直追 HunyuanVideo 和 30B 引數的 Step-Video。權威評測 VBench 及使用者偏好測試均證實其卓越表現,在多項關鍵指標上媲美動輒數百萬美元訓練成本的閉源模型。此次釋出全面開源模型權重、推理程式碼及分散式訓練全流程,讓高質量影片生成真正觸手可及,進一步提升影片生成的可及性與可擴充性。
1.1 震撼視覺:Open-Sora 2.0 Demo 先行觀看宣傳片,體驗 Open-Sora 2.0 的強大生成能力
動作幅度可控:可根據需求設定運動幅度,以更好地展現人物或場景的細膩動作。 
畫質與流暢度:提供 720p 高解析度和 24 FPS 流暢影片,讓最終影片擁有穩定幀率與細節表現。 
支援豐富的場景:從鄉村景色到自然風光場景,Open-Sora 2.0生成的畫面細節與相機運鏡都有出色的表現。 

媲美 HunyuanVideo 和 30B Step-Video:Open-Sora 2.0 採用 11B 引數規模,訓練後在 VBench 和人工偏好(Human Preference) 評測上都取得與用高昂成本開發的主流閉源大模型同等水平。
使用者偏好評測:在視覺表現、文字一致性和動作表現三個評估維度上,Open Sora 在至少兩個指標上超越了開源 SOTA HunyuanVideo,以及商業模型 Runway Gen-3 Alpha 等。以小成本獲取了好效能。

Open Sora 自開源以來,憑藉其在影片生成領域的高效與優質表現,吸引了眾多開發者的關注與參與。然而,隨著專案的深入推進,也面臨著高質量影片生成成本居高不下的問題。為解決這些挑戰,Open Sora 團隊展開了一系列卓有成效的技術探索,顯著降低了模型訓練成本。根據估算,市面上 10B 以上的開源影片模型,動輒需要上百萬美元的單次訓練成本,而 Open Sora 2.0 將該成本降低了 5-10 倍。
作為開源影片生成領域的領導者,Open-Sora 不僅繼續開源了模型程式碼和權重,更開源了全流程訓練程式碼,成功打造了強大的開源生態圈。據第三方技術平臺統計,Open-Sora 的學術論文引用量半年內獲得近百引用,在全球開源影響力排名中穩居首位,領先所有開源的 I2V/T2V 影片生成專案,成為全球影響力最大的開源影片生成專案之一。Open-Sora 2.0 延續 Open-Sora 1.2 的設計思路,繼續採用 3D 自編碼器和 Flow Matching 訓練框架,並透過多桶訓練機制,實現對不同影片長度和解析度的同時訓練。在模型架構上,引入 3D 全注意力機制,進一步提升影片生成質量。同時,採用最新的 MMDiT 架構,更精準地捕捉文字資訊與影片內容的關係,並將模型規模從 1B 擴充套件至 11B。此外,藉助開源圖生影片模型 FLUX 進行初始化,大幅降低訓練成本,實現更高效的影片生成最佳化。為了追求極致的成本最佳化,Open-Sora 2.0 從四個方面著手削減訓練開銷。首先,透過嚴格的資料篩選,確保高質量資料輸入,從源頭提升模型訓練效率。採用多階段、多層次的篩選機制,結合多種過濾器,有效提升影片質量,為模型提供更精準、可靠的訓練資料。其次,高解析度訓練的成本遠超低解析度,達到相同資料量時,計算開銷可能高達 40 倍。以 256px、5 秒的影片為例,其 tokens 數量約 8 千,而 768px 的影片 tokens 數量接近 8 萬,相差 10 倍,再加上注意力機制的平方級計算複雜度,高解析度訓練的代價極其昂貴。因此,Open-Sora 優先將算力投入到低解析度訓練,以高效學習運動資訊,在降低成本的同時確保模型能夠捕捉關鍵的動態特徵。與此同時,Open-Sora 優先訓練圖生影片任務,以加速模型收斂。相比直接訓練高解析度影片,圖生影片模型在提升解析度時具備更快的收斂速度,從而進一步降低訓練成本。在推理階段,除了直接進行文字生影片(T2V),還可以結合開源影像模型,透過文字生圖再生影片(T2I2V),以獲得更精細的視覺效果。最後,Open-Sora 採用高效的並行訓練方案,結合 ColossalAI 和系統級最佳化,大幅提升計算資源利用率,實現更高效的影片生成訓練。為了最大化訓練效率,我們引入了一系列關鍵技術,包括:高效的序列並行和 ZeroDP,最佳化大規模模型的分散式計算效率。
細粒度控制的 Gradient Checkpointing,在降低視訊記憶體佔用的同時保持計算效率。
訓練自動恢復機制,確保 99% 以上的有效訓練時間,減少計算資源浪費。
高效資料載入與記憶體管理,最佳化 I/O,防止訓練阻塞,加速訓練流程。
高效非同步模型儲存,減少模型儲存對訓練流程的干擾,提高 GPU 利用率。
運算元最佳化,針對關鍵計算模組進行深度最佳化,加速訓練過程。
這些最佳化措施協同作用,使 Open-Sora 2.0 在高效能與低成本之間取得最佳平衡,大大降低了高質量影片生成模型的訓練。在訓練完成後,Open-Sora 面向未來,進一步探索高壓縮比影片自編碼器的應用,以大幅降低推理成本。目前,大多數影片模型仍採用 4×8×8 的自編碼器,導致單卡生成 768px、5 秒影片耗時近 30 分鐘。為解決這一瓶頸,Open-Sora 訓練了一款高壓縮比(4×32×32)的影片自編碼器,將推理時間縮短至單卡 3 分鐘以內,推理速度提升 10 倍。要實現高壓縮比編碼器,需要解決兩個核心挑戰:如何訓練高壓縮但仍具備優秀重建效果的自編碼器,以及如何利用該編碼器訓練影片生成模型。針對前者,Open-Sora 團隊在影片升降取樣模組中引入殘差連線,成功訓練出一款重建質量媲美當前開源 SoTA 影片壓縮模型,且具備更高壓縮比的 VAE,自此奠定了高效推理的基礎。高壓縮自編碼器在訓練影片生成模型時面臨更高的資料需求和收斂難度,通常需要更多訓練資料才能達到理想效果。為解決這一問題,Open-Sora 提出了基於蒸餾的最佳化策略,以提升 AE(自編碼器)特徵空間的表達能力,並利用已經訓練好的高質量模型作為初始化,減少訓練所需的資料量和時間。此外,Open-Sora 還重點訓練圖生影片任務,利用影像特徵引導影片生成,進一步提升高壓縮自編碼器的收斂速度,使其在更短時間內達到一定生成效果。Open-Sora 認為,高壓縮比影片自編碼器將成為未來降低影片生成成本的關鍵方向。目前的初步實驗結果已展現出顯著的推理加速效果,希望能進一步激發社群對這一技術的關注與探索,共同推動高效、低成本的影片生成發展。3. 加入 Open-Sora 2.0,共同推動 AI 影片革命歡迎加入 Open-Sora 社群,探索 AI 影片的未來!Open-Sora 2.0,未來已來。讓我們用更少的資源、更開放的生態,創造屬於下一代的數字影像世界!