智譜版Sora開源爆火：狂攬4K Star，4090單卡執行，A6000可微調

机器之心發表於2024-08-06

原文網址 : https://www.jiqizhixin.com/articles/2024-08-06-10

Sora

智譜AI把自研打造的大模型給開源了。

國內影片生成領域越來越捲了。剛剛，智譜 AI 宣佈將與「清影」同源的影片生成模型 ——CogVideoX 開源。短短几個小時狂攬 4k 星標。

程式碼倉庫：https://github.com/THUDM/CogVideo
模型下載：https://huggingface.co/THUDM/CogVideoX-2b
技術報告：https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日，智譜 AI 正式釋出影片生成產品「清影」，得到大家廣泛好評。只要你有好的創意（幾個字到幾百個字），再加上一點點耐心（30 秒），「清影」就能生成 1440x960 清晰度的高精度影片。

官宣即日起，清影上線清言 App，所有使用者都可以全方位體驗。想要嘗試的小夥伴可以去「智譜清言」上體驗「清影」生影片的能力。

「清影」的出現被譽為是國內首個人人可用的 Sora。釋出 6 天，「清影」生成影片數就突破百萬量級。

PC 端訪問連結：https://chatglm.cn/
移動端訪問連結：https://chatglm.cn/download?fr=web_home

為何智譜 AI 開源模型如此爆火？要知道雖然現在影片生成技術正逐步走向成熟，然而，仍未有一個開源的影片生成模型，能夠滿足商業級應用的要求。大家熟悉的 Sora、Gen-3 等都是閉源的。CogVideoX 的開源就好比 OpenAI 將 Sora 背後的模型開源，對廣大研究者而言，意義重大。

CogVideoX 開源模型包含多個不同尺寸大小的模型，目前智譜 AI 開源 CogVideoX-2B，它在 FP-16 精度下的推理僅需 18GB 視訊記憶體，微調則只需要 40GB 視訊記憶體，這意味著單張 4090 顯示卡即可進行推理，而單張 A6000 顯示卡即可完成微調。

CogVideoX-2B 的提示詞上限為 226 個 token，影片長度為 6 秒，幀率為 8 幀 / 秒，影片解析度為 720*480。智譜 AI 為影片質量的提升預留了廣闊的空間，期待開發者們在提示詞最佳化、影片長度、幀率、解析度、場景微調以及圍繞影片的各類功能開發上貢獻開源力量。

效能更強引數量更大的模型正在路上，敬請關注與期待。

模型

VAE

影片資料因包含空間和時間資訊，其資料量和計算負擔遠超影像資料。為應對此挑戰，智譜提出了基於 3D 變分自編碼器（3D VAE）的影片壓縮方法。3D VAE 透過三維卷積同時壓縮影片的空間和時間維度，實現了更高的壓縮率和更好的重建質量。

模型結構包括編碼器、解碼器和潛在空間正則化器，透過四個階段的下采樣和上取樣實現壓縮。時間因果卷積確保了資訊的因果性，減少了通訊開銷。智譜採用上下文並行技術以適應大規模影片處理。

實驗中，智譜 AI 發現大解析度編碼易於泛化，而增加幀數則挑戰較大。因此，智譜分兩階段訓練模型：首先在較低幀率和小批次上訓練，然後透過上下文並行在更高幀率上進行微調。訓練損失函式結合了 L2 損失、LPIPS 感知損失和 3D 判別器的 GAN 損失。

專家 Transformer

智譜 AI 使用 VAE 的編碼器將影片壓縮至潛在空間，然後將潛在空間分割成塊並展開成長的序列嵌入 z_vision。同時，智譜 AI 使用 T5，將文字輸入編碼為文字嵌入 z_text，然後將 z_text 和 z_vision 沿序列維度拼接。拼接後的嵌入被送入專家 Transformer 塊堆疊中處理。最後，反向拼接嵌入來恢復原始潛在空間形狀，並使用 VAE 進行解碼以重建影片。

Data

影片生成模型訓練需篩選高質量影片資料，以學習真實世界動態。影片可能因人工編輯或拍攝問題而不準確。智譜 AI 開發了負面標籤來識別和排除低質量影片，如過度編輯、運動不連貫、質量低下、講座式、文字主導和螢幕噪音影片。透過 video-llama 訓練的過濾器，智譜 AI 標註並篩選了 20,000 個影片資料點。同時，計算光流和美學分數，動態調整閾值，確保生成影片的質量。

影片資料通常沒有文字描述，需要轉換為文字描述以供文字到影片模型訓練。現有的影片字幕資料集字幕較短，無法全面描述影片內容。智譜 AI 提出了一種從影像字幕生成影片字幕的管道，並微調端到端的影片字幕模型以獲得更密集的字幕。這種方法透過 Panda70M 模型生成簡短字幕，使用 CogView3 模型生成密集影像字幕，然後使用 GPT-4 模型總結生成最終的短影片。智譜 AI 還微調了一個基於 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型，使用密集字幕資料進行訓練，以加速影片字幕生成過程。

效能

為了評估文字到影片生成的質量，智譜 AI 使用了 VBench 中的多個指標，如人類動作、場景、動態程度等。智譜 AI 還使用了兩個額外的影片評估工具：Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score，這些工具專注於影片的動態特性。如下表所示。

智譜 AI 已經驗證了 scaling law 在影片生成方面的有效性，未來會在不斷 scale up 資料規模和模型規模的同時，探究更具突破式創新的新型模型架構、更高效地壓縮影片資訊、更充分地融合文字和影片內容。

最後，我們看看「清影」的效果。

提示語：「一艘精緻的木製玩具船，桅杆和船帆雕刻精美，平穩地滑過一塊模仿海浪的藍色毛絨地毯。船體漆成濃郁的棕色，有小窗戶。地毯柔軟而有質感，提供了完美的背景，類似於廣闊的海洋。船周圍還有各種玩具和兒童用品，暗示著一個好玩的環境。這個場景捕捉到了童年的純真和想象力，玩具船的旅程象徵著在異想天開的室內環境中無盡的冒險。」智譜版Sora開源爆火：狂攬4K Star，4090單卡執行，A6000可微調

提示語：「鏡頭跟隨一輛裝著黑色車頂行李架的白色老式 SUV，它在陡峭的山坡上沿著松樹環繞的土路加速行駛，輪胎揚起塵土，陽光照射在沿著土路飛馳的 SUV 身上，為場景投下溫暖的光芒。土路緩緩彎曲向遠方延伸，看不到其他汽車或車輛。道路兩旁的樹木都是紅杉，點綴著一片片綠植。從後面看，汽車輕鬆地順著彎道行駛，讓人覺得它正在崎嶇的地形上行駛。土路周圍是陡峭的山丘和山脈，頭頂是湛藍的天空，上面飄著薄薄的雲彩。」智譜版Sora開源爆火：狂攬4K Star，4090單卡執行，A6000可微調

提示語：「一片白雪皚皚的森林景觀，一條土路穿過其中。道路兩旁是被白雪覆蓋的樹木，地面也被白雪覆蓋。陽光燦爛，營造出明亮而寧靜的氛圍。道路上空無一人，影片中看不到任何人或動物。影片的風格是自然風景拍攝，重點是白雪皚皚的森林之美和道路的寧靜。」智譜版Sora開源爆火：狂攬4K Star，4090單卡執行，A6000可微調

提示語：「雞肉和青椒烤肉串在燒烤架上燒烤的特寫。淺焦和淡煙。色彩鮮豔」智譜版Sora開源爆火：狂攬4K Star，4090單卡執行，A6000可微調

微軟開源的GraphRAG爆火，Github Star量破萬，生成式AI進入知識圖譜時代？
2024-07-15
微軟GithubAI
快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求
2024-06-13
AISora
單個4090可推理，2000億稀疏大模型「天工MoE」開源
2024-06-04
大模型
ControlNet作者又出爆款！一張圖生成繪畫全過程，兩天狂攬1.4k Star
2024-07-11
新火種AI|Sora爆火100小時：核心團隊被扒，賣課狂割韭菜，虛假影片氾濫
2024-02-20
AISora
爆火ChatTTS突破開源語音天花板，3天斬獲9k的Star量
2024-05-31
TTS
量子計算里程碑！微軟單晶片可百萬量子位元，Nature研究爆火
2025-02-20
微軟晶片
這家低調的SLG遊戲公司，去年狂攬20+億
2021-03-18
遊戲
三步盤活“爆款”社交創意，《最強蝸牛》狂攬11.7億
2021-07-19
狂攬兩千星，速度百倍提升，高效能Python編譯器Codon開源
2022-12-12
Python編譯
多執行緒賣火車票簡單例子
2019-01-30
執行緒單例
2.3k Star！強得不像開源的問卷調研平臺
2024-11-29
3天狂賣400萬份，《怪物獵人:崛起》憑什麼爆火？
2021-04-02
RTX 4090可跑、完全開源，最快影片生成模型問世，實測一言難盡
2024-11-24
模型
上線首月狂攬6億收入，日本遊戲廠商又做出了一個AR爆款！
2019-10-23
遊戲
騰訊“瘋狂”開源！
2020-01-22
Open Sora 釋出！開源的高效復現類 Sora 影片生成方案
2024-03-20
Sora
Karpathy稱讚，從零實現LLaMa3專案爆火，半天1.5k star
2024-05-20
單鏡頭16秒720p高畫質影片一鍵生成，開源版Sora又有新驚喜了
2024-06-18
Sora
曾爆火的 InstantID又有了新玩法：風格化影像生成，已開源
2024-04-15
打造 10000 Star 的前端開源專案 ⭐
2019-03-02
前端
開源 Mock 工具 [djmockserver]~~~歡迎使用 star
2020-04-15
MockServer
開源電路分享のFalling Star Board
2021-06-09
微軟開源超強小模型 Phi-4，超 GPT-4o、可商用；HeyGen 整合 Sora 推全新數字人技術
2025-01-09
微軟模型GPTSora
又一屆「AI春晚」拉開序幕！智源大模型集體爆發了
2024-06-16
AI大模型
2018微擎微信小程式開發大賽火熱進行中
2018-05-07
微信小程式
Github 上那些開源專案的 star 數
2019-03-01
Github
react-admin-plus 正式開源, 歡迎star
2020-12-09
React
簡談開源OS發行版
2022-01-29
JuiceFS 即將釋出 1.0 並調整開源許可
2022-01-12
UI
IDEA執行報錯，java: 警告: 源發行版 11 需要目標發行版 11
2022-12-18
IdeaJava
寫了個go工具，用於並行執行協程，歡迎 star，哦不對，是求 star
2021-08-18
Go並行
idea執行springboot開源專案Guns
2018-08-15
IdeaSpring Boot
開源社群引數量最大的文生影片模型來了，騰訊版Sora免費使用
2024-12-03
模型Sora
開源超閉源！通義千問Qwen2釋出即爆火，網友：GPT-4o危
2024-06-11
GPT
畢設開源了，126個star，39個fork
2019-06-02
多卡4090伺服器怎麼使用指定顯示卡啟動服務
2024-11-01
伺服器
Tkinter (18) 可微調輸入部件 Spinbox
2020-08-14

智譜版Sora開源爆火：狂攬4K Star，4090單卡執行，A6000可微調

相關文章