智譜版Sora開源爆火:狂攬4K Star,4090單卡執行,A6000可微調

机器之心發表於2024-08-06

智譜AI把自研打造的大模型給開源了。


國內影片生成領域越來越捲了。剛剛,智譜 AI 宣佈將與「清影」同源的影片生成模型 ——CogVideoX 開源。短短几個小時狂攬 4k 星標。

圖片

  • 程式碼倉庫:https://github.com/THUDM/CogVideo
  • 模型下載:https://huggingface.co/THUDM/CogVideoX-2b
  • 技術報告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

7 月 26 日,智譜 AI 正式釋出影片生成產品「清影」,得到大家廣泛好評。只要你有好的創意(幾個字到幾百個字),再加上一點點耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度影片。

官宣即日起,清影上線清言 App,所有使用者都可以全方位體驗。想要嘗試的小夥伴可以去「智譜清言」上體驗「清影」生影片的能力。

「清影」的出現被譽為是國內首個人人可用的 Sora。釋出 6 天,「清影」生成影片數就突破百萬量級。

  • PC 端訪問連結:https://chatglm.cn/
  • 移動端訪問連結:https://chatglm.cn/download?fr=web_home

為何智譜 AI 開源模型如此爆火?要知道雖然現在影片生成技術正逐步走向成熟,然而,仍未有一個開源的影片生成模型,能夠滿足商業級應用的要求。大家熟悉的 Sora、Gen-3 等都是閉源的。CogVideoX 的開源就好比 OpenAI 將 Sora 背後的模型開源,對廣大研究者而言,意義重大。
CogVideoX 開源模型包含多個不同尺寸大小的模型,目前智譜 AI 開源 CogVideoX-2B,它在 FP-16 精度下的推理僅需 18GB 視訊記憶體,微調則只需要 40GB 視訊記憶體,這意味著單張 4090 顯示卡即可進行推理,而單張 A6000 顯示卡即可完成微調。
CogVideoX-2B 的提示詞上限為 226 個 token,影片長度為 6 秒,幀率為 8 幀 / 秒,影片解析度為 720*480。智譜 AI 為影片質量的提升預留了廣闊的空間,期待開發者們在提示詞最佳化、影片長度、幀率、解析度、場景微調以及圍繞影片的各類功能開發上貢獻開源力量。
效能更強引數量更大的模型正在路上,敬請關注與期待。

模型

圖片

VAE

影片資料因包含空間和時間資訊,其資料量和計算負擔遠超影像資料。為應對此挑戰,智譜提出了基於 3D 變分自編碼器(3D VAE)的影片壓縮方法。3D VAE 透過三維卷積同時壓縮影片的空間和時間維度,實現了更高的壓縮率和更好的重建質量。

圖片

模型結構包括編碼器、解碼器和潛在空間正則化器,透過四個階段的下采樣和上取樣實現壓縮。時間因果卷積確保了資訊的因果性,減少了通訊開銷。智譜採用上下文並行技術以適應大規模影片處理。

實驗中,智譜 AI 發現大解析度編碼易於泛化,而增加幀數則挑戰較大。因此,智譜分兩階段訓練模型:首先在較低幀率和小批次上訓練,然後透過上下文並行在更高幀率上進行微調。訓練損失函式結合了 L2 損失、LPIPS 感知損失和 3D 判別器的 GAN 損失。
專家 Transformer

智譜 AI 使用 VAE 的編碼器將影片壓縮至潛在空間,然後將潛在空間分割成塊並展開成長的序列嵌入 z_vision。同時,智譜 AI 使用 T5,將文字輸入編碼為文字嵌入 z_text,然後將 z_text 和 z_vision 沿序列維度拼接。拼接後的嵌入被送入專家 Transformer 塊堆疊中處理。最後,反向拼接嵌入來恢復原始潛在空間形狀,並使用 VAE 進行解碼以重建影片。

圖片

Data

影片生成模型訓練需篩選高質量影片資料,以學習真實世界動態。影片可能因人工編輯或拍攝問題而不準確。智譜 AI 開發了負面標籤來識別和排除低質量影片,如過度編輯、運動不連貫、質量低下、講座式、文字主導和螢幕噪音影片。透過 video-llama 訓練的過濾器,智譜 AI 標註並篩選了 20,000 個影片資料點。同時,計算光流和美學分數,動態調整閾值,確保生成影片的質量。
影片資料通常沒有文字描述,需要轉換為文字描述以供文字到影片模型訓練。現有的影片字幕資料集字幕較短,無法全面描述影片內容。智譜 AI 提出了一種從影像字幕生成影片字幕的管道,並微調端到端的影片字幕模型以獲得更密集的字幕。這種方法透過 Panda70M 模型生成簡短字幕,使用 CogView3 模型生成密集影像字幕,然後使用 GPT-4 模型總結生成最終的短影片。智譜 AI 還微調了一個基於 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型,使用密集字幕資料進行訓練,以加速影片字幕生成過程。

圖片

效能

為了評估文字到影片生成的質量,智譜 AI 使用了 VBench 中的多個指標,如人類動作、場景、動態程度等。智譜 AI 還使用了兩個額外的影片評估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,這些工具專注於影片的動態特性。如下表所示。
圖片
智譜 AI 已經驗證了 scaling law 在影片生成方面的有效性,未來會在不斷 scale up 資料規模和模型規模的同時,探究更具突破式創新的新型模型架構、更高效地壓縮影片資訊、更充分地融合文字和影片內容。

最後,我們看看「清影」的效果。

提示語:「一艘精緻的木製玩具船,桅杆和船帆雕刻精美,平穩地滑過一塊模仿海浪的藍色毛絨地毯。船體漆成濃郁的棕色,有小窗戶。地毯柔軟而有質感,提供了完美的背景,類似於廣闊的海洋。船周圍還有各種玩具和兒童用品,暗示著一個好玩的環境。這個場景捕捉到了童年的純真和想象力,玩具船的旅程象徵著在異想天開的室內環境中無盡的冒險。」智譜版Sora開源爆火:狂攬4K Star,4090單卡執行,A6000可微調提示語:「鏡頭跟隨一輛裝著黑色車頂行李架的白色老式 SUV,它在陡峭的山坡上沿著松樹環繞的土路加速行駛,輪胎揚起塵土,陽光照射在沿著土路飛馳的 SUV 身上,為場景投下溫暖的光芒。土路緩緩彎曲向遠方延伸,看不到其他汽車或車輛。道路兩旁的樹木都是紅杉,點綴著一片片綠植。從後面看,汽車輕鬆地順著彎道行駛,讓人覺得它正在崎嶇的地形上行駛。土路周圍是陡峭的山丘和山脈,頭頂是湛藍的天空,上面飄著薄薄的雲彩。」 智譜版Sora開源爆火:狂攬4K Star,4090單卡執行,A6000可微調提示語:「一片白雪皚皚的森林景觀,一條土路穿過其中。道路兩旁是被白雪覆蓋的樹木,地面也被白雪覆蓋。陽光燦爛,營造出明亮而寧靜的氛圍。道路上空無一人,影片中看不到任何人或動物。影片的風格是自然風景拍攝,重點是白雪皚皚的森林之美和道路的寧靜。」 智譜版Sora開源爆火:狂攬4K Star,4090單卡執行,A6000可微調提示語:「雞肉和青椒烤肉串在燒烤架上燒烤的特寫。淺焦和淡煙。色彩鮮豔」 智譜版Sora開源爆火:狂攬4K Star,4090單卡執行,A6000可微調

相關文章