接力DeepSeek,階躍星辰直接開源兩款國產多模態大模型

机器之心發表於2025-02-18

兩款 Step 系列開源多模態大模型,效能位列開源多模態全行業第一。

本週二,國內 AI 創業公司階躍星辰和吉利汽車集團宣佈聯合開源兩款多模態大模型。

圖片
這兩款大模型分別是影片生成模型 Step-Video-T2V 和行業內首款產品級開源語音互動模型 Step-Audio。根據官方的測評報告,目前 Step-Video-T2V 是全球範圍內引數量最大、效能最好的開源影片生成模型。

Step-Video-T2V 模型部署及技術報告連結:

  • GitHub:https://github.com/stepfun-ai/Step-Video-T2V
  • Hugging Face:https://huggingface.co/stepfun-ai/stepvideo-t2v
  • Modelscope:https://modelscope.cn/models/stepfun-ai/stepvideo-t2v
  • 技術報告:https://arxiv.org/abs/2502.10248

和此前引爆全球科技界的 DeepSeek R1 一樣,階躍星辰的 Step-Video-T2V 影片生成模型,採用最為寬鬆的 MIT 許可協議,支援免費商用、任意修改和衍生開發,為開源社群帶來了新的技術思路啟發。這次釋出也意味著階躍星辰成為大模型開源世界的又一股中國力量。

與此同時,兩款大模型均已可以在「躍問」App 上進行體驗,影片模型還可以在桌面端使用:https://yuewen.cn/videos

階躍星辰的大模型在 AI 社群引發了關注。Hugging Face 工程師、前谷歌 TensorFlow 團隊成員 Tiezhen Wang 表示,階躍星辰簡直就是下個 DeepSeek:
圖片
Hugging Face 官推也轉貼了他的評論。

GPT-J 作者 Aran Komatsuzaki 貼出了用新模型生成的影片。
圖片
更多網友對國內 AI 公司對開源社群的貢獻表示了歡迎。
圖片
最強開源影片模型
會運鏡、生成形象好、還擅長運動

初步體驗一下,可以感覺到 Step-Video-T2V 顯著提升了影片生成 AI 能力的上限。我們看看目前人們用躍問影片生成的效果。

首先要關注的是在電影、影片短片中最顯製作者「功力」的鏡頭排程能力:接力DeepSeek,階躍星辰直接開源兩款國產多模態大模型 低角度旋轉鏡頭圍繞著一個鼓手和他的架子鼓。鼓手穿著深色T恤和淺色褲子,戴著帽子,手臂上有紋身。 接力DeepSeek,階躍星辰直接開源兩款國產多模態大模型
在晴朗的海灘上,一個男孩正在建造沙堡。鏡頭以俯視角度拍攝,展現他專注的神情和靈巧的雙手。

看起來 Step-Video-T2V 具備強大的運鏡能力,它能夠實現推、拉、搖、移、旋轉、跟隨等多種鏡頭運動方式,還能支援不同景別之間的切換。

其次是生成式 AI 的老大難問題 —— 人物運動的姿態。接力DeepSeek,階躍星辰直接開源兩款國產多模態大模型 一個精靈,在森林中起舞,身旁是螢火蟲環繞,月光透過樹葉,慢速展現精靈的輕盈,畫面夢幻唯美。 接力DeepSeek,階躍星辰直接開源兩款國產多模態大模型
跳水。

很多例子顯示,Step-Video-T2V 擅長複雜運動生成,無論是高雅優美的芭蕾舞、對抗激烈的空手道、緊張刺激的羽毛球,還是高速翻轉的跳水,新模型都展現出了對複雜運動場景的優秀把控能力。

我們也很關心 AI 生成人物形象和表情的合理性,在這方面 Step-Video-T2V 也做得不錯。接力DeepSeek,階躍星辰直接開源兩款國產多模態大模型
人物模糊化失焦拍攝,一個女孩的側臉,披肩黑色長卷髮,戴著紅色貝雷帽,穿著藍色毛衣,正在膝上型電腦前打字。

從眾多案例中我們可以發現,Step-Video-T2V 生成的人物形象相比此前的多模態大模型更加逼真、生動,細節更豐富,表情也更自然。AI 生成的人物五官、髮型、皮膚紋理都更加細膩。

從生成效果來看,Step-Video-T2V 在複雜運動、人物美感、視覺想象力、基礎文字生成、原生中英雙語輸入和鏡頭語言等方面具備強大能力,並具有突出的語義理解和指令遵循能力,可以幫助人們更精準地呈現創意。

驚豔的影片生成效果背後,是階躍星辰自研且具有創新性的基礎多模態大模型。

Step-Video-T2V 在開源的同時也第一時間放出了技術報告,可知該模型的引數量達到 300 億,可以單次直接生成 204 幀、540P 解析度的高質量影片。這意味著大模型能夠確保生成的影片內容具有極高的資訊密度和一致性。
圖片
Step-Video-T2V 的架構概覽。

在模型細節上,為了實現更加逼真的影片生成,研究人員設計了深度壓縮變分自編碼器 Video-VAE,它實現了 16×16 的空間壓縮比。與絕大多數 8×8×4 壓縮比的 VAE 模型相比,Video-VAE 能夠在相同影片幀數下額外壓縮 8 倍,從而實現訓練和生成效率提升 64 倍的效果。
圖片
Video-VAE 架構。

與此同時,階躍使用流匹配訓練了一個具有 3D 全注意力機制的 DiT,用於將輸入噪聲去噪成潛在幀,還應用了基於影片的 DPO 方法以減少偽影並提高生成影片的視覺質量。
圖片
雙語文字編碼器和具有 3D Attention 的 DiT 的模型架構。

為了對開源影片生成模型的效能進行全面評測,階躍星辰還開源了針對文生影片質量評測的基準資料集 Step-Video-T2V-Eval。該測試集包含 128 條源於真實使用者的中文評測問題,旨在評估生成影片在運動、風景、動物、組合概念、超現實、人物、3D 動畫、電影攝影等 11 個內容類別上質量。
圖片
Step-Video-T2V-Eval 評測結果。

評測結果顯示,Step-Video-T2V 的模型效能在指令遵循、運動平滑性、物理合理性、美感度等方面全面超越了此前行業內效能最好的開源模型。

產品級語音互動模型
高情商還懂方言

在語音互動一側,階躍星辰開源的 Step-Audio,能夠根據不同場景生成情緒、方言、語種、歌聲和個性化風格的表達,讓 AI 能和使用者自然地進行高質量對話。

這裡有一些實測例子。在 Step-Audio 加持下,我們發現現在的 AI 還懂得了很多人情世故:接力DeepSeek,階躍星辰直接開源兩款國產多模態大模型
Step-Audio 的反應速度很快,生成的語音也非常自然,還具備不錯的情商。據悉,Step-Audio 也能實現高質量音色復刻和角色扮演,可滿足影視娛樂、社交、遊戲等行業場景的應用。

在 LlaMA Question、Web Questions 等五大主流公開測試集上,Step-Audio 的效能均超過行業內同型別開源模型,位列第一。另外,Step-Audio 在漢語水平考試六級 HSK-6 評測中的表現尤為突出,成為了最懂中國話的開源語音互動大模型
圖片
此外,根據階躍自建並開源的多維度評估體系 StepEval-Audio-360 基準測試顯示,Step-Audio 在邏輯推理、創作能力、指令控制、語言能力、角色扮演、文字遊戲、情感價值等維度均取得了最佳成績。
圖片
具體來說,Step-Audio 的技術探索為多模態開源社群帶來了五個方面的貢獻:

  • 多模態理解生成一體化:單模型完成語音識別、語義理解、對話、語音生成等功能,並開源了千億引數多模態模型 Step-Audio-Chat 版本;
  • 高效合成資料鏈路:Step-Audio 突破傳統 TTS 對人工採集資料的依賴,能生成高質量的合成音訊資料,實現合成資料生成與模型訓練的迴圈迭代,並同步開源了首個基於大規模合成資料訓練,支援 RAP 和哼唱的指令加強版語音合成模型 Step-Audio-TTS-3B;
  • 精細語音控制:支援多種情緒(如生氣、高興、悲傷)、方言(如粵語、四川話)和唱歌(包括 RAP、幹聲哼唱)的精準調控;
  • 擴充套件工具呼叫:透過 ToolCall 機制,Step-Audio 能夠整合搜尋引擎、知識庫等外部工具,進一步提升其在 Agents 和複雜任務上的表現;
  • 高情商對話與角色扮演:基於情感增強與角色扮演強化的 RLHF 流程,提供了人性化回應並支援定製化角色設定。

  • GitHub 連結:https://github.com/stepfun-ai/Step-Audio
  • Hugging Face:https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
  • Modelscope:https://modelscope.cn/collections/Step-Audio-a47b227413534a
  • 技術報告:https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

「多模態卷王」階躍星辰
正成為新銳開源力量

ChatGPT 釋出僅過去兩年,生成式 AI 領域已經歷了翻天覆地的變化。我們見證了巔峰時期 300 家大模型的同臺競技,轉變成「大模型 n 小龍」在不同賽道上的努力探索。自去年底,DeepSeek 的爆發又彷彿一陣強心劑,激起了業界新一輪更加激烈的競爭。

新的局面下,GPU 數量和資料體量優勢不再是創業公司難以逾越的壁壘。與此同時,一些堅持技術路線的公司正在逐漸顯現優勢。

與很多逐漸轉向應用側的大模型公司不同,階躍一直專注於技術驅動的發展思路,不斷投入資源迭代基礎模型。憑藉技術的深厚積累,階躍星辰一直在多模態領域領先業界。

從產品佈局來看,階躍的大模型涵蓋語音識別、語音復刻及生成模型、影片理解模型、影像生成模型、影片生成模型、多模態理解等各種類別,而且研發速度極快,自成立以來已先後釋出了 11 款。

從成績上看,階躍的 Step 系列多模態模型曾多次在國內外權威大模型評測榜單上位列「中國大模型第一」。不論開源社群還是合作伙伴,都已對階躍的大模型有了充分的認可。
圖片
在 OpenCompass 多模態模型評測實時榜單上,Step-1o 大模型名列業內第一。

真正以構建 AGI 為最終目標的團隊,必然會選擇堅持預訓練和基座大模型的研發。階躍星辰曾披露過自己的 AGI 路線圖,「單模態 —— 多模態 —— 多模理解和⽣成的統⼀ —— 世界模型 ——AGI」。

這樣的思路在今天釋出的 Step-Video-T2V 技術報告中有了體現。階躍星辰定義了構建影片基礎模型的兩個級別:

  • Level 1 是翻譯影片的基礎模型。此類模型可充當跨模態翻譯系統,能夠從文字、視覺或多模態上下文生成影片。目前基於擴散的文字轉影片模型如 Sora、Veo、Kling、Hailuo 和 Step-Video 系列都屬於 Level 1。
  • Level 2 則是「可預測影片基礎模型」。此級別的模型充當預測系統,類似於大語言模型(LLM),可以根據文字、視覺或多模態上下文預測未來事件,並處理更高階的任務,例如使用多模態資料進行推理或模擬真實世界場景。

技術報告中,工程師們介紹了開發 Level 2 級影片基礎模型需要解決的關鍵問題。如果我們能夠對影片中潛在的因果關係進行建模,就能夠生成更加複雜的動作序列,以及真正遵守物理定律的影片,讓多模態擁有像如今 LLM 中湧現的「推理」。

這樣的理念與李飛飛和她在 World Labs 中的工作不謀而合。可見在多模態大模型領域,新的方向已逐漸清晰。

可以預見,DeepSeek 爆發之後,更多的國內領先開源技術將會興起,成為 AI 領域中不可忽視的力量。

相關文章