兩款 Step 系列開源多模態大模型,效能位列開源多模態全行業第一。
本週二,國內 AI 創業公司階躍星辰和吉利汽車集團宣佈聯合開源兩款多模態大模型。

GitHub:https://github.com/stepfun-ai/Step-Video-T2V Hugging Face:https://huggingface.co/stepfun-ai/stepvideo-t2v Modelscope:https://modelscope.cn/models/stepfun-ai/stepvideo-t2v 技術報告:https://arxiv.org/abs/2502.10248















多模態理解生成一體化:單模型完成語音識別、語義理解、對話、語音生成等功能,並開源了千億引數多模態模型 Step-Audio-Chat 版本; 高效合成資料鏈路:Step-Audio 突破傳統 TTS 對人工採集資料的依賴,能生成高質量的合成音訊資料,實現合成資料生成與模型訓練的迴圈迭代,並同步開源了首個基於大規模合成資料訓練,支援 RAP 和哼唱的指令加強版語音合成模型 Step-Audio-TTS-3B; 精細語音控制:支援多種情緒(如生氣、高興、悲傷)、方言(如粵語、四川話)和唱歌(包括 RAP、幹聲哼唱)的精準調控; 擴充套件工具呼叫:透過 ToolCall 機制,Step-Audio 能夠整合搜尋引擎、知識庫等外部工具,進一步提升其在 Agents 和複雜任務上的表現; 高情商對話與角色扮演:基於情感增強與角色扮演強化的 RLHF 流程,提供了人性化回應並支援定製化角色設定。
GitHub 連結:https://github.com/stepfun-ai/Step-Audio Hugging Face:https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b Modelscope:https://modelscope.cn/collections/Step-Audio-a47b227413534a 技術報告:https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

Level 1 是翻譯影片的基礎模型。此類模型可充當跨模態翻譯系統,能夠從文字、視覺或多模態上下文生成影片。目前基於擴散的文字轉影片模型如 Sora、Veo、Kling、Hailuo 和 Step-Video 系列都屬於 Level 1。 Level 2 則是「可預測影片基礎模型」。此級別的模型充當預測系統,類似於大語言模型(LLM),可以根據文字、視覺或多模態上下文預測未來事件,並處理更高階的任務,例如使用多模態資料進行推理或模擬真實世界場景。