MiniMax震撼開源,突破傳統Transformer架構,4560億引數,支援400萬長上下文

机器之心發表於2025-01-15

「2025 年,我們可能會看到第一批 AI Agent 加入勞動力大軍,並對公司的生產力產生實質性的影響。」——OpenAI CEO Sam Altman

「2025 年,每個公司都將擁有 AI 軟體工程師 Agent,它們會編寫大量程式碼。」——Meta CEO Mark Zuckerberg

「未來,每家公司的 IT 部門都將成為 AI Agent 的 HR 部門。」—— 英偉達 CEO 黃仁勳

2025 新年伊始,在很多趨勢都還不明朗的情況下,幾位 AI 業界的重要人物幾乎在同一時間做出了類似的判斷 ——2025 年將是 AI Agent 之年

沒想到,MiniMax 很快就有了動作:開源了最新的基礎語言模型 MiniMax-Text-01 和視覺多模態模型 MiniMax-VL-01。

新模型的最大亮點是,在業內首次大規模實現了新的線性注意力機制,這使得輸入的上下文視窗大大變長:一次可處理 400 萬 token,是其他模型的 20-32 倍。

他們相信,這些模型能夠給接下來一年潛在 Agent 相關應用的爆發做出貢獻。

為什麼這項工作對於 Agent 如此重要?

隨著 Agent 進入應用場景,無論是單個 Agent 工作時產生的記憶,還是多個 Agent 協作所產生的 context,都會對模型的長上下文視窗提出更多需求。

圖片
  • 開源地址:https://github.com/MiniMax-AI
  • Hugging Face:https://huggingface.co/MiniMaxAI
  • 技術報告:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
  • 網頁端:https://www.hailuo.ai
  • API:https://www.minimaxi.com/platform

一系列創新
造就比肩頂尖模型的開源模型

MiniMax-Text-01 究竟是如何煉成的?事實上,他們為此進行了一系列創新。從新型線性注意力到改進版混合專家架構,再到並行策略和通訊技術的最佳化,MiniMax 解決了大模型在面對超長上下文時的多項效果與效率痛點。
圖片
MiniMax-Text-01 的架構

Lightning Attention

目前領先的 LLM 大都基於 Transformer,而 Transformer 核心的自注意力機制是其計算成本的重要來源。為了最佳化,研究社群可以說是絞盡腦汁,提出了稀疏注意力、低秩分解和線性注意力等許多技術。MiniMax 的 Lightning Attention 便是一種線性注意力。

透過使用線性注意力,原生 Transformer 的計算複雜度可從二次複雜度大幅下降到線性複雜度,如下圖所示。
圖片
MiniMax 的相關技術報告中寫道,這主要是得益於一種右邊積核技巧(right product kernel trick)。以 2022 年論文《The Devil in Linear Transformer》中的 TransNormer 為例,下圖左側的 NormAttention 機制可轉換成使用「右側矩陣乘法」的線性變體。
圖片
Lightning Attention 便是基於 TransNormer 實現的一個 I/O 感知型最佳化版本。

以下是 Lightning Attention 前向透過的演算法描述。
圖片
基於 Lightning Attention,MiniMax 還提出了一種 Hybrid-lightning,即每隔 8 層將 Lightning Attention 替換成 softmax 注意力,從而既解決了 softmax 注意力的效率問題,也提升了 Lightning Attention 的 scaling 能力。

效果如何?下表給出了根據層數 l、模型維度 d、批次大小 b 和序列長度 n 計算注意力架構引數量與 FLOPs 的公式。
圖片
可以明顯看出,模型規模越大,Lightning Attention 與 Hybrid-lightning 相對於 softmax 注意力的優勢就越明顯。

混合專家(MoE)

MoE 相對於密集模型的效率優勢已經得到了大量研究證明。MiniMax 團隊同樣也進行了一番比較實驗。他們比較了一個 7B 引數的密集模型以及 2B 啟用引數和 20B 總引數的 MoE 模型。結果如下圖所示。
圖片
可以看到,在多種基準上,當計算負載一樣時,MoE 模型的表現要大幅優於密集模型。

MiniMax 還引入了一個新的 allgather 通訊步驟,可解決擴大 MoE 模型的規模時可能會遇到路由崩潰(routing collapse)問題。

計算最佳化

與許多大模型訓練專案一樣,MiniMax 先透過小規模實驗上述技術改進的有效性以及 Scaling Law,然後再開始著手大規模訓練。MiniMax 為此採用了 1500 到 2500 臺 H800 GPU—— 並且在訓練過程中,具體使用 GPU 數量會動態變化。而大規模訓練都有自己的特有挑戰,MiniMax 開發了一系列針對性的最佳化技術。

首先,對於 MoE 架構,最主要的最佳化目標是降低其通訊負載。尤其是對於採用 all-to-all(a2a)通訊的 MoE 模型。MiniMax 的解決方案是一種基於 token 分組的重疊方案。

其次,對於長上下文訓練,一大主要挑戰是難以將真實的訓練樣本標準化到統一長度。傳統的方式是進行填充,但這種方法非常浪費計算。MiniMax 的解決思路是進行資料格式化,其中不同樣本會沿序列的維度首尾相連。他們將這種技術命名為 data-packing。這種格式可儘可能地降低計算過程中的計算浪費。

最後,為了將 Lightning Attention 投入實踐,MiniMax 採用了四項最佳化策略:分批核融合、分離式的預填充與解碼執行、多級填充、跨步分批矩陣乘法擴充套件。

MiniMax-Text-01
上下文巨長,能力也夠強

基於以上一系列創新,MiniMax 最終得到了一個擁有 32 個專家4560 億引數的 LLM,每個 token 都會啟用其中 459 億個引數。MiniMax 將其命名為 MiniMax-Text-01。在執行推理時,它的上下文長度最高可達 400 萬 token,並且其表現出了非常卓越的長上下文能力。

MiniMax-Text-01 基準成績優秀

在常見的學術測試集上,MiniMax-Text-01 基本上能媲美甚至超越 GPT-4o、Claude 3.5 Sonnet 等閉源模型以及 Qwen2.5、DeepSeek v3、Llama 3.1 等 SOTA 開源模型。下面直接上成績。
圖片
可以看到,在 HumanEval 上,MiniMax-Text-01 與 Instruct Qwen2.5-72B 相比表現出色。此外,MiniMax-Text-01 在 GPQA Diamond 這樣具有挑戰性問答的資料集上取得了 54.4 的成績,超過了大多數開源指令微調的 LLM 以及最新版本的 GPT-4o。

MiniMax-Text-01 在 MMLU、IFEval 和 Arena-Hard 等測試中也取得了前三名的成績,展示了其在給定限制條件下,應用全面知識來充分滿足使用者查詢、與人類偏好保持一致的卓越能力。可以想象,基於最新的模型能力,也給開發者開發 Agent 應用提供了更好的基礎。

領先的上下文能力

那 MiniMax-Text-01 引以為傲的長上下文能力呢?其優勢就更為明顯了。

在長上下文理解任務上,MiniMax 測試了 Ruler 和 LongBench v2 這兩個常見基準。首先在 Ruler 上,可以看到,當上下文長度在 64k 或更短時,MiniMax-Text-01 與其它 SOTA 模型不相上下,而當上下文長度超過 128k 時,MiniMax-Text-01 的優勢就明顯顯現出來了。
圖片
在 Ruler 上,MiniMax-Text-01 與其它模型的效能比較

同樣,MiniMax-Text-01 在 LongBench v2 的長上下文推理任務上的表現也非常突出。
圖片
在 LongBench v2 上,MiniMax-Text-01 與其它模型的效能比較

另外,MiniMax-Text-01 的長上下文學習能力(終身學習的一個核心研究領域)也是 SOTA 水平。MiniMax 在 MTOB 基準上驗證了這一點。
圖片
在 MTOB 上,MiniMax-Text-01 與其它模型的效能比較

長文字能力Showcase

MiniMax-Text-01 得到了很不錯的基準分數,但實際表現如何呢?下面展示了一些示例。

首先,來寫首歌吧!
圖片
人類評估者也給出了非常正面的評價:詩意的語言和演繹空間為歌曲增添了層層的趣味和情感共鳴,使歌曲既引人入勝又發人深省。

下面重點來看看 MiniMax-Text-01 的長上下文能力。對於新幾內亞的一門小眾語言 Kalamang,先將指令、語法書、單詞表、與英語的對照例句放入 MiniMax-Text-01 的上下文,然後讓其執行翻譯。可以看到,MiniMax-Text-01 給出的答案基本與標準答案一致。
圖片
至於長對話記憶任務,MiniMax-Text-01 可說是表現完美。
圖片
視覺-語言模型

基於 MiniMax-Text-01,MiniMax 還開發了一個多模態版本:MiniMax-VL-01。思路很簡單,就是在文字模型的基礎上整合一個影像編碼器和一個影像介面卡。簡而言之,就是要將影像變成 LLM 能夠理解的 token 形式。

因此,其整體架構符合比較常見的 ViT-MLP-LLM 正規化:MiniMax-VL-01 作為基礎模型,再使用一個 303M 引數的 ViT 作為視覺編碼器,並使用了一個隨機初始化的兩層式 MLP projector 來執行影像適應。

當然,為了確保 MiniMax-VL-01 的視覺理解能力足夠好,還需要在文字模型的基礎上使用影像-語言資料進行持續訓練。為此,MiniMax 設計了一個專有資料集,並實現了一個多階段訓練策略。

最終,得到的 MiniMax-VL-01 模型在各個基準上取得了如下表現。
圖片
可以看到,MiniMax-VL-01 整體表現強勁,整體能與其它 SOTA 模型媲美,並可在某些指標上達到最佳。

下面展示了一個分析導航地圖的示例,MiniMax-VL-01 的表現可得一個贊。
圖片
探索無限的上下文視窗
讓 Agent 走進物理世界

有人認為 [1],context 會是貫穿 AI 產品發展的一條暗線,context 是否充分同步會直接影響智慧應用的使用者體驗,這包括使用者的個性化資訊、環境變化資訊等各種背景上下文資訊。

而為了保證 context 充分同步,足夠大的上下文視窗就成了大模型必須克服的技術難題。目前,MiniMax 已經在這條路上邁出了重要的一步。

不過,400 萬 token 的上下文視窗明顯不是終點。他們在技術報告中寫道:「我們正在研究更高效的架構,以完全消除 softmax 注意力,這可能使模型能夠支援無限的上下文視窗,而不會帶來計算開銷。」

除此之外,MiniMax 還在 LLM 的基礎上訓練的視覺語言模型,同樣擁有超長的上下文視窗,這也是由 Agent 所面臨的任務所決定的。畢竟,在現實生活中,多模態任務遠比純文字任務更常見。

「我們認為下一代人工智慧是無限接近透過圖靈測試的智慧體,互動自然,觸手可及,無處不在。」MiniMax 創始人在去年的一次活動中提到。

或許,「無處不在」也意味著,隨著多模態 token 的加入,Agent 也將逐步進入物理世界。為此,AI 社群需要更多的技術儲備。

參考連結:
[1]https://mp.weixin.qq.com/s/k43nIdVUV_Do7_dRcf4DsA

相關文章