國產大模型DeepSeek-V3一夜火爆全球,671B的MoE,訓練成本僅558萬美元
机器之心發表於2024-12-27
開啟 X,滿眼都是討論 DeepSeek-V3 的推文,而其中最熱門的話題之一是這個引數量高達 671B 的大型語言模型的預訓練過程竟然只用了 266.4 萬 H800 GPU Hours,再加上上下文擴充套件與後訓練的訓練,總共也只有 278.8 H800 GPU Hours。相較之下,Llama 3 系列模型的計算預算則多達 3930 萬 H100 GPU Hours—— 如此計算量足可訓練 DeepSeek-V3 至少 15 次。雖然相對於其它前沿大模型, DeepSeek-V3 消耗的訓練計算量較少,但其效能卻足以比肩乃至更優。據最新發布的 DeepSeek-V3 技術報告,在英語、程式碼、數學、漢語以及多語言任務上,基礎模型 DeepSeek-V3 Base 的表現非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任務上甚至遠遠超過其它開源大模型。就算與 GPT-4o 和 Claude 3.5 Sonnet 這兩大領先的閉源模型相比,DeepSeek-V3 也毫不遜色,並且在 MATH 500、AIME 2024、Codeforces 上都有明顯優勢。DeepSeek-V3 的驚人表現主要是得益於其採用的 MLA(多頭隱注意力)和 DeepSeekMoE 架構。此前,這些技術已經在 DeepSeek-V2 上得到了驗證,現在也成為了 DeepSeek-V3 實現高效推理和經濟訓練的基石。此外,DeepSeek-V3 率先採用了無輔助損失的負載平衡策略,並設定了多 token 預測訓練目標,以實現更強大的效能。他們使用的預訓練 token 量為 14.8 萬億,然後還進行了監督式微調和強化學習。正是在這些技術創新的基礎上,開源的 DeepSeek-V3 一問世便收穫了無數好評。Meta AI 研究科學家田淵棟對 DeepSeek-V3 各個方向上的進展都大加讚賞。著名 AI 科學家 Andrej Karpathy 也表示,如果該模型的優良表現能夠得到廣泛驗證,那麼這將是資源有限情況下對研究和工程的一次出色展示。正在創業(Lepton AI)的著名研究者賈揚清也給出了自己的深度評價。他認為 DeepSeek-V3 的誕生標誌著我們正式進入了分散式推理的疆域,畢竟 671B 的引數量已經無法放入單臺 GPU 了。DeepSeek-V3 再一次引爆了人們對開源模型的熱情。OpenRouter 表示自昨天釋出以來,該平臺上 DeepSeek-V3 的使用量已經翻了 3 倍!一些已經嚐鮮 DeepSeek-V3 的使用者已經開始在網上分享他們的體驗。- 報告地址:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
- 專案地址:https://github.com/deepseek-ai/DeepSeek-V3
- Hugging Face:https://huggingface.co/collections/deepseek-ai/deepseek-v3-676bc4546fb4876383c4208b
為了高效的推理和經濟的訓練,DeepSeek-V3 採用了用於高效推理的多頭潛在注意力(MLA)(DeepSeek-AI,2024c)和用於經濟訓練的 DeepSeekMoE(Dai et al., 2024),並提出了多 token 預測(MTP)訓練目標,以提高評估基準的整體效能。對於其他細節,DeepSeek-V3 遵循 DeepSeekV2(DeepSeek-AI,2024c)的設定。與 DeepSeek-V2 相比,一個例外是 DeepSeek-V3 為 DeepSeekMoE 額外引入了輔助無損耗負載平衡策略(Wang et al., 2024a),以減輕因確保負載平衡而導致的效能下降。圖 2 展示了 DeepSeek-V3 的基本架構:MTP 將預測範圍擴充套件到每個位置的多個未來 token。一方面,MTP 目標使訓練訊號更加密集,並且可以提高資料效率。另一方面,MTP 可以使模型預規劃其表徵,以便更好地預測未來的 token。與 DeepSeek-V2 相比,V3 透過提高數學和程式設計樣本的比例來最佳化預訓練語料庫,同時將多語言覆蓋範圍擴大到英語和中文之外。此外,新版本對資料處理流程也進行了改進,以最大限度地減少冗餘,同時保持語料庫的多樣性。DeepSeek-V3 的訓練語料在 tokenizer 中包含 14.8T 個高質量且多樣化的 token。模型超引數:本文將 Transformer 層數設定為 61,隱藏層維度設定為 7168。所有可學習引數均以標準差 0.006 隨機初始化。在 MLA 中,本文將注意力頭 𝑛_ℎ 的數量設定為 128,每個頭的維度 𝑑_ℎ 設定為 128。此外,本文用 MoE 層替換除前三層之外的所有 FFN。每個 MoE 層由 1 個共享專家和 256 個路由專家組成,其中每個專家的中間隱藏維度為 2048。在路由專家中,每個 token 將啟用 8 個專家,並確保每個 token 最多傳送到 4 個節點。與 DeepSeek-V2 一樣,DeepSeek-V3 也在壓縮潛在向量之後使用了額外的 RMNSNorm 層,並在寬度 bottlenecks 處乘以額外的縮放因子。在這種配置下,DeepSeek-V3 包含總共 671B 個引數,其中每個 token 啟用 37B 個。本文采用與 DeepSeek-V2 類似的方法,在 DeepSeek-V3 中啟用長上下文功能。在預訓練階段之後,應用 YaRN 進行上下文擴充套件,並執行兩個額外的訓練階段,每個階段包含 1000 個 step,以逐步將上下文視窗從 4K 擴充套件到 32K,然後再擴充套件到 128K。透過這種兩階段擴充套件訓練,DeepSeek-V3 能夠處理長達 128K 的輸入,同時保持強勁的效能。圖 8 表明,經過監督微調後,DeepSeek-V3 在大海撈針 (NIAH) 測試中取得了顯著的效能,在長達 128K 的上下文視窗長度中表現出一致的穩健性。表 3 將 DeepSeek-V3 的基礎模型與 SOTA 效能的開源基礎模型進行了比較,包括 DeepSeek-V2-Base、Qwen2.5 72B Base 和 LLaMA-3.1 405B Base。總體而言,DeepSeek-V3-Base 全面超越 DeepSeek-V2-Base 和 Qwen2.5 72B Base,並在大多數基準測試中超越 LLaMA-3.1 405B Base,基本上成為最強大的開源模型。具體來說,本文將 DeepSeek-V3-Base 與其他開源基礎模型分別進行了比較。(1)與 DeepSeek-V2-Base 相比,由於模型架構的改進,模型大小和訓練 token 的擴大以及資料質量的提升,DeepSeek-V3-Base 取得了預期的、更好的效能。(2)與目前最先進的中文開源模型 Qwen2.5 72B Base 相比,在啟用引數只有其一半的情況下,DeepSeek-V3-Base 也表現出了明顯的優勢,尤其是在英文、多語言、程式碼和數學基準測試中。對於中文基準測試,除了中文多學科多項選擇題 CMMLU 之外,DeepSeek-V3-Base 也取得了優於 Qwen2.5 72B 的效能。 (3)與目前最大的開源模型 LLaMA-3.1 405B Base(啟用引數量是其 11 倍)相比,DeepSeek-V3-Base 在多語言、程式碼和數學基準測試中也表現出了更好的效能。在英語和中文基準測試中,DeepSeek-V3-Base 表現出了相當或更好的效能,尤其是在 BBH、MMLU-series、DROP、C-Eval、CMMLU 和 CCPM 上表現優異。由於高效的架構和全面的工程最佳化,DeepSeekV3 實現了極高的訓練效率。基於訓練框架和基礎設施,在 V3 上訓練每萬億個 token 只需要 180K H800 GPU 小時,這比訓練 72B 或 405B 密集模型便宜得多。表 4 展示了 MTP 策略的消融結果,作者在兩個不同規模的基線模型上驗證了 MTP 策略。從表中我們可以觀察到,MTP 策略在大多數評估基準上持續提高了模型效能。在接下來的文章中,作者介紹了後訓練,包括監督微調、強化學習等內容。