Deepseek V3 成為迄今為止中國最強大的開源語言模型

banq發表於2024-12-27

中國人工智慧公司 Deepseek 剛剛釋出了迄今為止最強大的語言模型。早期測試表明,新的 V3 模型可以與一些業內領先的專有模型相媲美,並且在邏輯推理任務中表現出特別的改進。

該模型現已在 Github 上釋出,採用混合專家 (MoE) 架構,共有 6710 億個引數,其中每個 token 啟用 370 億個引數。這比 V2 有了顯著增加,V2 共有 2360 億個引數,其中 210 億個引數在推理過程中處於活動狀態。

訓練也更加廣泛​​,處理了 14.8 萬億個 token,幾乎是 V2 訓練資料的兩倍。據 Deepseek 稱,整個訓練耗時 278.8 萬個 H800 GPU 小時,成本約為 557.6 萬美元。

尤其令人印象深刻的是,他們僅使用 2,000 個 GPU 叢集就實現了這一目標,而 Meta、xAI 和 OpenAI 等公司通常用於 AI 訓練的 100,000 個顯示卡的數量僅為其中的一小部分。Deepseek 將這種效率歸功於他們對演算法、框架和硬體的最佳化協同設計。

Deepseek v3 更快、更智慧
V3 最大的改進之一是速度——它每秒可以處理 60 個 token,比前代快三倍。該團隊重點關注改進推理能力,使用一種特殊的後訓練過程,該過程使用來自他們的“Deepseek-R1”模型的資料,該模型專為複雜的推理任務而設計。

在針對開源和專有模型進行基準測試時,它在六個主要 LLM 基準中的三個中取得了最高分,在 MATH 500 基準(90.2%)和 Codeforces 與 SWE 等程式設計測試中的表現尤為出色。

據 Deepseek 稱,V3 在許多基準測試中實現了與 GPT-4o 和Claude-3.5-Sonnet等領先專有模型相當的效能,同時提供市場上最佳的價效比。API 定價將保持 V2 價格不變,直到 2 月 8 日。此後,使用者將為輸入支付每百萬代幣 0.27 美元(快取命中支付 0.07 美元),為輸出支付每百萬代幣 1.10 美元。

該模型根據Deepseek 許可協議(版本 1.0)釋出,該協議授予使用者免費、全球、非獨佔和不可撤銷的版權和專利許可。使用者可以複製、修改和分發該模型,包括用於商業目的,但禁止用於軍事應用和全自動法律服務。

Deepseek 成立於去年,計劃改進其模型架構。該公司希望“突破 Transformer 的架構限制,從而突破其建模能力的界限”,並支援無限的上下文長度。與 OpenAI 一樣,它表示正在採取漸進式方法實現通用人工智慧 (AGI)。其當前產品線包括數學和編碼專用模型,可透過 API 獲得,也可在本地免費使用。

概括

  • 中國人工智慧公司DeepSeek推出了迄今為止最強大的語言模型DeepSeek-V3,該模型在混合專家架構中具有 6710 億個引數。
  • DeepSeek-V3 在 14.8 萬億個 token 的龐大資料集上進行了訓練,實現了每秒 60 個 token 的驚人處理速度。基準評估表明,它目前的表現優於其他開源模型,並且與領先的專有模型具有競爭力。
  • DeepSeek 的計劃包括進一步增強模型架構、引入無限上下文長度支援,以及長期逐步實現通用人工智慧(AGI)。


 

相關文章