中國人工智慧公司 Deepseek 剛剛釋出了迄今為止最強大的語言模型。早期測試表明,新的 V3 模型可以與一些業內領先的專有模型相媲美,並且在邏輯推理任務中表現出特別的改進。
該模型現已在 Github 上釋出,採用混合專家 (MoE) 架構,共有 6710 億個引數,其中每個 token 啟用 370 億個引數。這比 V2 有了顯著增加,V2 共有 2360 億個引數,其中 210 億個引數在推理過程中處於活動狀態。
訓練也更加廣泛,處理了 14.8 萬億個 token,幾乎是 V2 訓練資料的兩倍。據 Deepseek 稱,整個訓練耗時 278.8 萬個 H800 GPU 小時,成本約為 557.6 萬美元。
尤其令人印象深刻的是,他們僅使用 2,000 個 GPU 叢集就實現了這一目標,而 Meta、xAI 和 OpenAI 等公司通常用於 AI 訓練的 100,000 個顯示卡的數量僅為其中的一小部分。Deepseek 將這種效率歸功於他們對演算法、框架和硬體的最佳化協同設計。
Deepseek v3 更快、更智慧
V3 最大的改進之一是速度——它每秒可以處理 60 個 token,比前代快三倍。該團隊重點關注改進推理能力,使用一種特殊的後訓練過程,該過程使用來自他們的“Deepseek-R1”模型的資料,該模型專為複雜的推理任務而設計。
在針對開源和專有模型進行基準測試時,它在六個主要 LLM 基準中的三個中取得了最高分,在 MATH 500 基準(90.2%)和 Codeforces 與 SWE 等程式設計測試中的表現尤為出色。
據 Deepseek 稱,V3 在許多基準測試中實現了與 GPT-4o 和Claude-3.5-Sonnet等領先專有模型相當的效能,同時提供市場上最佳的價效比。API 定價將保持 V2 價格不變,直到 2 月 8 日。此後,使用者將為輸入支付每百萬代幣 0.27 美元(快取命中支付 0.07 美元),為輸出支付每百萬代幣 1.10 美元。
該模型根據Deepseek 許可協議(版本 1.0)釋出,該協議授予使用者免費、全球、非獨佔和不可撤銷的版權和專利許可。使用者可以複製、修改和分發該模型,包括用於商業目的,但禁止用於軍事應用和全自動法律服務。
Deepseek 成立於去年,計劃改進其模型架構。該公司希望“突破 Transformer 的架構限制,從而突破其建模能力的界限”,並支援無限的上下文長度。與 OpenAI 一樣,它表示正在採取漸進式方法實現通用人工智慧 (AGI)。其當前產品線包括數學和編碼專用模型,可透過 API 獲得,也可在本地免費使用。
概括
- 中國人工智慧公司DeepSeek推出了迄今為止最強大的語言模型DeepSeek-V3,該模型在混合專家架構中具有 6710 億個引數。
- DeepSeek-V3 在 14.8 萬億個 token 的龐大資料集上進行了訓練,實現了每秒 60 個 token 的驚人處理速度。基準評估表明,它目前的表現優於其他開源模型,並且與領先的專有模型具有競爭力。
- DeepSeek 的計劃包括進一步增強模型架構、引入無限上下文長度支援,以及長期逐步實現通用人工智慧(AGI)。