歷史時刻:DeepSeek GitHub星數超越OpenAI,僅用時兩個月
机器之心發表於2025-02-07
我們正在見證歷史:DeepSeek 專案在全球最大程式碼託管平臺 GitHub 上的 Star 量超過了 OpenAI。截至本週五下午兩點,DeepSeek 旗下熱度最高的專案 DeepSeek-V3 大模型 Star 量已達 7.77 萬,超越了同平臺中 OpenAI 最熱門專案。 DeepSeek 專案的星數還在以肉眼可見的速度增長。去年 12 月 26 日,DeepSeek AI 開源了其最新混合專家(MoE)大語言模型 DeepSeek-V3,它立即成為通用語言模型的效能標杆,受到了全球 AI 社群熱議。DeepSeek-V3 模型引入了動態注意力機制(Dynamic Attention Mechanism),透過實時調整注意力權重最佳化文字生成質量。其 MoE 架構共包含 6710 億引數,但每 Token 僅啟用 370 億引數,大幅降低了計算成本,訓練成本僅為同類閉源模型的 1/20。據技術報告介紹,DeepSeek-V3 的預訓練過程只花費 266.4 萬 H800 GPU Hours,再加上上下文擴充套件與後訓練的訓練共為 278.8 H800 GPU Hours(訓練成本 557.6 萬美元)。相較之下,Llama 3 的訓練預算約為 3930 萬 H100 GPU Hours。 圖源:https://arxiv.org/pdf/2412.19437隨後在 1 月 23 日,DeepSeek 以 V3 為基礎使用強化學習(Reinforcement Learning)驅動重構訓練正規化,提出了 DeepSeek-R1,徹底改變了開源 AI 世界。DeepSeek R1 效能完全對標 OpenAI o1,與 DeepSeek V3 相比效能有大幅提升,其論文指出純強化學習可以賦予 LLM 強推理能力,而無需大量監督微調,震動了 AI 業界。從技術角度來看,DeepSeek 展示了國內科研團隊的創新能力,並在 Scaling Laws 之後揭開了大模型發展的新正規化,大幅降低了 AI 對算力的依賴,並用自我進化的方式平衡了資料優勢。R1 還支援將推理能力遷移至更小模型,為邊緣計算和即時應用開闢了大量的可能性。由於 OpenAI 自 GPT-3 起並未開源其基礎 AI 大模型,目前 OpenAI 的熱門開源專案包括 openai-cookbook,即使用 OpenAI API 完成常見任務的示例程式碼和指南;以及 Whisper,這是一個 2022 年 9 月開源的通用語音識別模型。除此之外,同屬開源大模型的 Llama 系列最高星數達到了 5.75 萬,阿里雲的 Qwen2.5 有 1.49 萬 Star,零一萬物的 Yi 有 7800 Star。DeepSeek V3 和 R1 的推出彷彿為全球大模型社群打了一針強心劑,在 AI 研究領域,圍繞 R1 核心強化學習方法 GRPO 的進一步研究已經出現。DeepSeek 開源的策略也為應用創造了大量機會。目前雖然 DeepSeek App 官方報告正在受到高頻次網路攻擊,但僅在國內就有阿里雲、華為雲、騰訊雲、百度智慧雲、360 數字安全、雲軸科技等多個平臺宣佈上線了 DeepSeek 大模型,方便各路開發者呼叫。在海外,英偉達、亞馬遜和微軟雲服務也宣佈接入了 DeepSeek R1。DeepSeek 系列模型被公認為是目前最先進的大語言模型之一,隨著技術開源的推動,我們或許將見證生成式 AI 更快的發展。