DeepSeek 的開源周已經進行到了第三天(前兩天報導見文末「相關閱讀」)。今天開源的專案名叫 DeepGEMM,是一款支援密集型和專家混合(MoE)GEMM 的 FP8 GEMM 庫,為 V3/R1 的訓練和推理提供了支援,在 Hopper GPU 上可以達到 1350+ FP8 TFLOPS 的計算效能。具體來說,DeepGEMM 是一個旨在實現簡潔高效的 FP8 通用矩陣乘法(GEMM)的庫,它採用了 DeepSeek-V3 中提出的細粒度 scaling 技術。該庫支援普通 GEMM 以及專家混合(MoE)分組 GEMM。該庫採用 CUDA 編寫,在安裝過程中無需編譯,而是透過一個輕量級的 Just-In-Time(JIT)模組在執行時編譯所有核心。目前,DeepGEMM 僅支援英偉達 Hopper 張量核心。為了解決 FP8 張量核心累加不精確的問題,它採用了 CUDA 核心的兩級累加(提升)機制。儘管它借鑑了 CUTLASS 和 CuTe 的一些概念,但避免了對其模板或代數的重度依賴。相反,該庫的設計注重簡潔性,僅包含一個核心核心函式,程式碼量僅為 300 行。這使其成為學習 Hopper FP8 矩陣乘法和最佳化技術的一個簡潔且易於獲取的資源。儘管設計輕量,DeepGEMM 在各種矩陣形狀上的效能與專家調優的庫相當,甚至在某些情況下更優。開源地址:https://github.com/deepseek-ai/DeepGEMM早期試用者評價說,「DeepGEMM 聽起來就像是數學界的超級英雄。它比高速計算器還快,比多項式方程還強大。我試著用了一下,現在我的 GPU 都在炫耀它的 1350+ TFLOPS,彷彿已經準備好參加 AI 奧賽了!」這個計算效能如果加上高質量的資料,沒準兒能貢獻更大的驚喜? 除了效能,「300 行程式碼的效能超越了專家調優的核心」同樣讓不少人感到驚訝,有人認為「要麼 DeepSeek 破解了 GPU 矩陣的奧秘,要麼我們剛剛見證了最高等級的編譯器魔法。」看來,DeepSeek 團隊裡有一批掌握編譯器神秘技巧的頂級 GPU 工程師。還有人評價說,「DeepGEMM 正在改變我們使用 FP8 GEMM 庫的方式,它簡潔、快速且開源。這正是 AI 計算的未來。」在專案的貢獻者列表中,有人發現了一個姓 Liang 的工程師,難道是 DeepSeek 創始人梁文鋒(真實性有待考證)? DeepSeek 在 H800 上使用 NVCC 12.8 測試了 DeepSeek-V3/R1 推理中可能使用的所有形狀(包括預填充和解碼,但不包括張量並行),最高可以實現 2.7 倍加速。所有加速指標均基於內部精心最佳化的 CUTLASS 3.6 實現。但根據專案介紹,DeepGEMM 在某些形狀上表現不佳。- Hopper 架構的 GPU,必須支援 sm_90a;
- CUDA 12.3 或更高版本,但為了獲得最佳效能,DeepSeek 強烈推薦使用 12.8 或更高版本;
- CUTLASS 3.6 或更高版本(可透過 Git 子模組克隆)。
# Submodule must be cloned
git clone --recursive git@github.com:deepseek-ai/DeepGEMM.git
# Make symbolic links for third-party (CUTLASS and CuTe) include directories
# Test all GEMM implements (normal, contiguous-grouped and masked-grouped)
python tests/test_core.py
最後在你的 Python 專案中匯入 deep_gem,就可以使用了。路透社:DeepSeek R2 大模型又提前了,5 月之前釋出就在 DeepSeek 緊鑼密鼓地開源的同時,人們也在四處探尋該公司下一代大模型的資訊。昨天晚上,路透社突然爆料說 DeepSeek 可能會在 5 月之前釋出下一代 R2 模型,引發了關注。據多位知情人士透露,DeepSeek 正在加速推出 R1 強推理大模型的後續版本。其中有兩人表示,DeepSeek 原本計劃在 5 月初發布 R2,但現在希望儘早釋出。DeepSeek 希望新模型擁有更強大的程式碼生成能力,並能夠推理除英語以外的語言。可見在 Grok 3、Claude 3.7、Qwen 2.5-Max 等競品面世之後,DeepSeek 又加快了技術演進的步伐。值得一提的是,媒體也介紹了該公司的一些情況。DeepSeek 在北京開設的辦公室距離清華、北大很近(步行可至)。據兩名前員工稱,梁文鋒經常會與工程師們深入研究技術細節,並樂於與實習生、應屆畢業生一起工作。他們還描述了通常在協作氛圍中每天工作八小時的情況。據三位瞭解 DeepSeek 薪酬情況的人士稱,這幻方量化與 DeepSeek 都以薪酬豐厚而聞名。有人表示在幻方的高階資料科學家年薪 150 萬元人民幣並不罕見,而競爭對手的薪酬很少超過 80 萬元。幻方是 AI 交易的早期先驅,一位該公司高管早在 2020 年表示將「All in」人工智慧,將公司 70% 的收入投資於人工智慧研究。該公司在 2020 年和 2021 年斥資 12 億元人民幣建設了兩個超級計算 AI 叢集。第二個叢集 Fire-Flyer II 由約一萬塊英偉達 A100 晶片組成,主要用於訓練 AI 模型。在 DeepSeek V3、R1 模型推出之後,全世界對於 AI 技術的期待已經進入了高點。科技公司都在消化 DeepSeek 提出的新技術,修正發展方向,消費者們則紛紛開始嘗試各類生成式 AI 應用。或許下一次 DeepSeek 的釋出,會是 AI 行業的又一次關鍵時刻。- 《剛剛,DeepSeek 開源 FlashMLA,推理加速核心技術,Star 量飛漲中》
- 《剛剛,DeepSeek 開源 MoE 訓練、推理 EP 通訊庫 DeepEP,真太 Open 了!》
https://www.reuters.com/technology/artificial-intelligence/deepseek-rushes-launch-new-ai-model-china-goes-all-2025-02-25/