剛剛，DeepSeek開源FlashMLA，推理加速核心技術，Star量飛漲中

机器之心發表於2025-02-24

原文網址 : https://www.jiqizhixin.com/articles/2025-02-24-2

上週五，DeepSeek 發推說本週將是開源周（OpenSourceWeek），並將連續開源五個軟體庫。

第一個專案，果然與推理加速有關。

北京時間週一上午 9 點，剛一上班（同時是矽谷即將下班的時候），DeepSeek 兌現了自己的諾言，開源了一款用於 Hopper GPU 的高效型 MLA 解碼核：FlashMLA。

該專案上線才 45 分鐘就已經收穫了超過 400 star！並且在我們截圖時，Star 數量正在瘋狂飆升。

專案地址：https://github.com/deepseek-ai/FlashMLA

眾所周知，MLA是DeepSeek大模型的重要技術創新點，主要就是減少推理過程的KV Cache，從而實現在更少的裝置上推理更長的Context，極大地降低推理成本。

此次 DeepSeek 直接開源了該核心技術的改進版本，可以說是誠意滿滿。

接下來，就讓我看下這個開源專案的核心內容。

據介紹，FlashMLA 是適用於 Hopper GPU 的高效 MLA 解碼核心，針對可變長度序列服務進行了最佳化。

目前已釋出的內容有：

BF16
塊大小為 64 的分頁 kvcache

其速度非常快，在 H800 SXM5 GPU 上具有 3000 GB/s 的記憶體速度上限以及 580 TFLOPS 的計算上限。

在部署這個專案之前，你需要的有：

Hopper GPU
CUDA 12.3 及以上版本
PyTorch 2.0 及以上版本

快速啟動

安裝

python setup.py install

基準

python tests/test_flash_mla.py

使用 CUDA 12.6，在 H800 SXM5 上，在記憶體繫結配置下實現高達 3000 GB/s，在計算繫結配置下實現 580 TFLOPS。

用法

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata, num_splits = get_mla_metadata (cache_seqlens, s_q * h_q //h_kv, h_kv)

for i in range (num_layers):
...
o_i, lse_i = flash_mla_with_kvcache (
q_i, kvcache_i, block_table, cache_seqlens, dv,
tile_scheduler_metadata, num_splits, causal=True,
)
...

該專案釋出後也是好評如潮。

甚至有網友打趣地表示：「聽說第五天會是 AGI」。

最後，還是那句話：這才是真正的 OpenAI

剛剛，阿里開源600頁技術全景圖，看完少走10年彎路！
2018-04-18
阿里
剛剛，阿里開源 iOS 協程開發框架 coobjc！
2019-02-28
阿里iOS框架OBJ
剛剛！DeepSeek梁文鋒親自掛名，公開新注意力架構NSA
2025-02-18
架構
剛剛，華為全場景 AI 計算框架MindSpore開源！
2020-03-28
AI框架
剛剛，阿里開源首個深度學習框架 X-Deep Learning！
2018-12-21
阿里深度學習框架
剛剛開通新的博格
2022-03-08
剛剛，Meta開源「分割一切」2.0模型，影片也能分割了
2024-07-30
模型
剛剛，OpenAI上線Deep Research！人類終極考試遠超DeepSeek R1
2025-02-03
OpenAI
剛剛，DeepSeek官方釋出R1模型推薦設定，這才是正確用法
2025-02-14
模型
平均年薪70萬？剛剛，這類程式設計師又漲薪了
2019-02-18
程式設計師
嘀嗒出行IPO：挑戰剛剛開始
2020-10-12
剛剛，ChatGPT開始有了執行力！
2025-01-15
ChatGPT
剛剛，Llama 3.2 來了！支援影像推理，還有可在手機上執行的版本
2024-09-26
剛剛，階躍星辰釋出Step R-mini！推理模型從此不再文理偏科
2025-01-16
模型
VS Code剛剛增強Java開發功能 - foojay
2021-05-20
Java
剛剛，OpenAI震撼釋出o1大模型！強化學習突破LLM推理極限
2024-09-13
OpenAI大模型強化學習
Julia 1.7 剛剛釋出
2021-12-01
阿里巴巴開源容器映象加速技術
2021-04-06
阿里
【雜學】大模型推理加速 —— KV-cache 技術
2024-11-13
大模型
剛剛，微信出現重大BUG！
2019-01-24
15歲山東初中生做CTO，開源專案剛剛被數百萬元收購了
2024-11-04
剛剛，我們感受了一波最「像人」的國產AI，模型還是開源的
2024-10-25
AI模型
分享剛出爐的基於Blazor技術的Web應用開發框架
2022-02-14
BlazorWeb框架
Gangs Rabbit剛兔（NFT）系統程式設計開發示例（python技術示例）
2023-04-04
程式設計Python
就在剛剛！PyTorch 官方教程釋出，限時免費開放！
2019-12-15
PyTorch
開源搜尋技術的核心引擎 —— Lucene
2022-12-05
推理效能直逼o1，DeepSeek再次出手，重點：即將開源
2024-11-21
剛剛，開源大模型的新王誕生了：超越GPT-4o，模型還能自動糾錯
2024-09-06
大模型GPT
雲端計算第一股UCloud：生死博弈剛剛開始
2020-08-04
Cloud
目標檢測新正規化！港大同濟伯克利提出Sparse R-CNN，程式碼剛剛開源！
2020-11-27
CNN
就在剛剛，UCloud 宣佈獲得中移資本戰略投資！
2018-06-28
Cloud
剛剛！北銀消費金融被重罰
2022-07-22
Abaqus中的剛體簡介
2022-09-30
雙十一結束了，但AI的退貨“打怪之旅”剛剛開始
2019-11-13
AI
無處不智慧：AI資料的“消費升級”，剛剛開始
2020-05-27
AI
剛剛，阿里雲知行動手實驗室正式開放公測了
2020-12-17
阿里
剛剛，李飛飛創業首個專案引圍觀：單圖生成互動3D場景，空間智慧來了
2024-12-03
創業3D
獵源——剛剛發售隨即陷入褒貶不一評價的國產roguelike作
2019-07-25

剛剛，DeepSeek開源FlashMLA，推理加速核心技術，Star量飛漲中

相關文章