單卡A100實現百萬token推理，速度快10倍，這是微軟官方的大模型推理加速

机器之心發表於2024-07-08

原文網址 : https://www.jiqizhixin.com/articles/2024-07-08-17

微軟的這項研究讓開發者可以在單卡機器上以 10 倍的速度處理超過 1M 的輸入文字。

大型語言模型 (LLM) 已進入長上下文處理時代，其支援的上下文視窗從先前的 128K 猛增到 10M token 級別。

然而，由於注意力機制的二次複雜度，模型處理輸入提示（即預填充階段）並開始產生第一個 token 可能需要幾分鐘時間。導致首個 token 生成的時間過長，從而嚴重影響了使用者體驗，這也極大地限制了長上下文 LLM 的廣泛應用。

舉例來說（如圖 2a 所示），在單臺裝有 A100 的機器上為 LLaMA-3-8B 提供服務時，如果提示有 30 萬個 token，模型需要 6 分鐘才能完成預填充（ pre-filling）階段，如果提示增加到 100 萬個 token，這個數字將增加到 30 分鐘。

自注意力計算的開銷佔到了總預填充延遲的 90% 以上，這使其成為 LLM 處理長上下文時的主要瓶頸。現有的加速預填充方法在應用於長上下文 LLM 時通常無法保持可接受的準確性或效率。

為了解決上述問題，來自微軟、薩里大學的研究者提出了一種旨在加速長序列處理預填充的稀疏計算方法：MInference（ Milliontokens Inference ）。

論文地址：https://arxiv.org/pdf/2407.02490
論文主頁：https://hqjiang.com/minference.html
論文標題：MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention

MInference 可以直接應用於現有 LLM，無需對預訓練設定進行修改或額外的微調。

透過對各種下游任務（包括 InfiniteBench、RULER、PG-19 和 Needle In A Haystack）以及模型（包括 LLaMA-3-1M、Yi-200K、GLM-4-1M、Phi-3-128K 和 Qwen2-128K）進行評估，實驗證明 MInference 可有效將 A100 上的預填充推理延遲降低多達 10 倍，同時保持準確性。

^{使用 MInference 1.0 ，長上下文 LLM（如 LLaMA-3-8B-1M、GLM-4-1M）在單個 A100 上的推理速度實現了 10 倍提升，並且準確度更高。}

方法介紹

作者提出了 MInference，這個名字反映了他們希望在一臺 A100 機器上實現百萬（million）token 推理的雄心。

MInference 是一種無需訓練的高效方法，用於基於動態稀疏注意力的長上下文 LLM 的預填充階段。

研究者認為注意力，特別是在長上下文中，是稀疏和動態的，即在不同的輸入中，稀疏模式有很大的不同。這種動態稀疏性呈現出三種適用於所有輸入的獨特空間聚合模式：A 形（A-shape）、垂直 - 斜線（Vertical-Slash）和塊狀 - 稀疏（Block-Sparse）。

MInference 首先使用核心感知稀疏模式搜尋演算法為每個頭部離線確定最佳動態稀疏模式，如演算法 1 所示。在推理過程中，它會根據頭部的模式動態逼近動態稀疏指數，如演算法 2、3 所示。最後，作者使用最佳化後的 GPU 核心執行高效的動態稀疏注意力計算，大大減少了長上下文 LLM 的預填充階段延遲。

例如，對於「垂直 - 斜線」模式，作者首先利用最後一個 Q 和 K 之間的注意力計算來估計垂直線和斜線的最佳指數。然後，他們利用動態稀疏編譯器 PIT 和 Triton 構建垂直 - 斜線 FlashAttention 核心，加速注意力計算。對於 A 形、垂直 - 斜線和塊狀 - 稀疏模式，作者首先在注意力計算中使用 Q 和 K 的均值池。利用均值池和 MatMul 的交換屬性，可以估算出塊狀 - 稀疏指數。然後，他們使用 Triton 構建塊稀疏 FlashAttention 核心，加速注意力計算。有關核心的詳細實現，請參閱附錄 C.4 和程式碼。

在長上下文基準中的評估結果

作者在一系列場景中測試了 MInference，包括 QA、編碼、基於檢索的任務、multi-hop QA、總結和數學任務。RULER 基準包括幾個複雜的 multi-hop 或 multi-needle 任務，有效地反映了 LLM 的實際上下文視窗大小。如表 1 所示，MInference 有效地保留了 LLM 的實際上下文視窗處理能力，甚至將實際上下文視窗大小略微擴充套件到 32K。

作者還使用平均 token 長度為 214K 的 InfiniteBench 在更廣泛的任務中測試了 MInference，如表 2 所示。與 SoTA 基線相比，MInference 在所有任務中都始終保持了良好的效能。值得注意的是，在更具挑戰性的檢索任務（如 KV 檢索任務）中，所有基線都無法做出準確預測，準確率低於 1.2%。但是，MInference 成功地保留了處理動態 KV 對檢索的能力。

為了進一步評估不同上下文長度和關鍵資訊在提示中不同位置時的效能，作者使用「大海撈針」任務測試了各種模型和方法。如圖 1 所示，MInference 在不同的模型、上下文視窗和提示資訊位置下都表現良好，與原始模型相比，其效能保持不變甚至略有提高。在 LLaMA-3-8B 和 GLM-4-9B-1M 的情況下，MInference 在高達 1M 的上下文視窗中實現了完全綠色的效能。相比之下，即使在 70K 上下文視窗中，StreamingLLM 和 InfLLM 在提示的中間段效能也會下降到 20% 以下。

作者還使用 PG-19 在語言模型任務中測試了 MInference，其中包括多達 100k 的 token。如圖 2 所示，MInference 有效地保持了 LLaMA-3-8B 和 Yi-9B-200K 的困惑度，而所有基線都出現了不同程度的困惑度下降。此外，與標準的 StreamingLLM 相比，使用膨脹和步長配置的 StreamingLLM 更好地保持了困惑度效能。

延遲和核心中的稀疏模式

圖 3 展示了本文提出的三種注意力模式以及 FlashAttention 的微基準測試結果。可以看出，Vertical-Slash 是三種模式中最慢的，但在 1M 上下文視窗下，相比 FlashAttention 仍然實現了 13 倍的加速。

圖 4 展示了 Vertical-Slash 頭部核心中的稀疏索引。垂直線透過 PIT FlashAttention 使用 1x64 塊計算，而斜線透過塊級 FlashAttention 使用 64x64 塊計算。

^{參考連結：https://hqjiang.com/minference.html}

大模型推理指南：使用 vLLM 實現高效推理
2024-11-21
大模型
.NET使用OllamaSharp實現大模型推理對話的簡單演示
2024-10-25
大模型
JuiceFS 在多雲架構中加速大模型推理
2024-08-23
UI架構大模型
【雜學】大模型推理加速 —— KV-cache 技術
2024-11-13
大模型
首個Mamba+Transformer混合架構多模態大模型來了，實現單卡千圖推理
2024-09-21
ORM架構大模型
大模型缺乏基本推理能力？
2024-06-10
大模型
MIT韓松團隊長上下文LLM推理高效框架DuoAttention：單GPU實現330萬Token上下文推理
2024-10-24
MIT框架GPU
大語言模型快速推理: 在 Habana Gaudi2 上推理 BLOOMZ
2023-04-06
模型OOM
利用AutoGpt將任何模型支援o1模型的推理實現
2024-09-19
GPT模型
大模型原理與思維鏈推理
2024-03-22
大模型
大模型邊推理邊糾錯，有可能做到嗎？這是ICML爆火的演講
2024-09-08
大模型
NCNN 模型推理詳解及實戰
2023-03-28
CNN模型
單個4090可推理，2000億稀疏大模型「天工MoE」開源
2024-06-04
大模型
【推理引擎】ONNX 模型解析
2022-03-27
模型
在樹莓派上部署yolo模型推理並使用onnx加速
2024-10-03
樹莓派YOLO模型
LLM大模型：推理最佳化-模型int8量化
2024-08-03
大模型
基於SRAM的方法可加速AI推理
2020-09-17
AI
使用 ? Diffusers 實現 ControlNet 高速推理
2023-03-07
【模型推理】Tengine 模型轉換及量化
2021-12-13
模型
【CIKM 2023】擴散模型加速取樣演算法OLSS，大幅提升模型推理速度
2023-10-25
模型演算法
KNN演算法推理與實現
2022-06-04
KNN演算法
【模型推理】量化實現分享三：詳解 ACIQ 對稱量化演算法實現
2021-12-29
模型演算法
最佳化故事: BLOOM 模型推理
2023-04-17
OOM模型
萬字綜述大模型高效推理：無問芯穹與清華、上交最新聯合研究全面解析大模型推理最佳化
2024-06-14
大模型
在英特爾 CPU 上加速 Stable Diffusion 推理
2023-04-13
天下苦英偉達久矣！PyTorch官方免CUDA加速推理，Triton時代要來？
2024-09-09
PyTorch
01-什麼是推理？
2024-10-01
決策樹演算法的推理與實現
2022-06-03
演算法
網易有道全面擁抱DeepSeek-R1，推理大模型加速個性化教學升級
2025-02-06
大模型
大模型中的token是指什麼？
2024-07-17
大模型
機器是如何學習推理的？
2019-01-07
大模型推理最佳化實踐：KV cache複用與投機取樣
2024-02-20
大模型
投機取樣會損失大語言模型的推理精度嗎？
2024-08-09
模型
Cerebras晶片實現Mistral秒級超快推理
2025-02-11
晶片
端側AI推理，高效部署PyTorch模型：官方新工具開源，Meta已經用上了
2023-10-18
AIPyTorch模型
LLM 大模型學習必知必會系列(三)：LLM和多模態模型高效推理實踐
2024-05-28
大模型
符號推理：Drools規則引擎 + LangChain4j大模型演示
2024-06-08
符號LangChain大模型
HarmonyOS：使用 MindSpore Lite 引擎進行模型推理
2023-12-14
模型

單卡A100實現百萬token推理，速度快10倍，這是微軟官方的大模型推理加速

相關文章