推理最佳化（1）

invisible|•ω•`)發表於2024-11-01

原文網址 : https://www.cnblogs.com/sandust/p/18516756

吐槽

在連續挖了好幾個坑之後，又開了一個新的坑：推理最佳化。它屬於一個llm底層的應用，目的是在作業系統層面來最佳化llm的執行速度進而最佳化整個模型。
那閒話少說，我們正式開始。

llm的過程

prefill階段與decoding階段

prefill

decoding

這兩者的區別是prefill會先把所有的資料進行拿出來計算，後者只會拿很小一塊

推理最佳化的Benchmark

吞吐量

單位時間內系統能吐出多少個decoding
影響因素：模型最佳化，輸入資料長度

First Token Latency（很重要）

首次prefill階段所花費的時間
影響因素：輸入長度

Latency

生成每個詞的間隔
影響因素：輸入長度

QPS（每秒請求數）

QPS=K/這K個請求的時間
影響因素：顯示卡利用率

LLM推理的子過程

最佳化

1/流水線前後處理與高效能取樣
本質是處理過程中的Tokenize和Detokenize部分可以在cpu中進行處理，這樣就不必浪費gpu資源進而提升效率。
2/動態批處理
利用流水線思想最佳化處理過程，透過將多個使用者的過程結合在一起來提升處理速度，具體來說在self Attention層分成了Flash attention和Decoding attention兩個部分一起處理merge step。
3/Cache現存管理
過去的cache是直接給每一個使用者分配一個固定大小的記憶體，也有最佳化版本將使用者的資訊切塊來分配，都是存在問題的。ppl中採用的VM Allocator在過去的cache基礎上做了修改，會根據使用者過去的資訊來做一個預測長度。這樣可以有效的減少浪費
4/KV Cache量化
Q：什麼是量化？
A：將浮點數表示的資料轉換為更小的資料型別,如整數或固定點數,從而減少儲存空間和計算開銷。

KV快取決定了伺服器能服務的使用者數量，最佳化快取就是提升效能
應用在self attation,K,V三個層中
5/矩陣乘法量化
矩陣乘法在模型中花費佔比70%以上

量化大體方向

int8 VS int4

int8相比於fp16 載入權重減半，計算時間減半。
int4載入權重會減少的更多，但會多一個解量化的時間，且不減半計算時間。
在伺服器中多用int8是因為解量化的時間與計算時間正相關，而伺服器中計算佔比較大。

相關文章

LLM 推理最佳化探微 (1) ：Transformer 解碼器的推理過程詳解
2024-01-31
ORM
最佳化故事: BLOOM 模型推理
2023-04-17
OOM模型
SysML 2019論文解讀：推理最佳化
2019-04-11
LLM大模型：推理最佳化-模型int8量化
2024-08-03
大模型
SQL最佳化1
2020-05-10
SQL
推理水平對標OpenAI o1！阿里雲通義開源最新推理模型QwQ
2024-11-28
OpenAI阿里模型
美團視覺GPU推理服務部署架構最佳化實踐
2023-02-10
視覺GPU架構
大模型推理最佳化實踐：KV cache複用與投機取樣
2024-02-20
大模型
Noam Brown早已預示o1強大推理能力，演講深度解析AI推理研究脈絡
2024-10-04
AI
萬字綜述大模型高效推理：無問芯穹與清華、上交最新聯合研究全面解析大模型推理最佳化
2024-06-14
大模型
重磅釋出：OpenAI o1全新推理模型系列
2024-09-19
OpenAI模型
有道子曰推理模型“子曰-o1”釋出即開源，14B小引數復現OpenAI o1強推理效果
2025-01-22
模型OpenAI
利用AutoGpt將任何模型支援o1模型的推理實現
2024-09-19
GPT模型
[深度學習] 基於切片輔助超推理庫SAHI最佳化小目標識別
2023-01-03
深度學習
大模型推理指南：使用 vLLM 實現高效推理
2024-11-21
大模型
微課sql最佳化(17)、不改程式碼,最佳化SQL(1)-最佳化方法總結
2020-03-04
SQL
確定性推理
2024-06-03
阿里國際版o1來了，Marco-o1：聚焦開放式問題推理
2024-11-23
阿里
推理效能直逼o1，DeepSeek再次出手，重點：即將開源
2024-11-21
人工智慧研究：經典推理和非經典推理
2019-01-08
人工智慧
邏輯推理20201028
2020-10-28
Typescript 推理及其用途
2024-09-21
TypeScript
推理框架概覽
2022-03-22
框架
高效、可泛化的高斯重建框架，只需3張檢視即可快速推理，45秒便可完成最佳化
2024-06-03
框架
Sebastian Raschka：關於DeepSeek R1和推理模型，我有幾點看法
2025-02-09
AST模型
大語言模型快速推理: 在 Habana Gaudi2 上推理 BLOOMZ
2023-04-06
模型OOM
1對1影片聊天原始碼，最佳化後的快取使用效果更好
2024-06-15
原始碼快取
libtorch推理速度過慢
2024-05-03
自動推理筆記
2024-07-08
筆記
【推理引擎】ONNX 模型解析
2022-03-27
模型
BuhoCleaner for Mac 垃圾清理最佳化工具支援M1
2023-11-06
Mac
微課sql最佳化(1)、基礎概念介紹
2020-03-03
SQL
一文看懂LLM推理，UCL汪軍教授解讀OpenAI ο1的相關方法
2024-10-11
OpenAI
推理最強也最快，谷歌釋出Gemini 2.0 Flash Thinking，全面超越o1-preview
2024-12-20
谷歌ThinkingView
「DeepSeek接班OpenAI」，最新開源的R1推理模型，讓AI圈爆了
2025-01-21
OpenAI模型
SpringBoot最佳化之——1.Thymeleaf 配置等注意事項
2020-11-04
Spring Boot
聯手OpenAI，吳恩達推出一門o1推理新課程，還免費
2025-01-02
OpenAI吳恩達
01-什麼是推理？
2024-10-01