【NLP高頻面題 - LLM架構篇】LLM為何使用GQA代替MHA？

青松^_^發表於2024-11-28

原文網址 : https://www.cnblogs.com/fasterai/p/18574147

架構

【NLP高頻面題 - LLM架構篇】LLM為何使用GQA代替MHA？

重要性：★★ 💯

NLP Github 專案：

NLP 專案實踐：fasterai/nlp-project-practice

介紹：該倉庫圍繞著 NLP 任務模型的設計、訓練、最佳化、部署和應用，分享大模型演算法工程師的日常工作和實戰經驗
AI 藏經閣：https://gitee.com/fasterai/ai-e-book

介紹：該倉庫主要分享了數百本 AI 領域電子書
AI 演算法面經：fasterai/nlp-interview-handbook#面經

介紹：該倉庫一網打盡網際網路大廠NLP演算法面經，演算法求職必備神器
NLP 劍指Offer：https://gitee.com/fasterai/nlp-interview-handbook

介紹：該倉庫彙總了 NLP 演算法工程師高頻面題

隨著模型規模越來越大，訓練和推理時需要的視訊記憶體越來越多，為了降低大模型的計算量，需要使用快取注意力機制代替Transformer原始的多頭注意力機制，達到既節約時間，又節約視訊記憶體的目的。

最極端的做法是MQA（多查詢注意力），MQA能夠大幅加速採用MHA的Transformer的推理，但是會有明顯的效能損失，而GQA（分組查詢注意力）透過設定合適的分組大小，可以和MQA的推理效能幾乎相等，同時逼近MHA的模型效能。

MQA和GQA對推理的幫助主要是以下兩點：

降低記憶體讀取模型權重的時間開銷：由於Key矩陣和Value矩陣數量變少了，因此權重引數量也減少了，需要讀取到記憶體的數量量少了，因此減少了讀取權重的等待時間
KV-Cache空間佔用明顯降低：KV-Cache會將之前推理過的Key、Value向量儲存在記憶體中，而隨著步長和batch_size的增長，KV-Cache空間佔用越來越高，使得KV-Cache不能被高效的讀寫，而MHA和GQA方式使得KV-Cache需要儲存的引數量降低了head_num倍，從而提高KV-Cache的讀寫效率；另一方面，可以有空間來增大batch_size，從而提高模型推理的吞吐量。

GQA的程式碼實現：

NLP 大模型高頻面題彙總

NLP基礎篇

【NLP 面試寶典之模型分類】必須要會的高頻面題
【NLP 面試寶典之神經網路】必須要會的高頻面題
【NLP 面試寶典之主動學習】必須要會的高頻面題
【NLP 面試寶典之超引數最佳化】必須要會的高頻面題
【NLP 面試寶典之正則化】必須要會的高頻面題
【NLP 面試寶典之過擬合】必須要會的高頻面題
【NLP 面試寶典之 Dropout】必須要會的高頻面題
【NLP 面試寶典之 EarlyStopping】必須要會的高頻面題
【NLP 面試寶典之標籤平滑】必須要會的高頻面題
【NLP 面試寶典之 Warm up 】必須要會的高頻面題
【NLP 面試寶典之置信學習】必須要會的高頻面題
【NLP 面試寶典之偽標籤】必須要會的高頻面題
【NLP 面試寶典之類別不均衡問題】必須要會的高頻面題
【NLP 面試寶典之交叉驗證】必須要會的高頻面題
【NLP 面試寶典之詞嵌入】必須要會的高頻面題
【NLP 面試寶典之 One-Hot】必須要會的高頻面題
......

BERT 模型面

【NLP 面試寶典之 BERT模型】必須要會的高頻面題
【NLP 面試寶典之 BERT變體】必須要會的高頻面題
【NLP 面試寶典之 BERT應用】必須要會的高頻面題
......

LLMs 微調面

【NLP 面試寶典之 LoRA微調】必須要會的高頻面題
【NLP 面試寶典之 Prompt】必須要會的高頻面題
【NLP 面試寶典之提示學習微調】必須要會的高頻面題
【NLP 面試寶典之 PEFT微調】必須要會的高頻面題
【NLP 面試寶典之 Chain-of-Thought微調】必須要會的高頻面題
......

本文由mdnice多平臺釋出

【NLP高頻面題 - LLM架構篇】LLM對Transformer都有哪些最佳化？
2024-11-28
架構ORM
LLM主要架構
2024-10-19
架構
LLM面試題彙總
2024-09-09
面試題
RALLM 檢索增強LLM架構
2024-05-27
架構
mysql高可用架構MHA搭建
2020-09-19
MySql架構
前端高頻面試題JavaScript篇
2018-06-25
前端面試題JavaScript
MHA高可用架構的實現方式
2020-08-31
架構
MySQL 實現高可用架構之 MHA
2021-07-21
MySql架構
MySQL高可用架構-MMM、MHA、MGR、PXC
2021-10-02
MySql架構
部署MHA+keepalived+ProxySQL高可用架構
2021-05-06
SQL架構
DataOps for LLM 的資料工程技術架構實踐
2024-11-19
架構
構建MHA實現MySQL高可用叢集架構
2019-07-29
MySql架構
LLM面面觀之LLM復讀機問題及解決方案
2023-12-14
高頻面試題
2024-06-28
面試題
LLM大模型向量資料庫技術架構淺析
2023-11-10
大模型資料庫架構
LLM 鏈式架構基礎：從入門到實踐
2024-11-18
架構
MHA架構搭建中遇到的問題
2021-03-02
架構
MySQL高可用架構之MHA 原理與實踐
2019-01-16
MySql架構
MySQL 高可用架構 - MHA環境部署記錄
2020-12-10
MySql架構
debate by LLM
2024-10-03
BAT
LLM evaluation
2024-08-01
LLM應用實戰：當KBQA整合LLM
2024-04-11
MySQL高頻面試題
2023-05-11
MySql面試題
mysql高可用架構MHA搭建（centos7+mysql5.7.28）
2020-07-05
MySql架構CentOS
llm構建資料標註助手
2024-03-10
LLM應用實戰：當KBQA整合LLM(二)
2024-04-25
LLM 推理 - Nvidia TensorRT-LLM 與 Triton Inference Server
2024-06-26
Server
debate by LLM with agentscope
2024-10-03
BAT
Java高頻面試題---RabbitMQ
2024-03-14
Java面試題MQ
Java高頻面試題---MySQL
2024-03-14
Java面試題MySql
Java集合高頻面試題
2021-12-12
Java面試題
LLM學習(四)——構建 RAG 應用
2024-04-24
對 LLM 工具使用進行統一
2024-09-26
【淘汰9成NLP面試者的高頻面題】LSTM中的tanh和sigmoid分別用在什麼地方？為什麼？
2024-11-22
面試Sigmoid
LLM實戰：LLM微調加速神器-Unsloth + Qwen1.5
2024-05-16
LLM實戰：LLM微調加速神器-Unsloth + LLama3
2024-05-14
使用Ollama部署本地LLM：構建AI REST API的簡易指南
2024-09-29
AIRESTAPI
【leetcode】高頻題目整理_樹結構篇( High Frequency Problems, Tree )
2020-10-03
LeetCode

【NLP高頻面題 - LLM架構篇】LLM為何使用GQA代替MHA？

【NLP高頻面題 - LLM架構篇】LLM為何使用GQA代替MHA？

NLP 大模型高頻面題彙總

NLP基礎篇

【NLP 面試寶典 之 模型分類】 必須要會的高頻面題

【NLP 面試寶典 之 神經網路】 必須要會的高頻面題

【NLP 面試寶典 之 主動學習】 必須要會的高頻面題

【NLP 面試寶典 之 超引數最佳化】 必須要會的高頻面題

【NLP 面試寶典 之 正則化】 必須要會的高頻面題

【NLP 面試寶典 之 過擬合】 必須要會的高頻面題

【NLP 面試寶典 之 Dropout】 必須要會的高頻面題

【NLP 面試寶典 之 EarlyStopping】 必須要會的高頻面題

【NLP 面試寶典 之 標籤平滑】 必須要會的高頻面題

【NLP 面試寶典 之 Warm up 】 必須要會的高頻面題

【NLP 面試寶典 之 置信學習】 必須要會的高頻面題

【NLP 面試寶典 之 偽標籤】 必須要會的高頻面題

【NLP 面試寶典 之 類別不均衡問題】 必須要會的高頻面題

【NLP 面試寶典 之 交叉驗證】 必須要會的高頻面題

【NLP 面試寶典 之 詞嵌入】 必須要會的高頻面題

【NLP 面試寶典 之 One-Hot】 必須要會的高頻面題

......

BERT 模型面

【NLP 面試寶典 之 BERT模型】 必須要會的高頻面題

【NLP 面試寶典 之 BERT變體】 必須要會的高頻面題

【NLP 面試寶典 之 BERT應用】 必須要會的高頻面題

......

LLMs 微調面

【NLP 面試寶典 之 LoRA微調】 必須要會的高頻面題

【NLP 面試寶典 之 Prompt】 必須要會的高頻面題

【NLP 面試寶典 之 提示學習微調】 必須要會的高頻面題

【NLP 面試寶典 之 PEFT微調】 必須要會的高頻面題

【NLP 面試寶典 之 Chain-of-Thought微調】 必須要會的高頻面題

......

相關文章

【NLP 面試寶典之模型分類】必須要會的高頻面題

【NLP 面試寶典之神經網路】必須要會的高頻面題

【NLP 面試寶典之主動學習】必須要會的高頻面題

【NLP 面試寶典之超引數最佳化】必須要會的高頻面題

【NLP 面試寶典之正則化】必須要會的高頻面題

【NLP 面試寶典之過擬合】必須要會的高頻面題

【NLP 面試寶典之 Dropout】必須要會的高頻面題

【NLP 面試寶典之 EarlyStopping】必須要會的高頻面題

【NLP 面試寶典之標籤平滑】必須要會的高頻面題

【NLP 面試寶典之 Warm up 】必須要會的高頻面題

【NLP 面試寶典之置信學習】必須要會的高頻面題

【NLP 面試寶典之偽標籤】必須要會的高頻面題

【NLP 面試寶典之類別不均衡問題】必須要會的高頻面題

【NLP 面試寶典之交叉驗證】必須要會的高頻面題

【NLP 面試寶典之詞嵌入】必須要會的高頻面題

【NLP 面試寶典之 One-Hot】必須要會的高頻面題

【NLP 面試寶典之 BERT模型】必須要會的高頻面題

【NLP 面試寶典之 BERT變體】必須要會的高頻面題

【NLP 面試寶典之 BERT應用】必須要會的高頻面題

【NLP 面試寶典之 LoRA微調】必須要會的高頻面題

【NLP 面試寶典之 Prompt】必須要會的高頻面題

【NLP 面試寶典之提示學習微調】必須要會的高頻面題

【NLP 面試寶典之 PEFT微調】必須要會的高頻面題

【NLP 面試寶典之 Chain-of-Thought微調】必須要會的高頻面題