通用輔助生成: 使用任意輔助模型加速解碼

HuggingFace發表於2024-11-19

原文網址 : https://www.cnblogs.com/huggingface/p/18555699

太長不看版: 許多 LLM (如 gemma-2-9b 、 Mixtral-8x22B-Instruct-v0.1 等) 苦於缺乏對應小模型，而無法適用輔助生成方案。本文，我們將介紹由英特爾研究院和 Hugging Face 合作開發的 通用輔助生成 技術。有了這項技術，LLM 可與任意 SLM 搭配組成輔助生成方案。從而，我們可以用輔助生成技術加速任意解碼器模型或混合專家模型以獲得 1.5x-2.0x 的加速比。重要的是，開銷幾乎為零 🔥🔥🔥！一起了解一下吧！

引言

如今，風頭最勁的開放權重 LLM 引數量一般都有數十億到數千億 (說你呢 Llama-3.1-405B 👋)，這給在生產環境中部署這些餓獸帶來了一系列工程挑戰。挑戰之一就是: 大模型文字生成速度很慢。為此，社群開發了很多不同的技術來加速解碼過程。輔助生成，也稱為投機解碼，是其中一種非常常用且實用的方法，可在不損失準確性的情況下加速 LLM 推理。本文，我們將瞭解輔助生成的工作原理，並分享我們的最新研究成果，該成果使得對 Hugging Face Hub 14 萬個語言模型中的 任意一個 模型進行加速成為可能，🚀！

輔助生成

輔助生成的核心是一對模型，分別稱為 目標模型 和 輔助模型 ，其中輔助模型是目標模型的小版，舉個例子，你可以使用 Llama-3.2-1B 作為較大的 Llama-3.1-70b 目標模型的輔助模型。整個生成過程是一個迭代過程: 每一輪，輔助模型會先一個一個自迴歸地生成多個詞元; 接著，目標模型透過一次前向傳播驗證輔助模型本輪生成的所有詞元。加速的奧秘就在於目標模型每次前向傳播中可以驗證多個詞元，而不像原本每次只能生成一個詞元。更詳細的解釋，請參閱原博文。結合新近推出的動態投機策略，輔助生成可將文字生成速度提高 1.5 至 3 倍，具體倍數取決於任務型別及所使用的模型。

但，輔助生成並非無往而不利，一個最明顯的問題就是: 其要求目標模型和輔助模型必須使用相同的分詞器，這意味著兩者必須來自同一個模型系列。然而，許多廣泛使用的模型缺乏合適的“矮小緊”模型，因此與如此大幅的延遲降低無緣。根據我們的經驗，一般來說，輔助模型需要至少比目標模型小 50-100 倍，才會看到有意義的加速。舉幾個例子，CodeLlama-13b 沒有小模型; gemma-2-9b 只有一個 2b 的小模型，顯然不夠小、不夠快，因此加速註定不會太明顯。

通用輔助生成

為了緩解這個痛點，英特爾研究院與 Hugging Face 合作開發了通用輔助生成 (Universal Assisted Generation，UAG) 技術。UAG 可以無視分詞器的差異，配對任意目標模型和輔助模型。例如，可以使用 gemma-2-9b 作為目標模型，並選取 vicuna-68m 作為輔助模型。

該技術背後的主要思想是雙路分詞器對映: 每一輪，輔助模型生成完詞元后，就將其輸出詞元序列解碼為文字，再使用目標模型的分詞器將文字編碼成詞元序列; 同樣地，在目標模型驗證完後，將目標模型的詞元序列用相同的方法轉換回輔助模型的詞元序列，再將其新增至輔助模型的上下文用於下一輪迭代。

由於輔助模型和目標模型的分詞器的詞彙表不同，因此還需要處理由此帶來的差異。為了準確地對輔助模型新生成的詞元序列進行重編碼，必須再多給它一些上文詞元。然後，將整個序列重新編碼為目標模型的詞元格式，並與之前生成的最新的目標詞元對齊，以錨定新生成詞元的確切位置。下面的影片對此過程進行了圖解。

從目標模型到輔助模型的詞元重編碼也遵循與上述影片類似的過程。此時，如遇不匹配的詞元，需從輔助模型的鍵值 (KV) 快取中將它們丟棄掉，以保證資料的完整性。

基準測試

下表展示了不同目標模型與異分詞器輔助模型形成輔助解碼方案時測得的延遲改進。

目標模型	輔助模型	資料集	任務	加速比
`codellama/CodeLlama-13b-Instruct-hf`	`bigcode/tiny_starcoder_py`	`openai/humaneval`	程式碼生成	1.90x
`mistralai/Mixtral-8x22B-Instruct-v0.1`	`double7/vicuna-68m`	`cnn_dailymail`	摘要	1.52x
`google/gemma-2-9b`	`double7/vicuna-68m`	`cnn_dailymail`	摘要	1.76x
`mistralai/Mixtral-8x22B-Instruct-v0.1`	`Qwen/Qwen2-0.5B-Instruct`	`tau/scrolls`	長文摘要	1.78x
`meta-llama/Llama-3.1-70B`	`Qwen/Qwen2-0.5B-Instruct`	`tau/scrolls`	長文摘要	1.78x
`microsoft/Phi-3-medium-128k-instruct`	`Qwen/Qwen2-0.5B-Instruct`	`tau/scrolls`	長文摘要	1.91x

請注意，在標準輔助解碼方案下，上表中所有目標模型都會苦於沒有合適的小模型 (低於 10 億引數)。

上述實驗均在 100 個隨機樣本上完成。 Llama 和 Mixtral 目標模型的實驗分別用了 2 張和 4 張 A100 GPU; 其他所有實驗均使用單張 A6000 GPU。

程式碼

通用輔助生成技術已整合至 🤗 Transformers 4.46.0 版。

要使能該技術，需將 tokenizer 和 assistant_tokenizer 傳遞給 generate() ，示例程式碼如下:

from transformers import AutoModelForCausalLM, AutoTokenizer

prompt = "Alice and Bob"
checkpoint = "google/gemma-2-9b"
assistant_checkpoint = "double7/vicuna-68m"

assistant_tokenizer = AutoTokenizer.from_pretrained(assistant_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
inputs = tokenizer(prompt, return_tensors="pt")

model = AutoModelForCausalLM.from_pretrained(checkpoint)
assistant_model = AutoModelForCausalLM.from_pretrained(assistant_checkpoint)
outputs = model.generate(**inputs, assistant_model=assistant_model, tokenizer=tokenizer, assistant_tokenizer=assistant_tokenizer)
tokenizer.batch_decode(outputs, skip_special_tokens=True)

輸出如下:

['Alice and Bob are sitting in a bar. Alice is drinking a beer and Bob is drinking a']

下一步

標準輔助生成方案在 do_sample=True 時，使用的投機取樣演算法為該論文的演算法 1，但 UAG
目前僅實現了多項分佈取樣。在多項分佈取樣中，如果目標模型與輔助模型取樣得的詞元不相同時，會自動拒絕該詞元，這與投機取樣對此情況的處理不同。在實踐中，這意味著與共享分詞器的標準方案相比，UAG 方案在 do_sample=True 時吞吐量會較低。將來，我們計劃增加對 UAG 投機取樣的支援。

此外，我們還打算將 UAG 整合到 🤗 Transformers 流水線中，以使使用者能夠更簡單、輕鬆地利用它。

參考資源

Fast Inference from Transformers via Speculative Decoding
輔助生成: 低延遲文字生成的新方向

英文原文: https://hf.co/blog/universal_assisted_generation

原文作者: Daniel Korat，Oren Pereg，Moshe Berchansky，Jonathan Mamou，Joao Gante，Lewis Tunstall，Nadav Timor，Moshe Wasserblat

譯者: Matrix Yao (姚偉峰)，英特爾深度學習工程師，工作方向為 transformer-family 模型在各模態資料上的應用及大規模模型的訓練推理。

英特爾 Gaudi 加速輔助生成
2024-06-26
常用輔助類
2020-08-27
搜狐輔助材料
2022-06-21
更快的輔助生成: 動態推測
2024-10-21
如何新增輔助線（幾何問題）如何畫輔助線
2024-12-06
Angular路由——輔助路由
2018-05-09
Angular路由
Laravel 輔助函式
2019-02-13
Laravel函式
用Kano模型輔助產品功能決策
2022-05-27
模型
estools 輔助反混淆 Javascript
2020-08-19
JavaScript
使用Github Action來輔助專案管理
2024-06-28
Github專案管理
使用 functrace 輔助進行 Go 專案原始碼分析
2021-06-05
Go原始碼
AI 大模型輔助測試提效的思考
2024-11-15
AI大模型
AI輔助Kano模型進行產品開發
2024-11-07
AI模型
AI 大模型輔助測試全流程提效
2024-12-03
AI大模型
wegame輔助功能用不了怎麼解決 wegamelolcfdnf輔助設定無效怎麼辦
2022-08-24
GAM
某穿牆輔助的註冊碼破解
2018-03-10
四邊形輔助線做法
2024-03-27
Android 輔助功能 -搶紅包
2024-03-15
Android
圖形輔助，理解遞迴
2019-06-07
遞迴
五，搭建環境：輔助功能
2024-08-09
Laravel自定義輔助函式
2021-11-23
Laravel函式
1. 輔助函式 dd()
2021-02-23
函式
使用 Tye 輔助開發 dotnet 應用程式
2021-02-28
iPhone XS怎麼開啟輔助觸控小白點？蘋果iPhone螢幕輔助觸控使用教程
2018-12-13
iPhone蘋果
vuex 原始碼：深入 vuex 之輔助函式 mapState
2018-04-28
Vue原始碼函式
Android 輔助功能 -搶紅包(二)
2024-03-15
Android
Android 輔助功能 -搶紅包(三)
2024-03-15
Android
開發常用的輔助函式
2020-09-17
函式
聊聊併發（三）——同步輔助類
2021-11-05
T-SQL——數字輔助表
2023-02-21
SQL
建立Laravel自定義Helper輔助方法
2021-03-29
Laravel
CAD（計算機輔助設計）
2020-11-30
計算機
Apple輔助功能和GUI指令碼助手：UI Browser for Mac
2023-12-31
APPGUI指令碼Mac
遊戲化三部曲：核心模型、輔助模型和成長模型
2019-12-05
遊戲模型
十個推薦使用的 Laravel 的輔助函式
2019-04-22
Laravel函式
yiigo - 簡單易用的 Golang 輔助庫
2018-11-17
Golang
Laravel 輔助函式 dd 加強篇
2018-09-04
Laravel函式
canvas的超強輔助 -- fabric.js
2020-10-24
CanvasJS

通用輔助生成: 使用任意輔助模型加速解碼

引言

輔助生成

通用輔助生成

基準測試

程式碼

下一步

參考資源

相關文章