在昇騰Ascend 910B上執行Qwen2.5推理

GPUStack發表於2024-11-04

原文網址 : https://www.cnblogs.com/sealio/p/18524986

目前在國產 AI 晶片，例如昇騰 NPU 上執行大模型是一項廣泛且迫切的需求，然而當前的生態還遠未成熟。從底層晶片的算力效能、計算架構的運算元最佳化，到上層推理框架對各種模型的支援及推理加速，仍有很多需要完善的地方。

今天帶來一篇在昇騰 910B 上執行 Qwen 2.5 執行推理的操作實踐。

配置昇騰環境

在昇騰 NPU 伺服器上，確認昇騰 NPU 驅動已安裝：

npu-smi info

根據架構下載對應的 CANN Toolkit 包（開發套件）和對應晶片的 Kernel 包（CANN 運算元） https://www.hiascend.com/zh/software/cann/community-history：

wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Milan-ASL/Milan-ASL%20V100R001C19SPC703/Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run
wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Milan-ASL/Milan-ASL%20V100R001C19SPC703/Ascend-cann-kernels-910b_8.0.RC3.alpha003_linux-aarch64.run

安裝 Toolkit，按提示操作：

sudo sed -i 's/user=true/user=false/' ~/.pip/pip.conf
sudo chmod +x Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run && sudo ./Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run --install --install-for-all

安裝 Kernel，按提示操作：

sudo chmod +x Ascend-cann-kernels-910b_8.0.RC3.alpha003_linux-aarch64.run && sudo ./Ascend-cann-kernels-910b_8.0.RC3.alpha003_linux-aarch64.run --install --install-for-all

配置環境變數：

sudo echo "source /usr/local/Ascend/ascend-toolkit/set_env.sh" >> /etc/profile
source /usr/local/Ascend/ascend-toolkit/set_env.sh

昇騰環境已經配置完成，接下來準備執行 Qwen 2.5 模型的私有大模型服務平臺。

安裝 GPUStack

GPUStack 是一個開源的大模型即服務平臺，支援 Nvidia、Apple Metal、華為昇騰和摩爾執行緒等各種型別的 GPU/NPU，可以在昇騰 910B 上執行包括 Qwen 2.5 在內的各種大模型，安裝步驟如下。

透過以下命令在昇騰 NPU 伺服器上線上安裝 GPUStack，在安裝過程中需要輸入 sudo 密碼：

curl -sfL https://get.gpustack.ai | sh -

如果環境連線不了 GitHub，無法下載一些二進位制檔案，使用以下命令安裝，用 --tools-download-base-url 引數指定從騰訊雲物件儲存下載：

curl -sfL https://get.gpustack.ai | sh - --tools-download-base-url "https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com"

當看到以下輸出時，說明已經成功部署並啟動了 GPUStack：

[INFO]  Install complete.

GPUStack UI is available at http://localhost.
Default username is 'admin'.
To get the default password, run 'cat /var/lib/gpustack/initial_admin_password'.

CLI "gpustack" is available from the command line. (You may need to open a new terminal or re-login for the PATH changes to take effect.)

接下來按照指令碼輸出的指引，拿到登入 GPUStack 的初始密碼，執行以下命令：

cat /var/lib/gpustack/initial_admin_password

在瀏覽器訪問 GPUStack UI，使用者名稱 admin，密碼為上面獲得的初始密碼。

重新設定密碼後，進入 GPUStack：

納管昇騰 NPU 資源

GPUStack 支援納管 Linux、Windows 和 macOS 裝置的 GPU 資源，如果有多臺昇騰 NPU 伺服器，透過以下步驟來納管這些 NPU 資源。

其他節點需要透過認證 Token 加入 GPUStack 叢集，在 GPUStack Server 節點執行以下命令獲取 Token：

cat /var/lib/gpustack/token

拿到 Token 後，在其他節點上執行以下命令新增 Worker 到 GPUStack，納管這些節點的 NPU（將其中的 http://YOUR_IP_ADDRESS 替換為 GPUStack 訪問地址，將 YOUR_TOKEN 替換為用於新增 Worker 的認證 Token）：

curl -sfL https://get.gpustack.ai | sh - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN --tools-download-base-url "https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com"

納管的昇騰 NPU 伺服器資源如下：

部署 Qwen 2.5 模型

在 GPUStack 的模型選單中部署模型。GPUStack 支援從 HuggingFace、Ollama Library、ModelScope 和私有模型倉庫部署模型，國內網路建議從 ModelScope 部署。

GPUStack 支援 vLLM 和 llama-box 推理後端，llama-box 是 llama.cpp 的最佳化版本，對效能和穩定性進行了針對性的最佳化。目前 GPUStack 中基於 llama-box 提供對昇騰 NPU 的支援，在昇騰 NPU 上部署模型需要模型為 GGUF 格式。

從 ModelScope 部署 Qwen 2.5 的全系列模型，目前 CANN 運算元的支援完整度方面還有不足，目前只能執行 FP16 精度、Q8_0 和 Q4_0 量化的模型，建議執行 FP16 精度的模型：

Qwen2.5-0.5B-Instruct-GGUF FP16
Qwen2.5-1.5B-Instruct-GGUF FP16
Qwen2.5-3B-Instruct-GGUF FP16
Qwen2.5-7B-Instruct-GGUF FP16
Qwen2.5-14B-Instruct-GGUF FP16
Qwen2.5-32B-Instruct-GGUF FP16
Qwen2.5-72B-Instruct-GGUF FP16

來看其中 Qwen 2.5 72B 模型的具體執行情況，Qwen 2.5 72B 被排程到 3 塊 910B 上執行：

在 Dashboard 可以看到 Qwen 2.5 72B 被分配了 140.1 GiB 視訊記憶體和 8.1 GiB 記憶體：

從 Playground 的實際測試來看，使用 llama-box 在昇騰 910B 上執行 Qwen 2.5 72B 的推理效能表現為 6 Tokens/s 左右，NPU 利用率在 10~30%左右：

以下為 Qwen 2.5 全系列模型在昇騰 910B 上的推理效能表現彙總資料，包括 Qwen2.5 0.5B、1.5B、3B 的 Q8_0 和 Q4_0 量化的推理效能資料作為對比參考：

Model	Tokes / Second	NPU Util	NPU Mem	NPUs
Qwen2.5 0.5B FP16	42 tokens/second	Util 6~7%	Mem 7%	單卡
Qwen2.5 1.5B FP16	35 tokens/second	Util 11~13%	Mem 10%	單卡
Qwen2.5 3B FP16	29 tokens/second	Util 15~16%	Mem 15%	單卡
Qwen2.5 7B FP16	32 tokens/second	Util 16~21%	Mem 16%	單卡
Qwen2.5 14B FP16	19 tokens/second	Util 19~22%	Mem 28%	單卡
Qwen2.5 32B FP16	10.5 tokens/second	Util 10~45%	Mem 54%	雙卡
Qwen2.5 72B FP16	6 tokens/second	Util 10~60%	Mem 78%	三卡
Qwen2.5 0.5B Q8_0	6.5 tokens/second	Util 2~5%	Mem 6%	單卡
Qwen2.5 0.5B Q4_0	6 tokens/second	Util 4~5%	Mem 6%	單卡
Qwen2.5 1.5B Q8_0	3.5 tokens/second	Util 4~11%	Mem 8%	單卡
Qwen2.5 1.5B Q4_0	17~18 tokens/second	Util 9~12%	Mem 7%	單卡
Qwen2.5 3B Q8_0	3.2 tokens/second	Util 10~15%	Mem 10%	單卡
Qwen2.5 3B Q4_0	14.5 tokens/second	Util 8~15%	Mem 8%	單卡

對其中的 Qwen 2.5 0.5B FP16 模型進行併發測試的效能表現如下：

CC	Tokens / Second	TP	NPU Util	NPU Mem
1	39 tokens/second	39	Util 6~7%	Mem 7%
2	38 tokens/second	76	Util 6~7%	Mem 7%
3	37.66 tokens/second	113	Util 6~7%	Mem 7%
4	34.25 tokens/second	137	Util 6~7%	Mem 7%
5	31 tokens/second	155	Util 6~7%	Mem 7%
6	28.16 tokens/second	169	Util 6~7%	Mem 7%
7	27.57 tokens/second	193	Util 6~7%	Mem 7%
8	26.87 tokens/second	215	Util 6~7%	Mem 7%
9	26 tokens/second	234	Util 6~7%	Mem 7%
10	26.9 tokens/second	269	Util 6~7%	Mem 7%
20	20.3 tokens/second	406	Util 6~7%	Mem 8%
50	10.34 tokens/second	517	Util 3~5%	Mem 8%
100	4.17 tokens/second	417	Util 2~5%	Mem 9%

從測試結果來看，目前硬體效能未得到充分發揮，CANN 運算元最佳化方面還有可觀的最佳化空間，推理引擎層面也還有一些可以最佳化的推理加速技術，也期待後續 GPUStack 的另外一個高效能推理後端 vLLM 對昇騰 NPU 的支援，提供更佳的推理效能表現。

以上為使用 GPUStack 在昇騰 910B 上執行 Qwen 2.5 推理的操作實踐。GPUStack 是一個開源的大模型即服務平臺，以下為 GPUStack 功能的簡單介紹。

GPUStack 功能介紹

異構 GPU 支援：支援異構 GPU 資源，當前支援 Nvidia、Apple Metal、華為昇騰和摩爾執行緒等各種型別的 GPU/NPU
多推理後端支援：支援 vLLM 和 llama-box (llama.cpp) 推理後端，兼顧生產效能需求與多平臺相容性需求
多平臺支援：支援 Linux、Windows 和 macOS 平臺，覆蓋 amd64 和 arm64 架構
多模型型別支援：支援 LLM 文字模型、VLM 多模態模型、Embedding 文字嵌入模型和 Reranker 重排序模型等各種型別的模型
多模型倉庫支援：支援從 HuggingFace、Ollama Library、ModelScope 和私有模型倉庫部署模型
豐富的自動/手動排程策略：支援緊湊排程、分散排程、指定 Worker 標籤排程、指定 GPU 排程等各種排程策略
分散式推理：如果單個 GPU 無法執行較大的模型，可以透過 GPUStack 的分散式推理功能，自動將模型執行在跨主機的多個 GPU 上
CPU 推理：如果沒有 GPU 或 GPU 資源不足，GPUStack 可以用 CPU 資源來執行大模型，支援 GPU&CPU 混合推理和純 CPU 推理兩種 CPU 推理模式
多模型對比：GPUStack 在 Playground 中提供了多模型對比檢視，可以同時對比多個模型的問答內容和效能資料，以評估不同模型、不同權重、不同 Prompt 引數、不同量化、不同 GPU、不同推理後端的模型 Serving 效果
GPU 和 LLM 觀測指標：提供全面的效能、利用率、狀態監控和使用資料指標，以評估 GPU 和 LLM 的利用情況

GPUStack 作為一個開源專案，只需要非常簡單的安裝設定，就可以開箱即用地構建企業私有大模型即服務平臺。

總結

以上為使用 GPUStack 在昇騰 910B 上執行 Qwen 2.5 的操作實踐，專案的開源地址為：https://github.com/gpustack/gpustack。

期待後續國產 AI 晶片在運算元最佳化上更加完善，同時也期待上層推理引擎對國產 AI 晶片的更多支援，充分發揮國產 AI 晶片的硬體效能，提供更佳的推理效能表現。

如果覺得寫得不錯，歡迎點贊、轉發、關注。

昇騰攜手OpenMMLab，支援海量演算法倉庫的昇騰AI推理部署
2022-12-14
演算法AI
在昇騰平臺上對TensorFlow網路進行效能調優
2023-03-15
華為昇騰訓練營筆記-Ascend C運算元開發
2024-07-11
筆記
在NuoDB上執行Asterisk
2019-03-04
AST
【華為昇騰】序言：從昇騰AI軟硬體平臺聊起
2021-11-21
AI
轉：在Linux上執行WinForm
2024-07-01
LinuxORM
wine-在mac上執行exe執行檔案
2024-06-17
Mac
手把手教你在Modelarts平臺上進行視訊推理
2021-07-21
Hazelcast JET在Spring Boot上執行
2019-01-10
ASTSpring Boot
怎樣在 Kubernetes 上執行 PostgreSQL
2019-04-22
SQL
在VSCode上執行Python程式(Mac)
2024-07-09
VSCodePythonMac
在kubernetes上執行WASM負載
2021-05-07
ASM負載
昇騰AI的三級跳
2021-07-16
AI
大語言模型快速推理: 在 Habana Gaudi2 上推理 BLOOMZ
2023-04-06
模型OOM
在英特爾 CPU 上加速 Stable Diffusion 推理
2023-04-13
Hummingbird: 在Web上執行Flutter應用
2019-03-03
WebFlutter
華為昇騰，AI推理效能超越對手一倍：軟體挖掘處理器全部潛力
2020-08-14
AI
在Kubernetes上執行SAP UI5應用(上）
2018-12-02
UI
在 Windows 系統上執行 VIC 水文模型
2023-11-28
Windows模型
Qt+Halcon在XP上構建和執行
2020-11-22
QT
在 WASI 上執行 .NET 7 應用程式
2022-04-04
在 NUC980 上執行 RT-Thread
2021-06-29
thread
矽基流動×華為雲聯合推出基於昇騰雲的DeepSeek R1&V3推理服務
2025-02-01
.NET 與 OpenEuler 共展翅，昇騰九萬里
2023-11-27
為什麼在 Plasma 上難以執行 EVM
2018-12-15
ASM
STM32流水燈在Protues上執行教程
2020-11-08
Docker 教程：在 Mac M2 上執行 PostgreSQL
2024-09-26
DockerMacSQL
無需sudo使用Podman在Linux上執行容器
2022-12-16
Linux
【推理引擎】從原始碼看ONNXRuntime的執行流程
2022-03-29
原始碼
剛剛，Llama 3.2 來了！支援影像推理，還有可在手機上執行的版本
2024-09-26
保證執行緒在主執行緒執行
2018-08-08
執行緒
react中在函式繫結時會馬上執行.沒有加括號不會馬上執行
2018-04-04
React函式
組合語言 - 在Mac上執行 DEBUG.exe
2018-10-31
組合語言Mac
在linux上定期執行命令、指令碼（cron，crontab，anacron）
2019-04-05
Linux指令碼
怎樣在sqlite3上執行SQL語句
2019-01-07
SQLite
怎樣在windows上定時執行python指令碼
2018-09-04
WindowsPython指令碼
Spark程式碼在叢集上執行過程理解
2020-10-10
Spark
在Mac上執行Rainbond，10分鐘快速安裝
2022-01-11
MacAI