在昇騰Ascend 910B上執行Qwen2.5推理

GPUStack發表於2024-11-04

目前在國產 AI 晶片,例如昇騰 NPU 上執行大模型是一項廣泛且迫切的需求,然而當前的生態還遠未成熟。從底層晶片的算力效能、計算架構的運算元最佳化,到上層推理框架對各種模型的支援及推理加速,仍有很多需要完善的地方。

今天帶來一篇在昇騰 910B 上執行 Qwen 2.5 執行推理的操作實踐。

配置昇騰環境

在昇騰 NPU 伺服器上,確認昇騰 NPU 驅動已安裝:

npu-smi info

根據架構下載對應的 CANN Toolkit 包(開發套件)和對應晶片的 Kernel 包(CANN 運算元) https://www.hiascend.com/zh/software/cann/community-history

wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Milan-ASL/Milan-ASL%20V100R001C19SPC703/Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run
wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Milan-ASL/Milan-ASL%20V100R001C19SPC703/Ascend-cann-kernels-910b_8.0.RC3.alpha003_linux-aarch64.run

安裝 Toolkit,按提示操作:

sudo sed -i 's/user=true/user=false/' ~/.pip/pip.conf
sudo chmod +x Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run && sudo ./Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run --install --install-for-all

安裝 Kernel,按提示操作:

sudo chmod +x Ascend-cann-kernels-910b_8.0.RC3.alpha003_linux-aarch64.run && sudo ./Ascend-cann-kernels-910b_8.0.RC3.alpha003_linux-aarch64.run --install --install-for-all

配置環境變數:

sudo echo "source /usr/local/Ascend/ascend-toolkit/set_env.sh" >> /etc/profile
source /usr/local/Ascend/ascend-toolkit/set_env.sh

昇騰環境已經配置完成,接下來準備執行 Qwen 2.5 模型的私有大模型服務平臺。

安裝 GPUStack

GPUStack 是一個開源的大模型即服務平臺,支援 Nvidia、Apple Metal、華為昇騰和摩爾執行緒等各種型別的 GPU/NPU,可以在昇騰 910B 上執行包括 Qwen 2.5 在內的各種大模型,安裝步驟如下。

透過以下命令在昇騰 NPU 伺服器上線上安裝 GPUStack,在安裝過程中需要輸入 sudo 密碼:

curl -sfL https://get.gpustack.ai | sh -

如果環境連線不了 GitHub,無法下載一些二進位制檔案,使用以下命令安裝,用 --tools-download-base-url 引數指定從騰訊雲物件儲存下載:

curl -sfL https://get.gpustack.ai | sh - --tools-download-base-url "https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com"

當看到以下輸出時,說明已經成功部署並啟動了 GPUStack:

[INFO]  Install complete.

GPUStack UI is available at http://localhost.
Default username is 'admin'.
To get the default password, run 'cat /var/lib/gpustack/initial_admin_password'.

CLI "gpustack" is available from the command line. (You may need to open a new terminal or re-login for the PATH changes to take effect.)

接下來按照指令碼輸出的指引,拿到登入 GPUStack 的初始密碼,執行以下命令:

cat /var/lib/gpustack/initial_admin_password

在瀏覽器訪問 GPUStack UI,使用者名稱 admin,密碼為上面獲得的初始密碼。

重新設定密碼後,進入 GPUStack:

納管昇騰 NPU 資源

GPUStack 支援納管 Linux、Windows 和 macOS 裝置的 GPU 資源,如果有多臺昇騰 NPU 伺服器,透過以下步驟來納管這些 NPU 資源。

其他節點需要透過認證 Token 加入 GPUStack 叢集,在 GPUStack Server 節點執行以下命令獲取 Token:

cat /var/lib/gpustack/token

拿到 Token 後,在其他節點上執行以下命令新增 Worker 到 GPUStack,納管這些節點的 NPU(將其中的 http://YOUR_IP_ADDRESS 替換為 GPUStack 訪問地址,將 YOUR_TOKEN 替換為用於新增 Worker 的認證 Token):

curl -sfL https://get.gpustack.ai | sh - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN --tools-download-base-url "https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com"

納管的昇騰 NPU 伺服器資源如下:


部署 Qwen 2.5 模型

在 GPUStack 的模型選單中部署模型。GPUStack 支援從 HuggingFace、Ollama Library、ModelScope 和私有模型倉庫部署模型,國內網路建議從 ModelScope 部署。

GPUStack 支援 vLLMllama-box 推理後端,llama-boxllama.cpp 的最佳化版本,對效能和穩定性進行了針對性的最佳化。目前 GPUStack 中基於 llama-box 提供對昇騰 NPU 的支援,在昇騰 NPU 上部署模型需要模型為 GGUF 格式。

從 ModelScope 部署 Qwen 2.5 的全系列模型,目前 CANN 運算元的支援完整度方面還有不足,目前只能執行 FP16 精度、Q8_0 和 Q4_0 量化的模型,建議執行 FP16 精度的模型:

  • Qwen2.5-0.5B-Instruct-GGUF FP16
  • Qwen2.5-1.5B-Instruct-GGUF FP16
  • Qwen2.5-3B-Instruct-GGUF FP16
  • Qwen2.5-7B-Instruct-GGUF FP16
  • Qwen2.5-14B-Instruct-GGUF FP16
  • Qwen2.5-32B-Instruct-GGUF FP16
  • Qwen2.5-72B-Instruct-GGUF FP16

來看其中 Qwen 2.5 72B 模型的具體執行情況,Qwen 2.5 72B 被排程到 3 塊 910B 上執行:

在 Dashboard 可以看到 Qwen 2.5 72B 被分配了 140.1 GiB 視訊記憶體和 8.1 GiB 記憶體:

從 Playground 的實際測試來看,使用 llama-box 在昇騰 910B 上執行 Qwen 2.5 72B 的推理效能表現為 6 Tokens/s 左右,NPU 利用率在 10~30%左右:

以下為 Qwen 2.5 全系列模型在昇騰 910B 上的推理效能表現彙總資料,包括 Qwen2.5 0.5B、1.5B、3B 的 Q8_0 和 Q4_0 量化的推理效能資料作為對比參考:

Model Tokes / Second NPU Util NPU Mem NPUs
Qwen2.5 0.5B FP16 42 tokens/second Util 6~7% Mem 7% 單卡
Qwen2.5 1.5B FP16 35 tokens/second Util 11~13% Mem 10% 單卡
Qwen2.5 3B FP16 29 tokens/second Util 15~16% Mem 15% 單卡
Qwen2.5 7B FP16 32 tokens/second Util 16~21% Mem 16% 單卡
Qwen2.5 14B FP16 19 tokens/second Util 19~22% Mem 28% 單卡
Qwen2.5 32B FP16 10.5 tokens/second Util 10~45% Mem 54% 雙卡
Qwen2.5 72B FP16 6 tokens/second Util 10~60% Mem 78% 三卡
Qwen2.5 0.5B Q8_0 6.5 tokens/second Util 2~5% Mem 6% 單卡
Qwen2.5 0.5B Q4_0 6 tokens/second Util 4~5% Mem 6% 單卡
Qwen2.5 1.5B Q8_0 3.5 tokens/second Util 4~11% Mem 8% 單卡
Qwen2.5 1.5B Q4_0 17~18 tokens/second Util 9~12% Mem 7% 單卡
Qwen2.5 3B Q8_0 3.2 tokens/second Util 10~15% Mem 10% 單卡
Qwen2.5 3B Q4_0 14.5 tokens/second Util 8~15% Mem 8% 單卡

對其中的 Qwen 2.5 0.5B FP16 模型進行併發測試的效能表現如下:

CC Tokens / Second TP NPU Util NPU Mem
1 39 tokens/second 39 Util 6~7% Mem 7%
2 38 tokens/second 76 Util 6~7% Mem 7%
3 37.66 tokens/second 113 Util 6~7% Mem 7%
4 34.25 tokens/second 137 Util 6~7% Mem 7%
5 31 tokens/second 155 Util 6~7% Mem 7%
6 28.16 tokens/second 169 Util 6~7% Mem 7%
7 27.57 tokens/second 193 Util 6~7% Mem 7%
8 26.87 tokens/second 215 Util 6~7% Mem 7%
9 26 tokens/second 234 Util 6~7% Mem 7%
10 26.9 tokens/second 269 Util 6~7% Mem 7%
20 20.3 tokens/second 406 Util 6~7% Mem 8%
50 10.34 tokens/second 517 Util 3~5% Mem 8%
100 4.17 tokens/second 417 Util 2~5% Mem 9%

從測試結果來看,目前硬體效能未得到充分發揮,CANN 運算元最佳化方面還有可觀的最佳化空間,推理引擎層面也還有一些可以最佳化的推理加速技術,也期待後續 GPUStack 的另外一個高效能推理後端 vLLM 對昇騰 NPU 的支援,提供更佳的推理效能表現。

以上為使用 GPUStack 在昇騰 910B 上執行 Qwen 2.5 推理的操作實踐。GPUStack 是一個開源的大模型即服務平臺,以下為 GPUStack 功能的簡單介紹。

GPUStack 功能介紹

  • 異構 GPU 支援:支援異構 GPU 資源,當前支援 Nvidia、Apple Metal、華為昇騰和摩爾執行緒等各種型別的 GPU/NPU

  • 多推理後端支援:支援 vLLMllama-box (llama.cpp) 推理後端,兼顧生產效能需求與多平臺相容性需求

  • 多平臺支援:支援 Linux、Windows 和 macOS 平臺,覆蓋 amd64 和 arm64 架構

  • 多模型型別支援:支援 LLM 文字模型、VLM 多模態模型、Embedding 文字嵌入模型 和 Reranker 重排序模型等各種型別的模型

  • 多模型倉庫支援:支援從 HuggingFace、Ollama Library、ModelScope 和私有模型倉庫部署模型

  • 豐富的自動/手動排程策略:支援緊湊排程、分散排程、指定 Worker 標籤排程、指定 GPU 排程等各種排程策略

  • 分散式推理:如果單個 GPU 無法執行較大的模型,可以透過 GPUStack 的分散式推理功能,自動將模型執行在跨主機的多個 GPU 上

  • CPU 推理:如果沒有 GPU 或 GPU 資源不足,GPUStack 可以用 CPU 資源來執行大模型,支援 GPU&CPU 混合推理純 CPU 推理兩種 CPU 推理模式

  • 多模型對比:GPUStack 在 Playground 中提供了多模型對比檢視,可以同時對比多個模型的問答內容和效能資料,以評估不同模型、不同權重、不同 Prompt 引數、不同量化、不同 GPU、不同推理後端的模型 Serving 效果

  • GPU 和 LLM 觀測指標:提供全面的效能、利用率、狀態監控和使用資料指標,以評估 GPU 和 LLM 的利用情況

GPUStack 作為一個開源專案,只需要非常簡單的安裝設定,就可以開箱即用地構建企業私有大模型即服務平臺。

總結

以上為使用 GPUStack 在昇騰 910B 上執行 Qwen 2.5 的操作實踐,專案的開源地址為:https://github.com/gpustack/gpustack

期待後續國產 AI 晶片在運算元最佳化上更加完善,同時也期待上層推理引擎對國產 AI 晶片的更多支援,充分發揮國產 AI 晶片的硬體效能,提供更佳的推理效能表現。

如果覺得寫得不錯,歡迎點贊轉發關注

相關文章