目前在國產 AI 晶片,例如昇騰 NPU 上執行大模型是一項廣泛且迫切的需求,然而當前的生態還遠未成熟。從底層晶片的算力效能、計算架構的運算元最佳化,到上層推理框架對各種模型的支援及推理加速,仍有很多需要完善的地方。
今天帶來一篇在昇騰 910B 上執行 Qwen 2.5 執行推理的操作實踐。
配置昇騰環境
在昇騰 NPU 伺服器上,確認昇騰 NPU 驅動已安裝:
npu-smi info
根據架構下載對應的 CANN Toolkit 包(開發套件)和對應晶片的 Kernel 包(CANN 運算元) https://www.hiascend.com/zh/software/cann/community-history:
wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Milan-ASL/Milan-ASL%20V100R001C19SPC703/Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run
wget https://ascend-repo.obs.cn-east-2.myhuaweicloud.com/Milan-ASL/Milan-ASL%20V100R001C19SPC703/Ascend-cann-kernels-910b_8.0.RC3.alpha003_linux-aarch64.run
安裝 Toolkit,按提示操作:
sudo sed -i 's/user=true/user=false/' ~/.pip/pip.conf
sudo chmod +x Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run && sudo ./Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run --install --install-for-all
安裝 Kernel,按提示操作:
sudo chmod +x Ascend-cann-kernels-910b_8.0.RC3.alpha003_linux-aarch64.run && sudo ./Ascend-cann-kernels-910b_8.0.RC3.alpha003_linux-aarch64.run --install --install-for-all
配置環境變數:
sudo echo "source /usr/local/Ascend/ascend-toolkit/set_env.sh" >> /etc/profile
source /usr/local/Ascend/ascend-toolkit/set_env.sh
昇騰環境已經配置完成,接下來準備執行 Qwen 2.5 模型的私有大模型服務平臺。
安裝 GPUStack
GPUStack 是一個開源的大模型即服務平臺,支援 Nvidia、Apple Metal、華為昇騰和摩爾執行緒等各種型別的 GPU/NPU,可以在昇騰 910B 上執行包括 Qwen 2.5 在內的各種大模型,安裝步驟如下。
透過以下命令在昇騰 NPU 伺服器上線上安裝 GPUStack,在安裝過程中需要輸入 sudo 密碼:
curl -sfL https://get.gpustack.ai | sh -
如果環境連線不了 GitHub,無法下載一些二進位制檔案,使用以下命令安裝,用 --tools-download-base-url
引數指定從騰訊雲物件儲存下載:
curl -sfL https://get.gpustack.ai | sh - --tools-download-base-url "https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com"
當看到以下輸出時,說明已經成功部署並啟動了 GPUStack:
[INFO] Install complete.
GPUStack UI is available at http://localhost.
Default username is 'admin'.
To get the default password, run 'cat /var/lib/gpustack/initial_admin_password'.
CLI "gpustack" is available from the command line. (You may need to open a new terminal or re-login for the PATH changes to take effect.)
接下來按照指令碼輸出的指引,拿到登入 GPUStack 的初始密碼,執行以下命令:
cat /var/lib/gpustack/initial_admin_password
在瀏覽器訪問 GPUStack UI,使用者名稱 admin,密碼為上面獲得的初始密碼。
重新設定密碼後,進入 GPUStack:
納管昇騰 NPU 資源
GPUStack 支援納管 Linux、Windows 和 macOS 裝置的 GPU 資源,如果有多臺昇騰 NPU 伺服器,透過以下步驟來納管這些 NPU 資源。
其他節點需要透過認證 Token 加入 GPUStack 叢集,在 GPUStack Server 節點執行以下命令獲取 Token:
cat /var/lib/gpustack/token
拿到 Token 後,在其他節點上執行以下命令新增 Worker 到 GPUStack,納管這些節點的 NPU(將其中的 http://YOUR_IP_ADDRESS
替換為 GPUStack 訪問地址,將 YOUR_TOKEN
替換為用於新增 Worker 的認證 Token):
curl -sfL https://get.gpustack.ai | sh - --server-url http://YOUR_IP_ADDRESS --token YOUR_TOKEN --tools-download-base-url "https://gpustack-1303613262.cos.ap-guangzhou.myqcloud.com"
納管的昇騰 NPU 伺服器資源如下:
部署 Qwen 2.5 模型
在 GPUStack 的模型選單中部署模型。GPUStack 支援從 HuggingFace、Ollama Library、ModelScope 和私有模型倉庫部署模型,國內網路建議從 ModelScope 部署。
GPUStack 支援 vLLM 和 llama-box 推理後端,llama-box 是 llama.cpp 的最佳化版本,對效能和穩定性進行了針對性的最佳化。目前 GPUStack 中基於 llama-box 提供對昇騰 NPU 的支援,在昇騰 NPU 上部署模型需要模型為 GGUF 格式。
從 ModelScope 部署 Qwen 2.5 的全系列模型,目前 CANN 運算元的支援完整度方面還有不足,目前只能執行 FP16 精度、Q8_0 和 Q4_0 量化的模型,建議執行 FP16 精度的模型:
- Qwen2.5-0.5B-Instruct-GGUF FP16
- Qwen2.5-1.5B-Instruct-GGUF FP16
- Qwen2.5-3B-Instruct-GGUF FP16
- Qwen2.5-7B-Instruct-GGUF FP16
- Qwen2.5-14B-Instruct-GGUF FP16
- Qwen2.5-32B-Instruct-GGUF FP16
- Qwen2.5-72B-Instruct-GGUF FP16
來看其中 Qwen 2.5 72B 模型的具體執行情況,Qwen 2.5 72B 被排程到 3 塊 910B 上執行:
在 Dashboard 可以看到 Qwen 2.5 72B 被分配了 140.1 GiB 視訊記憶體和 8.1 GiB 記憶體:
從 Playground 的實際測試來看,使用 llama-box 在昇騰 910B 上執行 Qwen 2.5 72B 的推理效能表現為 6 Tokens/s 左右,NPU 利用率在 10~30%左右:
以下為 Qwen 2.5 全系列模型在昇騰 910B 上的推理效能表現彙總資料,包括 Qwen2.5 0.5B、1.5B、3B 的 Q8_0 和 Q4_0 量化的推理效能資料作為對比參考:
Model | Tokes / Second | NPU Util | NPU Mem | NPUs |
---|---|---|---|---|
Qwen2.5 0.5B FP16 | 42 tokens/second | Util 6~7% | Mem 7% | 單卡 |
Qwen2.5 1.5B FP16 | 35 tokens/second | Util 11~13% | Mem 10% | 單卡 |
Qwen2.5 3B FP16 | 29 tokens/second | Util 15~16% | Mem 15% | 單卡 |
Qwen2.5 7B FP16 | 32 tokens/second | Util 16~21% | Mem 16% | 單卡 |
Qwen2.5 14B FP16 | 19 tokens/second | Util 19~22% | Mem 28% | 單卡 |
Qwen2.5 32B FP16 | 10.5 tokens/second | Util 10~45% | Mem 54% | 雙卡 |
Qwen2.5 72B FP16 | 6 tokens/second | Util 10~60% | Mem 78% | 三卡 |
Qwen2.5 0.5B Q8_0 | 6.5 tokens/second | Util 2~5% | Mem 6% | 單卡 |
Qwen2.5 0.5B Q4_0 | 6 tokens/second | Util 4~5% | Mem 6% | 單卡 |
Qwen2.5 1.5B Q8_0 | 3.5 tokens/second | Util 4~11% | Mem 8% | 單卡 |
Qwen2.5 1.5B Q4_0 | 17~18 tokens/second | Util 9~12% | Mem 7% | 單卡 |
Qwen2.5 3B Q8_0 | 3.2 tokens/second | Util 10~15% | Mem 10% | 單卡 |
Qwen2.5 3B Q4_0 | 14.5 tokens/second | Util 8~15% | Mem 8% | 單卡 |
對其中的 Qwen 2.5 0.5B FP16 模型進行併發測試的效能表現如下:
CC | Tokens / Second | TP | NPU Util | NPU Mem |
---|---|---|---|---|
1 | 39 tokens/second | 39 | Util 6~7% | Mem 7% |
2 | 38 tokens/second | 76 | Util 6~7% | Mem 7% |
3 | 37.66 tokens/second | 113 | Util 6~7% | Mem 7% |
4 | 34.25 tokens/second | 137 | Util 6~7% | Mem 7% |
5 | 31 tokens/second | 155 | Util 6~7% | Mem 7% |
6 | 28.16 tokens/second | 169 | Util 6~7% | Mem 7% |
7 | 27.57 tokens/second | 193 | Util 6~7% | Mem 7% |
8 | 26.87 tokens/second | 215 | Util 6~7% | Mem 7% |
9 | 26 tokens/second | 234 | Util 6~7% | Mem 7% |
10 | 26.9 tokens/second | 269 | Util 6~7% | Mem 7% |
20 | 20.3 tokens/second | 406 | Util 6~7% | Mem 8% |
50 | 10.34 tokens/second | 517 | Util 3~5% | Mem 8% |
100 | 4.17 tokens/second | 417 | Util 2~5% | Mem 9% |
從測試結果來看,目前硬體效能未得到充分發揮,CANN 運算元最佳化方面還有可觀的最佳化空間,推理引擎層面也還有一些可以最佳化的推理加速技術,也期待後續 GPUStack 的另外一個高效能推理後端 vLLM 對昇騰 NPU 的支援,提供更佳的推理效能表現。
以上為使用 GPUStack 在昇騰 910B 上執行 Qwen 2.5 推理的操作實踐。GPUStack 是一個開源的大模型即服務平臺,以下為 GPUStack 功能的簡單介紹。
GPUStack 功能介紹
- 異構 GPU 支援:支援異構 GPU 資源,當前支援 Nvidia、Apple Metal、華為昇騰和摩爾執行緒等各種型別的 GPU/NPU
- 多推理後端支援:支援 vLLM 和 llama-box (llama.cpp) 推理後端,兼顧生產效能需求與多平臺相容性需求
- 多平臺支援:支援 Linux、Windows 和 macOS 平臺,覆蓋 amd64 和 arm64 架構
- 多模型型別支援:支援 LLM 文字模型、VLM 多模態模型、Embedding 文字嵌入模型 和 Reranker 重排序模型等各種型別的模型
- 多模型倉庫支援:支援從 HuggingFace、Ollama Library、ModelScope 和私有模型倉庫部署模型
- 豐富的自動/手動排程策略:支援緊湊排程、分散排程、指定 Worker 標籤排程、指定 GPU 排程等各種排程策略
- 分散式推理:如果單個 GPU 無法執行較大的模型,可以透過 GPUStack 的分散式推理功能,自動將模型執行在跨主機的多個 GPU 上
- CPU 推理:如果沒有 GPU 或 GPU 資源不足,GPUStack 可以用 CPU 資源來執行大模型,支援 GPU&CPU 混合推理和純 CPU 推理兩種 CPU 推理模式
- 多模型對比:GPUStack 在 Playground 中提供了多模型對比檢視,可以同時對比多個模型的問答內容和效能資料,以評估不同模型、不同權重、不同 Prompt 引數、不同量化、不同 GPU、不同推理後端的模型 Serving 效果
- GPU 和 LLM 觀測指標:提供全面的效能、利用率、狀態監控和使用資料指標,以評估 GPU 和 LLM 的利用情況
GPUStack 作為一個開源專案,只需要非常簡單的安裝設定,就可以開箱即用地構建企業私有大模型即服務平臺。
總結
以上為使用 GPUStack 在昇騰 910B 上執行 Qwen 2.5 的操作實踐,專案的開源地址為:https://github.com/gpustack/gpustack。
期待後續國產 AI 晶片在運算元最佳化上更加完善,同時也期待上層推理引擎對國產 AI 晶片的更多支援,充分發揮國產 AI 晶片的硬體效能,提供更佳的推理效能表現。
如果覺得寫得不錯,歡迎點贊、轉發、關注。