LLM-01 大模型本地部署執行 ChatGLM2-6B-INT4(6GB) 簡單上手環境配置單機單卡多卡 2070Super8GBx2 打怪升級！

武子康發表於2024-07-21

原文網址 : https://www.cnblogs.com/wzkicu/p/18314188

大模型

搬遷說明

之前在 CSDN 上發文章，一直想著努力發一些好的文章出來！這篇文章在 2024-04-17 10:11:55 已在 CSDN 釋出

寫在前面

其他顯示卡環境也可以！但是最少要有8GB的視訊記憶體，不然很容易爆。
如果有多顯示卡的話，單機多卡也是很好的方案！！！

背景介紹

目前借到一臺演算法組的伺服器，我們可以檢視一下目前顯示卡的情況

nvidia-smi

PS: (後續已經對CUDA等進行了升級，可看我的其他文章，有升級的詳細過程)

專案地址

官方的地址：

# 需要克隆專案
https://github.com/THUDM/ChatGLM2-6B
# 模型下載（如果你沒有科學，麻煩一點需要手動下載）
https://cloud.tsinghua.edu.cn/d/674208019e314311ab5c/?p=%2Fchatglm2-6b-int4&mode=list
# 模型下載（如果可以科學，官方下載的體驗是比較舒適的）
https://huggingface.co/THUDM/chatglm2-6b-int4

我們需要對專案進行克隆，同時需要下載對應的模型，如果你有科學，可以忽略模型的下載，因為你啟動專案的時候它會自己下載。

配置要求

根據官方的介紹，可以看到對應的顯示卡要求，根據我的情況(2070Super 8GB * 2)，我這裡選擇下載了INT4的模型。

安裝Pyenv

由於很多不同的專案隊python版本的要求不同，同時對版本的要求也不同，所以你需要配置一個獨立的環境。
這裡你可以選擇 Conda，也可以選擇pyenv，或者docker。我選的方案是：pyenv

# pyenv 官方地址
https://github.com/pyenv/pyenv

安裝完成之後，記得配置一下環境變數：

echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bashrc
echo 'command -v pyenv >/dev/null || export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.bashrc
echo 'eval "$(pyenv init -)"' >> ~/.bashrc

如果你和我一樣使用的是 ZSH 的話：

echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.zshrc
echo '[[ -d $PYENV_ROOT/bin ]] && export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.zshrc
echo 'eval "$(pyenv init -)"' >> ~/.zshrc

測試Pyenv

# 檢視當前系統中的Python情況
pyenv versions

使用Pyenv

# Python版本
pyenv local 3.10
# 獨立環境
python -m venv env
# 切換環境
source env/bin/active
# cd 到專案目錄
# 安裝Python庫 pip install - requirements.txt

你將看到類似的內容，我這裡在 MacBook 上測試的：

安裝依賴

# Python版本
pyenv local 3.10
# 獨立環境
python -m venv env
# 切換環境
source env/bin/active
# cd 到專案目錄
# 安裝Python庫 pip install - requirements.txt

注意: 這是兩個部分：(這是我伺服器的配置，你也要搞清楚你的內容放置在哪裡) 如下圖：

專案資料夾 /home/jp/wzk/chatglm2-6b-int4/ChatGLM2-6B
模型資料夾 /home/jp/wzk/chatglm2-6b-int4/chatglm2-6b-int4

專案資料夾：

模型資料夾

啟動專案

在專案的目錄下，我們利用現成的直接啟動：web_demo.py

# 先開啟看一眼
vim web_demo.py

model_path 是你下載的模型資料夾（如果你不是手動下載的話，可以不改，這樣的話會自動下載）

PS: 此時需要到最後一行，修改對外暴露服務

# 程式碼修改為這樣
demo.queue().launch(server_name="0.0.0.0", server_port=7861, share=False, inbrowser=True)

退出儲存，我們啟動服務：

python web_demo.py

使用專案

完成上述的操作，稍等後看到：

根據你的伺服器IP和埠，訪問即可:

多卡啟動

由於單卡很容易爆 OOM，正好這裡是 2 * 2070Super 8GB，我們簡單的修改一下程式碼，就可以將模型分到兩張顯示卡中。
官方給的方案是，透過accelerate庫來啟動。

修改剛才的 web_demo.py，詳細位置請看圖：

# GPU 數量修改為2 
model = load_model_on_gpus(model_path, num_gpus=2)

重新啟動即可，就已經是多卡啟動了！！！

單機多卡、多機多卡的藝術
2022-05-18
Pytorch使用資料並行，單機多卡
2020-05-14
PyTorch並行
Windows單機配置Zookeeper環境
2018-06-15
Windows
A6000單機多卡大模型訓練踩坑記錄（CUDA環境、多GPU卡住且視訊記憶體100%）
2024-03-22
大模型GPU記憶體
Pytorch：單卡多程式並行訓練
2023-01-24
PyTorch並行
銀行卡收單之單邊賬
2018-10-09
kafka環境安裝及簡單使用(單機版)
2018-05-04
Kafka
簡單安裝PHP在Linux下的執行環境
2021-07-09
PHPLinux
jenkins簡單安裝及配置（Windows環境
2023-02-23
JenkinsWindows
windows下使用pytorch進行單機多卡分散式訓練
2023-04-02
WindowsPyTorch分散式
搭建Hyperledger Fabric 2.3.2開發環境及簡單案例執行
2022-03-24
開發環境
簡單介紹nacos單機本地配置檔案儲存位置方式
2023-03-29
MongoDB 簡單上手
2018-09-28
MongoDB
webpack介面環境切換的配置-超簡單
2020-09-28
Web
Golang多執行緒簡單鬥地主
2020-09-12
Golang執行緒
軟體升級配置清單
2024-04-07
本地推理,單機執行,MacM1晶片系統基於大語言模型C++版本LLaMA部署“本地版”的ChatGPT
2023-03-24
MacACM晶片模型C++ChatGPT
ElasticSearch（單節點）環境配置
2020-12-21
Elasticsearch
babel 7 簡單升級指南
2018-08-30
Babel
Windows下安裝java jdk和tomcat執行環境簡單整理
2019-05-11
WindowsJavaJDKTomcat
kubernetes環境部署單節點redis
2021-01-15
Redis
JavaWeb專案執行在單獨的tomcat 以及單獨的jdk執行環境
2018-09-04
JavaWebTomcatJDK
java多執行緒 wait() notify()簡單使用
2018-08-15
Java執行緒AI
Python簡單實現多執行緒例子
2024-06-07
Python執行緒
Java多執行緒就是這麼簡單
2020-12-14
Java執行緒
Fedora 下，如何快速設定本地環境（簡單快速暴力法）
2019-01-10
簡單幾步搭建一個基於Docker的Tomcat執行環境！
2018-06-09
DockerTomcat
Docker環境搭建CUDA12.2 + Yolov5 7.0 GPU訓練環境（單卡訓練）
2024-11-15
DockerYOLOGPU
python多執行緒、鎖、event事件機制的簡單使用
2019-02-16
Python執行緒事件
一個簡單多庫配置
2018-11-02
laragon 簡單好用的 PHP 環境
2019-09-24
GoPHP
kafka單機部署多服務
2018-12-05
Kafka
mongodb單機從3.2升級到4.0.4升級
2018-12-24
MongoDB
多執行緒之死鎖就是這麼簡單
2018-05-06
執行緒
多執行緒賣火車票簡單例子
2019-01-30
執行緒單例
【多執行緒系列】CAS、AQS簡單介紹
2021-09-09
執行緒AQS
簡單的多執行緒複製檔案
2020-11-26
執行緒
基於Debian搭建Hyperledger Fabric 2.4開發環境及執行簡單案例
2022-04-06
開發環境

LLM-01 大模型 本地部署執行 ChatGLM2-6B-INT4(6GB) 簡單上手 環境配置 單機單卡多卡 2070Super8GBx2 打怪升級！