部署時間:2024年5月10日
環境
-
英偉達顯示卡
-
Windows11
-
miniconda
-
VSCode
下載開源 LLM:ChatGLM3
下載程式碼,透過VSCode開啟ChatGLM3
資料夾,作為工作目錄
下載模型,大概十幾G,記錄下儲存的目錄,形如X:\xxx\xxx\xxx\chatglm3-6b
另一篇參考流程
安裝miniconda
官網
將會在虛擬環境中配置所需的Python環境
安裝CUDA
-
首先透過命令
nvidia-smi
檢視顯示卡支援的CUDA最高版本 -
然後在pytorch官網檢視你想安裝的pytorch版本對應的CUDA版本
-
官網安裝CUDA ,根據我的環境與任務,我選擇的是CUDA12.1
隨便百度一篇可以參考
配置python環境
- 關於pytorch版本與安裝命令,請嚴格按照官網的來
- 參考 https://pytorch.org/get-started/locally/
- 參考 https://pytorch.org/get-started/previous-versions/#linux-and-windows-6
- 在WINDOWS下如果安裝pytorch2.3,後續執行模型時可能會報警告(1Torch was not compiled with flash attention.),當然,似乎不影響使用;於是選擇pytorch2.1.2,不會報警告,當然,暫時沒發現效能或其它方面(與會報警告的2.3.0比較)有什麼優勢。 ——謹此說明
首先,可以在開始選單中找到miniconda(安裝的時候預設勾選了),開啟miniconda的終端,依次執行以下程式碼
conda create -n GPT python=3.11 -y
activate GPT
activate GPT
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
然後可以關閉這個終端了。
接下來切到VSCode,將VSCode的Python直譯器選成GPT環境中的直譯器。(此步應有圖片,有空再補)
在VScode中直接新建終端,就預設是在虛擬環境GPT
中的終端,在這個終端執行命令
pip install -r requirements.txt
環境就配置完成了。
最後,可以執行 ChatGLM3\中的各種應用demo做測試,程式碼中的MODEL_PATH
都要修改為LLM的模型儲存目錄,例如可以這樣改 MODEL_PATH=X:\\xxx\\xxx\\xxx\\chatglm3-6b
關於程式碼怎麼寫怎麼用,查閱原始碼提供的各個文件,或者上官網
本機使用體驗
我的渣機配置是 12600KF+16G記憶體+RTX4060(8G視訊記憶體),用4-bit量化部署,GPU使用率和視訊記憶體可以跑滿,共享視訊記憶體使用5G+,執行對話功能的demo時,一次對話視情況不同需要1分鐘~數分鐘不等,挺慢的
如果真正使用,應該在有更專業顯示卡的計算平臺上部署,或者直接用官方LLM的API開發應用