LLM本地部署全過程記錄

ilxT發表於2024-05-10

部署時間:2024年5月10日

環境

  • 英偉達顯示卡

  • Windows11

  • miniconda

  • VSCode

下載開源 LLM:ChatGLM3

下載程式碼,透過VSCode開啟ChatGLM3資料夾,作為工作目錄

下載模型,大概十幾G,記錄下儲存的目錄,形如X:\xxx\xxx\xxx\chatglm3-6b

另一篇參考流程

安裝miniconda

官網

將會在虛擬環境中配置所需的Python環境

安裝CUDA

  • 首先透過命令 nvidia-smi 檢視顯示卡支援的CUDA最高版本

  • 然後在pytorch官網檢視你想安裝的pytorch版本對應的CUDA版本

  • 官網安裝CUDA ,根據我的環境與任務,我選擇的是CUDA12.1

隨便百度一篇可以參考

配置python環境

  • 關於pytorch版本與安裝命令,請嚴格按照官網的來
  • 參考 https://pytorch.org/get-started/locally/
  • 參考 https://pytorch.org/get-started/previous-versions/#linux-and-windows-6
  • 在WINDOWS下如果安裝pytorch2.3,後續執行模型時可能會報警告(1Torch was not compiled with flash attention.),當然,似乎不影響使用;於是選擇pytorch2.1.2,不會報警告,當然,暫時沒發現效能或其它方面(與會報警告的2.3.0比較)有什麼優勢。 ——謹此說明

首先,可以在開始選單中找到miniconda(安裝的時候預設勾選了),開啟miniconda的終端,依次執行以下程式碼

conda create -n GPT python=3.11 -y

activate GPT

activate GPT

conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia

然後可以關閉這個終端了。

接下來切到VSCode,將VSCode的Python直譯器選成GPT環境中的直譯器。(此步應有圖片,有空再補)

在VScode中直接新建終端,就預設是在虛擬環境GPT中的終端,在這個終端執行命令

pip install -r requirements.txt

環境就配置完成了。

最後,可以執行 ChatGLM3\中的各種應用demo做測試,程式碼中的MODEL_PATH都要修改為LLM的模型儲存目錄,例如可以這樣改 MODEL_PATH=X:\\xxx\\xxx\\xxx\\chatglm3-6b

關於程式碼怎麼寫怎麼用,查閱原始碼提供的各個文件,或者上官網

本機使用體驗

我的渣機配置是 12600KF+16G記憶體+RTX4060(8G視訊記憶體),用4-bit量化部署,GPU使用率和視訊記憶體可以跑滿,共享視訊記憶體使用5G+,執行對話功能的demo時,一次對話視情況不同需要1分鐘~數分鐘不等,挺慢的

如果真正使用,應該在有更專業顯示卡的計算平臺上部署,或者直接用官方LLM的API開發應用

相關文章