chatglm3-6B 下載
建議從 https://modelscope.cn/models/ZhipuAI/chatglm3-6b 中下載模型到本地;
其他參考文件:
https://zhipu-ai.feishu.cn/wiki/WvQbwIJ9tiPAxGk8ywDck6yfnof
https://zhipu-ai.feishu.cn/wiki/OwCDwJkKbidEL8kpfhPcTGHcnVc
環境配置
ubuntu 22.04
推理的話,我的 CPU 記憶體為 24GB,GPU 記憶體為 24GB,執行的半精度模型;
感覺 CPU 不能再少了,GPU 可以為 16GB(估算);
conda create -n chatglm3 python=3.11
conda activate chatglm3
pip install modelscope
# pip install protobuf 'transformers>=4.30.2' cpm_kernels 'torch>=2.0' gradio mdtex2html sentencepiece accelerate
pip install protobuf 'transformers==4.41.2' cpm_kernels 'torch>=2.0' gradio mdtex2html sentencepiece accelerate
如果你不用 ipynb 的話,可以略過下面的命令
pip install --user ipykernel
python -m ipykernel install --user --name=chatglm3
環境bug修理
transformers 安裝 4.41.2 版本
執行(僅推理)
from modelscope import AutoTokenizer, AutoModel
# 模型資料夾路徑
model_dir = "****/ZhipuAI/chatglm3-6b"
tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
model = AutoModel.from_pretrained(model_dir, trust_remote_code=True).half().cuda() # half()代表半精度,cuda()代表在 GPU 上執行
# model = AutoModel.from_pretrained(model_dir, trust_remote_code=True).half()
model = model.eval()
response, history = model.chat(tokenizer, "你好", history=[])
print(response)
response, history = model.chat(tokenizer, "晚上睡不著應該怎麼辦", history=history)
print(response)