主機配置
OS: CentOS Stream 9
RAM: 128 GB
CPU: Xeon W2465(16核)
GPU: NVIDIA RTX A5000 16GB
安裝GPU驅動
First, confirm that your system meets the necessary requirements, including the installation of the NVIDIA driver and CUDA toolkit.
`
docs:Install GPU Driver
安裝完成後驗證:
`
安裝Ollama模型管理容器
官網直達:https://ollama.com/download/linux
安裝結束執行Llama3:70b
ollama run llama3:70b
安裝Open webui
採用Docker image安裝 -> 這裡採用共享主機網路: --network=host,因為我ollama沒有采用docker安裝,docker虛擬程序網路訪問本地網路會有問題:
docker run -d -p 3000:8080 --network=host --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
開啟區域網防火牆
firewall-cmd --permanent --add-port=3000/tcp
firewall-cmd --reload
這裡要注意一下,1是本地主機的防火牆配置,2是路由器配置也要檢查一下。
效果
小記
- 沒有梯子基本下不動40g的包,得先裝梯子,這個可能會比較麻煩;
- 更有價效比的方式,還是使用百度的「文心一言」和阿里的「qwen」,這兩個中文支援比較好,LLaMa3的中文支援太弱了,需要自己在做sft,還是比較麻煩的;
- llama3:70b的生成速度A5000的加速效果還是比較明顯的,如果能上兩張卡,效果會更好一些,後面可以考慮一下;