本地執行LLaMa3:70b

Ray1997發表於2024-05-26

主機配置

OS: CentOS Stream 9
RAM: 128 GB
CPU: Xeon W2465(16核)
GPU: NVIDIA RTX A5000 16GB

安裝GPU驅動

First, confirm that your system meets the necessary requirements, including the installation of the NVIDIA driver and CUDA toolkit.

`
docs:Install GPU Driver

安裝完成後驗證:

`

安裝Ollama模型管理容器

官網直達:https://ollama.com/download/linux

安裝結束執行Llama3:70b
ollama run llama3:70b

安裝Open webui

採用Docker image安裝 -> 這裡採用共享主機網路: --network=host,因為我ollama沒有采用docker安裝,docker虛擬程序網路訪問本地網路會有問題:

docker run -d -p 3000:8080 --network=host --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

開啟區域網防火牆

firewall-cmd --permanent --add-port=3000/tcp
firewall-cmd --reload

這裡要注意一下,1是本地主機的防火牆配置,2是路由器配置也要檢查一下。

效果

小記

  1. 沒有梯子基本下不動40g的包,得先裝梯子,這個可能會比較麻煩;
  2. 更有價效比的方式,還是使用百度的「文心一言」和阿里的「qwen」,這兩個中文支援比較好,LLaMa3的中文支援太弱了,需要自己在做sft,還是比較麻煩的;
  3. llama3:70b的生成速度A5000的加速效果還是比較明顯的,如果能上兩張卡,效果會更好一些,後面可以考慮一下;

相關文章