本地部署Llama3-8B/70B 並進行邏輯推理測試

张善友發表於2024-04-20

美國當地時間4月18日,Meta開源了Llama3大模型,目前開源版本為8B和70B。Llama 3模型相比Llama 2具有重大飛躍,並在8B和70B引數尺度上建立了LLM模型的新技術。由於預訓練和後訓練的改進,Llama3模型是目前在8B和70B引數尺度上存在的最好的模型。訓練後程式的改進大大降低了錯誤拒絕率,改善了一致性,增加了模型響應的多樣性。我們還看到了推理、程式碼生成和指令跟蹤等功能的極大改進,使Llama 3更具可操控性。

Meta原話:

This next generation of Llama demonstrates state-of-the-art performance on a wide range of industry benchmarks and offers new capabilities, including improved reasoning. We believe these are the best open source models of their class, period.

Llama 3 是一個自迴歸語言模型(an auto-regressive language),它使用最佳化的 transformer 架構。調整後的版本使用監督微調 (SFT) 和帶有人類反饋的強化學習 (RLHF),以符合人類對有用性和安全性的偏好。


image

今天我就手把手的帶大家用最簡單的方案在本地部署Llama3-8B。只需要下載安裝2個軟體就可以執行,都是開箱即用。

image

一、安裝Ollama

Ollama是專門為本地化執行大模型設計的軟體,可以執行大多數開源大模型,如llama,gemma,qwen等,首先去官網下載Ollama軟體:https://ollama.com/ ,最簡單的方式是使用Docker 來跑, 此次執行是包括web端的一起執行,所以使用docker-compose打包一起執行以下容器:

  • ollama/ollama:latest
  • open-webui:latest

具體的文件參見: Getting Started | Open WebUI

二、下載模型

在Ollama官方的Models欄目中,找到我們要的模型, 直接訪問這個連結:https://ollama.com/library/llama3

image

右邊有一個命令: ollama run llama3:8b,把它改為ollama pull llama3:8b。然後在cmd命令列中執行這個命令,就會下載模型了。下載需要一些時間,耐心等候。

三、LLAMA3體驗

llama3 整體的推理,邏輯能力都不錯。美中不足的是對中文不太友好。但是比llama2已經好了很多。LLAMA3的訓練語料大概只有5%是非英文內容。它能夠看懂中文,但大部份的回答都會用英文回答,除非你要求它用中文回答。

我的電腦上有一塊16G視訊記憶體的 4090卡,因此我體驗了8b 和 70b .總體上來說70b 要比8b 強不少:我參考光哥的《ChatGPT與New Bing實測對比,New Bing真的是採用GPT-4嗎?》文章中的 三個推理能力測試進行了檢測,透過幾個Prompt的測試,70b模型,3道題全部正確,光哥文章中已經總結了結論,New Bing用的模型應該是ChatGPT 3.5。我還特別測試了百度“弱智吧”問題測試,回答都很好。

b49932cfafb9b307021e9c464244ad8

image


24586af4dbb48b4da20c3be7ab503b9


首先宣告,此項測試也許並不嚴謹,僅僅作為一項娛樂測試, 但還是具有一定的參考意義,同樣的問題在是在各大模型上反覆測試過的。下面說下一些直觀的感受:

  • 主觀上感覺比明顯很多開源模型回答的要好;

  • 回答更加偏向口語化,並且帶有一些表情,不會一上來就直接回答問題,而是表達一下這個問題“很有趣”或者“發人深省”;

  • 中文語境有待增強,有的時候不能以中文直接回答,畢竟llama3 只有5%的預料是非英語的,中文的預料肯定是很少的,我已經開始期待,國內大佬基於LLama3的中文微調了。

相關文章