一分鐘部署 Llama3 中文大模型,沒別的,就是快

米开朗基杨發表於2024-04-29

前段時間百度創始人李彥宏信誓旦旦地說開源大模型會越來越落後,閉源模型會持續領先。隨後小扎同學就給了他當頭一棒,向他展示了什麼叫做頂級開源大模型。

美國當地時間4月18日,Meta 在官網上釋出了兩款開源大模型,引數分別達到 80 億 (8B) 和 700 億 (70B),是目前同體量下效能最好的開源模型,而且直接逼近了一線頂級商業模型 GPT-4 和 Claude3。

與此同時,還有一個 400B 的超大杯模型還在路上,估計很快就會放出來,到時候就真的碾壓了,某些聲稱閉源遙遙領先的哥們就等著哭吧 😢

雖然才過去短短几日,Huggingface 上已經湧現了非常多的 Llama3 中文微調版,令人眼花繚亂:

想不想自己也部署一個 Llama3 中文版?

對於沒有 GPU 的同學,我們可以使用微調的量化模型來使用 CPU 執行。不同的量化方法會帶來不同的效能損失:

  1. 8bit 量化沒有效能損失。
  2. AWQ 4bit 量化對 8B 模型來說有 2%效能損失,對 70B 模型只有 0.05%效能損失。
  3. 引數越大的模型,低 bit 量化損失越低。AWQ 3bit 70B 也只有 2.7%效能損失,完全可接受。

綜合來說,如果追求無任何效能損失,8B 模型用 8bit 量化,70B 模型用 4bit 量化

如果能接受 2-3%損失,8B 模型用 4bit 量化,70B 模型用 3bit 量化。

目前效果最好的中文微調版是 HuggingFace 社群的 zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型,該模型採用 firefly-train-1.1M、moss-003-sft-data、school_math_0.25M、弱智吧(沒錯,就是那個弱智吧~)資料集,使模型能夠使用中文回答使用者的提問。

下面我們來看看如何在三分鐘內快速部署這個模型吧。

直接在瀏覽器中開啟以下連結:

  • https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dllama3-8b-chinese

然後點選右上角的「去 Sealos 部署」。

如果您是第一次使用 Sealos,則需要註冊登入 Sealos 公有云賬號,登入之後會立即跳轉到模板的部署頁面。

跳轉進來之後,點選右上角的「部署應用」開始部署,部署完成後,直接點選應用的「詳情」進入該應用的詳情頁面。

等待例項狀態變成 running 之後,Llama3 中文版模型就部署好了,預設會提供一個與 OpenAI 官方介面對齊的 API,你可以開啟終端直接透過 API 來測試。我框出來的部分就是該模型 API 在 Sealos 叢集的內網地址,你可以點選它直接複製。

為了更直觀地使用,我們可以選擇再部署一個 WebUI,Lobe Chat、ChatGPT Next Web 這些都可以使用,本文以 Lobe Chat 為例,直接在瀏覽器開啟以下連結:

  • https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dlobe-chat

需要填寫三個變數的值,如下圖所示:

  • OPENAI_PROXY_URL 的值就是我們剛剛複製的內網 API 介面地址,記得要在末尾加上 /v1
  • OPENAI_MODEL_LIST 的值是 +Llama3-8B-Chinese-Chat.q4_k_m.GGUF
  • OPENAI_API_KEY 的值隨便瞎寫一個就行。

然後點選右上角的「部署應用」,部署完成後,直接點選應用的「詳情」進入該應用的詳情頁面,等待例項狀態變成 running 之後,點選外網地址即可開啟 Lobe Chat 的視覺化介面。

進來之後,先點選頂部的 gpt-3.5-turbo:

在彈出來的下拉框中點選「Llama3-8B-Chinese-Chat.q4_k_m.GGUF」,切換到該模型。

現在就可以和模型愉快地對話了,先來個弱智吧的問題嚐嚐鹹淡:

再來試試 GPT-4 專用測試問題:

數學能力測試:

???

這個應用模板預設只給了 8核 CPU,而且都沒跑滿,效果肯定還是不如 GPU 的。有條件的同學可以直接用 GPU 部署 70B 的模型。

相關文章