1檔案+2個命令,無需安裝,單機離線執行70億大模型

機器學習演算法與Python發表於2023-12-08

1檔案+2個命令,無需安裝,單機離線執行70億大模型

大家好,我是老章

最近蘋果釋出了自己的深度學習框架--MLX,專門為自家M系列晶片最佳化。看了展示影片,這個框架還能直接執行Llama 7B的大模型,在M2 Ultral上執行流暢。但是我嘗試了一下,我的M2 Mac mini根本跑不動,模型權重太大了。

這倒勾起了我繼續單機玩大模型的興趣,然後就發現了llamafile的玩法:下載模型檔案、直接執行即可瀏覽器中執行,就可以開始聊天,還可以上傳圖片進行提問。

先不介紹原理,直接看看如何執行吧:

1、下載llava-v1.5-7b-q4-server.llama 檔案(對應模型是LLaVA 1.5,在 Llama 2 之上進行微調的大型多模式模型 )

下載地址:https://huggingface.co/jartine/llava-v1.5-7B-GGUF/resolve/main/llava-v1.5-7b-q4-server.llamafile?download=true

鑑於有些同學可能無法訪問huggingface,我也準備了這個檔案在網盤,有需要可以找我要一下。

2、MacOS和linux使用者需要在命令列中先授權這個檔案可執行

chmod +x llava-v1.5-7b-q4-server.llamafile
# 然後執行
./llava-v1.5-7b-q4-server.llamafile

如果是windows使用者,那就更省事了,直接重新命名這個檔案,後面加上 .exe 即可

3、瀏覽器會自動彈開聊天介面(如果沒有,瀏覽器中直接開啟https://localhost:8080即可)

首次開啟需要配置一些引數,也可以直接使用預設值。

除了聊天,也可以上傳圖片讓它識別。聊天完畢後,返回終端並點選 Control-C關閉 llamafile。

順便簡單介紹一下llamafile:

這個大模型檔案是Mozilla 團隊釋出的,這個檔案包含 LLM 的模型權重和執行該模型所需的程式碼 ,可以將它視為一個完整的本地伺服器,帶有用於與其互動的 Web UI。

llamafile是基於llama.cpp(一個領先的開源 LLM 聊天機器人框架)和Cosmopolitan Libc(一個開源專案,使 C 程式能夠在大量平臺和架構上編譯和執行)實現的。使用 llamafile,可以將大型語言模型 (LLM) 權重檔案轉換為可在六種作業系統(macOS、Windows、Linux、FreeBSD、OpenBSD 和 NetBSD)上執行的二進位制檔案,而無需安裝,確保給定的一組權重將永遠保持可用並一致且可重複地執行。

想要了解更多,可以參考一下資料:

模型演示:https://llava.hliu.cc/

模型簡介:https://llava-vl.github.io/

模型程式碼:https://github.com/haotian-liu/LLaVA

llamafile開源地址:https://github.com/Mozilla-Ocho/llamafile

llamafile簡介:https://hacks.mozilla.org/2023/11/introducing-llamafile/