AI在用| 沒錯,樹莓派5也能飆上Llama 3了!

机器之能發表於2024-04-23

機器之能報導

編輯: 山茶花

以大模型、AIGC為代表的人工智慧浪潮已經在悄然改變著我們生活及工作方式,但絕大部分人依然不知道該如何使用。

因此,我們推出了「AI在用」專欄,透過直觀、有趣且簡潔的人工智慧使用案例,來具體介紹AI使用方法,並激發大家思考。

我們也歡迎讀者投稿親自實踐的創新型用例。

4 月 18 日,Meta 釋出了 Llama 3,號稱「迄今最強的開源大模型」。根據 Meta 的說法,Llama 3 在多個關鍵基準測試中超越了業界領先的同類模型,在程式碼生成等任務上實現了全面領先。該模型能夠進行復雜的推理,更加遵循指令,能夠視覺化想法並解決許多微妙的問題。

開源 Llama 3 系列模型包括 8B(80 億引數)和 70B(700 億引數)兩種引數規模的版本。作為開源界的「全村希望」,Llama 3 一經發布就吸引不少網友參與「試駕」活動。今天,我們介紹其中一個令人印象深刻的應用 —— 在不到 100 美元的樹莓派 5 上跑 Llama 3 8B!

樹莓派系列是全球最為知名的袖珍型小巧卻又效能強大的迷你電腦,5 代版本配置更強還有新定製的晶片。X 網友 @adamcohenhillel 發現, Llama3 8B 能在樹莓派 5 以每秒 1.89 個 token 的速度執行,非常瘋狂!支援 8K 上下文視窗。

圖片

讓 Llama3 向世界打個招呼,Llama3 很快響應:「HEY WORLD!How’s everyone doing today?」,僅用 11.6 秒。對於在樹莓派這樣的裝置上執行大模型來說,這個響應速度已經很不錯了,可以滿足一些實時應用需求。

AI在用| 沒錯,樹莓派5也能飆上Llama 3了!

影片連結:https://mp.weixin.qq.com/s/JmE7sVmIHefGBAEZp9BcIg

  • 案例地址:

https://twitter.com/adamcohenhillel/status/1781490719997526210

如何在樹莓派 5 上跑出 Llama 3 8B,@adamcohenhillel 並未給出詳細步驟,但他推薦了在樹莓派 5 上執行 Mistral 7B 的操作指南,可以如法炮製。

圖片

值得注意的是,由於移動裝置、嵌入式系統或邊緣計算裝置的硬體資源有限,4bit 量化可以顯著減少模型的大小和計算需求,使得在這些裝置上執行大型模型成為可能。這位使用者也使用了 4bit 量化推理 Llama3 8B。

圖片

以下就是如何在樹莓派 5 上執行大語言模型 Mistral 7B 操作指南。

首先請確保你有一臺樹莓派 5,配備至少 8GB 記憶體,準備一個 32GB 的 SD 卡。接下來,我們需要給硬體安裝作業系統。從官網下載 Raspberry Pi OS,執行後你會看到如下畫面:

圖片

請選擇裝置 Raspberry Pi 5、選擇最新作業系統映象(推薦 64 位版本)、選擇儲存為插入的 SD 卡。點選「next」,系統問你是否要編輯設定,請點選「編輯設定」:

圖片

配置設定上,啟用主機名並設定為 raspberrypi.local;設定一個你將記住的使用者名稱和密碼,稍後會用到;啟用 「配置無線區域網」並新增你的 Wi-Fi 名稱和密碼;儲存設定並繼續,等待作業系統寫入 SD 卡:

圖片

將 SD 卡插入樹莓派,並連線電源。使用 SSH ( Secure Shell ) 協議遠端連線並登入到樹莓派裝置:

ssh ssh <YOUR_USERNAME>@raspberrypi.local

好了,在樹莓派上構建出適合執行大語言模型的環境後,接下來就該將大語言模型裝進來啦!怎麼裝?作者提供了兩個辦法。

一個是用 Ollama 來執行大語言模型。Ollama 是一個開源工具,透過它提供簡單的安裝指令和命令列介面,在本地執行大語言模型會變得更加簡單和快捷。

另一個就是用 llama.cpp 執行,它是一個用 C++ 編寫的高效的推理工具,用於在 CPU 上執行 Meta AI 的 Llama。

先來看第一個辦法。用 Ollama 執行大語言模型只需兩步。

第一步:安裝 Ollama,執行這個命令:

curl -fsSL https://ollama.com/install.sh | sh

這個命令會從 Ollama 的官網下載安裝指令碼並執行它,在樹莓派上安裝 Ollama。

第二步:下載並執行 Mistral 模型。使用命令 ollama run mistral 來下載並啟動 Mistral 7B 模型。結束。

相比第一個辦法,第二個辦法 —— 使用 llama.cpp 來執行大語言模型——稍顯複雜。

第一步:安裝必要的軟體包。開啟命令列工具,輸入以下命令更新軟體包列表並安裝一些必需的程式設計工具和庫:

sudo apt update && sudo apt install git g++ wget build-essential

第二步:下載 llama.cpp。使用 Git 控制工具下載 llama.cpp 程式碼庫,這個庫是專門用來執行大型語言模型的。命令是:

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

從 GitHub 上克隆程式碼到本地並切換到下載的目錄。

第三步:編譯 llama.cpp。

輸入 make -j 讓 make 工具自動將原始碼轉換為可執行程式。

第四步:找到並下載 Mistral 7B 模型。命令是:

cd models

wgethttps://huggingface.co/TheBloke/Mistral-7B-v0.1-GGUF/resolve/main/mistral-7b-v0.1.Q4_K_S.gguf

第五步:回到程式碼庫根目錄並執行模型,現在可以讓它回答「What’s up?」等問題啦。搞定,結束。

cd ..

./main -m models/mistral-7b-v0.1.Q4_K_S.gguf -p "Whatsup?" -n 400 -e

以後我們會透過新專欄帶來更多 AIGC 案例演示,也歡迎大家留言評論並給出改進建議。

相關文章