得益於 MLX Swift,Llama 3 已在 iPhone 上本地執行:
- Llama 3 在 iPhone 上執行的速度約為 8.5t/s,
它可以在 Android 上執行嗎?
回答是肯定的,可以為此使用executorch :
供參考:
- 使用 4 位分組量化 7B LLama2,
- 他們在 Samsung s24 上實現了 11 tok/s,
- 在 Samsung s22 上實現了 8 tok/s。
https://github.com/pytorch/executorch/tree/main/examples/models/llama2
網友:
1、第一個問題是您的裝置上有多少記憶體。我有 6GB Pixel 6a,CPU 速度不是問題,但 8B 型號需要大量 RAM。如果你的手機是 16GB,只要你不介意速度慢一點,你就可以做任何你想做的事。在 Android 上,我使用 MLCChat 來執行 Phi 2B,但與膝上型電腦上的 Dolphin 2.9 llama3 8B 或 Nous Hermes SOLAR 10.7B 相比,它相當愚蠢。
2、多年來,我一直在閱讀有關蘋果公司在包括 iPhone 在內的所有裝置中採用神經引擎等硬體是多麼無謂的努力的文章。
我擁有的兩代 iPhone 都配備了這一硬體--我為這些裝置支付的價格中已經包含了這一不必要的成本--而且我幾乎沒有從這一額外成本中看到任何好處。
然而,突然之間,transformer 型號隨處可見。不僅我現在的 iPhone 可以使用transformer ,我幾代前的 iPhone 也可以。
同樣,我是一名開發人員,在這一領域經驗甚少。然而,我可以閱讀他們的 CoreML 框架文件(這些框架已由內部團隊開發了多年),而且由於它已變得非常精簡,儘管我的經驗很少,但我可以相對輕鬆地構建一個使用這些轉換器模型的產品。不僅如此,如果我今天決定開發這款產品,它將相容多代 iPhone。而如果我在安卓系統上開發這個產品,那麼它就只能為更少的使用者所使用;而且要花費大量時間來實現效率只有 CoreML 一半的產品。他們的實現方式讓記憶體不再是最重要的限制因素,儘管記憶體仍然很重要。
所以,蘋果公司多年來一直在為這種使用情況提前最佳化硬體,甚至在這樣做有意義之前就已經這樣做了。此外,他們還投入了大量資源從另一端進行開發:他們開發的 CoreML 框架為研究人員和業餘愛好者實現本地 LLM 提供了極大的便利,不僅效率高得驚人,而且所需的知識也少得可憐。
TL;DR 他們多年來一直從兩端著手解決這一問題,克服了這一領域最困難的障礙。他們已經考慮到了競爭對手目前需要解決的所有問題,而且早在幾年前就已經開始考慮這些問題,這為他們今天的發展奠定了堅實的基礎。
3、已經發布了包含 Llama 3 8B 和 Dolphin Llama 3(以及大約 2 打其他型號)的 iOS 應用程式,而不僅僅是演示版。此外,還有 OmniQuant 量化(不是 RTN 量化,參見昨天的這篇論文)和零遙測(甚至沒有崩潰日誌和診斷資訊)。
4、聽說最新的Android裝置上用於神經網路加速的DSP和NPU效能都相當不錯,即使不使用這些,GPU計算效能也相當強。因此,我很好奇 Llama 3 模型在 Android 上執行時會達到什麼樣的效能。
5、能夠在帶有MLC 的8GB Android 上執行 Llama3 8B ,速度相當慢,並且 q3 的模型不是很好,但它可以工作。
6、從 Layla 的使用者來看,您可以在 iPhone 上以大約 10 tps 的速度執行 Q2-3 量化的 llama3。 iPhone Pro(最高)。
在 Android 上,旗艦機的速度要慢一些。大約 1-2 tps。
您可以在這裡親自嘗試一下:https://play.google.com/store/apps/details ?id=com.laylalite