Llama 3已能在iPhone或安卓手機上執行

得益於 MLX Swift，Llama 3 已在 iPhone 上本地執行：

Llama 3 在 iPhone 上執行的速度約為 8.5t/s，

它可以在 Android 上執行嗎？
回答是肯定的，可以為此使用executorch ：
供參考：

使用 4 位分組量化 7B LLama2，
他們在 Samsung s24 上實現了 11 tok/s，
在 Samsung s22 上實現了 8 tok/s。

https://github.com/pytorch/executorch/tree/main/examples/models/llama2

網友：
1、第一個問題是您的裝置上有多少記憶體。我有 6GB Pixel 6a，CPU 速度不是問題，但 8B 型號需要大量 RAM。如果你的手機是 16GB，只要你不介意速度慢一點，你就可以做任何你想做的事。在 Android 上，我使用 MLCChat 來執行 Phi 2B，但與膝上型電腦上的 Dolphin 2.9 llama3 8B 或 Nous Hermes SOLAR 10.7B 相比，它相當愚蠢。

2、多年來，我一直在閱讀有關蘋果公司在包括 iPhone 在內的所有裝置中採用神經引擎等硬體是多麼無謂的努力的文章。

我擁有的兩代 iPhone 都配備了這一硬體--我為這些裝置支付的價格中已經包含了這一不必要的成本--而且我幾乎沒有從這一額外成本中看到任何好處。

然而，突然之間，transformer 型號隨處可見。不僅我現在的 iPhone 可以使用transformer ，我幾代前的 iPhone 也可以。

同樣，我是一名開發人員，在這一領域經驗甚少。然而，我可以閱讀他們的 CoreML 框架文件（這些框架已由內部團隊開發了多年），而且由於它已變得非常精簡，儘管我的經驗很少，但我可以相對輕鬆地構建一個使用這些轉換器模型的產品。不僅如此，如果我今天決定開發這款產品，它將相容多代 iPhone。而如果我在安卓系統上開發這個產品，那麼它就只能為更少的使用者所使用；而且要花費大量時間來實現效率只有 CoreML 一半的產品。他們的實現方式讓記憶體不再是最重要的限制因素，儘管記憶體仍然很重要。

所以，蘋果公司多年來一直在為這種使用情況提前最佳化硬體，甚至在這樣做有意義之前就已經這樣做了。此外，他們還投入了大量資源從另一端進行開發：他們開發的 CoreML 框架為研究人員和業餘愛好者實現本地 LLM 提供了極大的便利，不僅效率高得驚人，而且所需的知識也少得可憐。

TL;DR 他們多年來一直從兩端著手解決這一問題，克服了這一領域最困難的障礙。他們已經考慮到了競爭對手目前需要解決的所有問題，而且早在幾年前就已經開始考慮這些問題，這為他們今天的發展奠定了堅實的基礎。

3、已經發布了包含 Llama 3 8B 和 Dolphin Llama 3（以及大約 2 打其他型號）的 iOS 應用程式，而不僅僅是演示版。此外，還有 OmniQuant 量化（不是 RTN 量化，參見昨天的這篇論文）和零遙測（甚至沒有崩潰日誌和診斷資訊）。

4、聽說最新的Android裝置上用於神經網路加速的DSP和NPU效能都相當不錯，即使不使用這些，GPU計算效能也相當強。因此，我很好奇 Llama 3 模型在 Android 上執行時會達到什麼樣的效能。

5、能夠在帶有MLC 的8GB Android 上執行 Llama3 8B ，速度相當慢，並且 q3 的模型不是很好，但它可以工作。

6、從 Layla 的使用者來看，您可以在 iPhone 上以大約 10 tps 的速度執行 Q2-3 量化的 llama3。 iPhone Pro（最高）。
在 Android 上，旗艦機的速度要慢一些。大約 1-2 tps。
您可以在這裡親自嘗試一下：https://play.google.com/store/apps/details ?id=com.laylalite

Llama 3已能在iPhone或安卓手機上執行

相關文章