揭秘!47頁文件拆解蘋果智慧,從架構、資料到訓練和最佳化

机器之心發表於2024-07-31

在 2024 年全球開發者大會上,蘋果重磅推出了 Apple Intelligence,這是一個全新的個性化智慧系統, 可以提供實用的智慧服務,覆蓋 iPhone、iPad 和 Mac,並深度整合在 iOS 18、iPadOS 18 和 macOS Sequoia 中。

庫克曾經表示,Apple Intelligence 是蘋果創新的新篇章,將改變使用者使用產品的方式。他強調,蘋果獨特的方法結合了生成式人工智慧和使用者的個人資訊,能提供真正有用的智慧服務。此外,Apple Intelligence 能夠以完全私密和安全的方式訪問資訊,幫助使用者完成對他們最重要的事情。這是蘋果獨有的 AI 體驗。

如今,距離 Apple Intelligence 官宣一個多月過去了,這項技術終於落地智慧裝置,相關技術文件也終於放出。

在剛剛過去的一天,擁有 iPhone 15 Pro 或 iPhone 15 Pro Max 的使用者可以下載 iOS 18.1 開發測試版,並可以體驗 Apple Intelligence 的功能了。

隨著這篇長達 47 頁技術報告的出爐,我們可以更加深入的瞭解 Apple Intelligence 背後的秘密武器。

圖片

  • 報告地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

報告詳細介紹了其中兩款模型 ——AFM-on-device,AFM 代表 Apple Foundation Model,是一個約 30 億引數語言模型,以及一個更大的基於伺服器的語言模型 AFM-server,可以高效、準確和負責地執行專門的任務(圖 1)。

這兩個基礎模型作為蘋果更大的生成模型系列的一部分存在。

圖片

架構及訓練

AFM 基礎模型是基於 Transformer 架構構建的密集解碼器模型,採用如下設計:

  • 共享輸入 / 輸出嵌入矩陣,以減少用於引數的記憶體使用。
  • 使用 RMSNorm 進行預歸一化以提高訓練穩定性。
  • 查詢 / 鍵歸一化以提高訓練穩定性。
  • 具有 8 個鍵值頭的分組查詢注意力(GQA),以減少 KV 快取記憶體佔用。
  • SwiGLU 啟用,以提高效率。
  • RoPE 位置嵌入,基頻(base frequency)設定為 500k,以支援長上下文。

圖片

AFM 預訓練過程在開發高效能語言模型,以支援一系列 Apple Intelligence 功能方面發揮著關鍵作用。研究團隊注重效率和資料質量,以獲得高質量的端到端使用者體驗。

在後訓練方面,研究團隊發現改進通用後訓練可以提升 Apple Intelligence 所有功能的效能,因為模型在遵循指令、推理和寫作方面會具有更強的能力。

為了確保這些模型功能符合蘋果對保護使用者隱私的承諾,以及蘋果的 Responsible AI 原則,後訓練工作包括一系列資料收集和生成、指令調整和對齊創新。後訓練過程包含兩個階段:監督微調(SFT)和來自人類反饋的強化學習(RLHF)。研究團隊提出了兩種新的後訓練演算法:(1)帶有 teacher committee(iTeC)的拒絕取樣微調演算法,以及(2)一種用於強化學習迭代的 RLHF 演算法,帶有映象下降策略最佳化(mirror descent policy optimization)和留一法優勢估計器(leave-one-out advantage estimator)(MDLOO),使得模型質量顯著提高。

Apple Intelligence特性

基礎模型是為 Apple Intelligence 專門設計的,這是一個支援 iPhone、iPad 和 Mac 的個人智慧系統。

蘋果發現,針對特定任務的微調,他們可以將小模型的效能提升到一流水平,除此以外,他們還開發了一種基於執行時可交換介面卡(runtime-swappable adapters)的架構,使單一基礎模型能夠專門用於數十個此類任務。圖 2 顯示了高階概述。

圖片

介面卡架構

蘋果使用 LoRA 介面卡來針對特定任務進行模型微調。對於每項任務,研究者會調整 AFM 自注意力層中的所有線性投影矩陣以及逐點前饋網路中的全連線層。僅透過微調介面卡,基礎預訓練模型的原始引數保持不變,可以保留模型的一般知識,同時定製介面卡以支援特定任務。

量化

為了將 AFM 納入記憶體預算有限的邊緣裝置並降低推理成本,需要考慮量化技術。先前的研究發現,與原始的 32/16 位浮點相比,經過 4 位量化的模型損失會很小。

為了在模型容量和推理效能之間實現最佳平衡,蘋果開發了最先進的量化方法和利用準確率 - 恢復介面卡(accuracy-recovery adapters)的框架。使得模型在每個權重平均小於 4 位的情況下,還能實現近乎無損的量化,並提供靈活的量化方案選擇。

方法

經過後訓練,模型被壓縮和量化,得到平均低於 4 位的權重量化模型通常表現出中等程度的質量損失。因此,蘋果不會將量化後的模型直接用於功能開發,而是附加一組引數高效的 LoRA 介面卡以進行質量恢復。

值得注意的是,訓練準確率 - 恢復介面卡具有樣本效率,可以看作是訓練基礎模型的迷你版本。在介面卡的預訓練階段,只需要大約 100 億個 token(約佔基礎模型訓練的 0.15%)即可完全恢復量化模型的能力。

由於應用程式介面卡將從這些準確率 - 恢復介面卡微調而來,因此它們不會產生任何額外的記憶體使用或推理成本。關於介面卡大小,蘋果發現介面卡秩為 16 時提供了模型容量和推理效能之間的最佳權衡。

但是,為了靈活性,蘋果提供了一套具有不同秩 {8、16、32} 的準確率 - 恢復介面卡供應用程式團隊選擇。

混合精度量化

AFM 中的每個 transformer 塊和每個層都存在殘差連線。因此,所有層都具有同等重要性的可能性不大。根據這一直覺,蘋果透過推動某些層使用 2 位量化(預設為 4 位)來進一步減少記憶體使用量。平均而言,AFM-on-device 可以壓縮到每個權重僅約 3.5 位 (bpw),而不會造成顯著的質量損失。

評估

研究團隊使用常見的開源評估工具和基準來評估 AFM 預訓練模型。表 2 展示了在 HELM MMLU v1.5.0 上 AFM-on-device 和 AFM-server 的結果。

圖片

這些基準測試表明,AFM 預訓練模型具有強大的語言和推理能力,為後訓練和特徵微調提供了堅實的基礎。

圖片

圖片

AFM 與開源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商業模型(GPT3.5 和 GPT-4)的比較結果如下圖3所示。與其他模型相比,AFM 模型更受人類評估人員的青睞。特別是,AFM-on-device 與 Phi-3-mini 相比,儘管模型規模小了 25%,但仍獲得了 47.7% 的勝率,甚至優於開源強基線 Gemma-7B 和 Mistral-7B。

圖片

為了衡量模型生成響應遵循提示中指令的能力,研究團隊在 IFEval 基準上評估了 AFM-on-device 和 AFM-server,結果如下圖 4 所示:

圖片

如圖 5 所示,AFM-server 實現了最佳的整體準確率,優於 Gemini-1.5-Pro-Preview-0514 和 GPT-4。

圖片

蘋果將 AFM 與一些最出色的模型以及規模較小的開源模型進行了比較。如圖 6 所示,與 Gemma-7B 和 Mistral-7B 相比,AFM-on-device 可以實現相當或更好的效能。AFM-server 的效能明顯優於 DBRX-Instruct 和 GPT3.5,並且與 GPT4 相當。

圖片

圖 7 比較了經過後訓練的 AFM 在數學基準上的表現。結果發現,AFM-on-device 的效能明顯優於 Mistral-7B 和 Gemma-7B,即使規模不到它們的一半。

圖片

下圖為人類評分員評估 AFM-on-device 介面卡、Phi-3-mini、Llama-3-8B 和 Gemma-7B 在摘要任務上的質量。圖 8 顯示 AFM-on-device-adapter 總體上優於其他模型。

圖片

負責任的AI

Apple Intelligence 的開發和設計都注重保護使用者隱私。

圖 9 總結了人類評分員在不同模型上給出的違規率,越低越好。AFM-on-device 和 AFM-server 都對對抗性提示具有魯棒性,其違規率明顯低於開源和商業模型。

圖片

圖 10 表明,與其他模型相比,AFM 模型更受人類評分員的青睞。

圖片

相關文章