亮點:Apple裝置和伺服器基礎模型

banq發表於2024-06-11


以下是蘋果官方剛剛釋出的《Apple裝置和伺服器基礎模型》白皮書中的4個亮點:

1、我們利用介面卡,可以插入預訓練模型各個層的小型神經網路模組,來針對特定任務對模型進行微調。

  • 透過僅對介面卡層進行微調,基礎預訓練模型的原始引數保持不變,保留模型的通用知識,同時定製介面卡層以支援特定任務。

本地+私有 ML 的難點之一是:

  • 我不希望每次下載GB級別權重的應用
  • 也不想在開啟新應用時出現延遲緩慢。

作為應用開發者,我希望每個硬體模型上執行的最佳模型,而不是我支援的最慢硬體的最小公分母模型。

Apple 有機會讓這一切變得順利:

  • 針對每個晶片調整的優秀模型、
  • 針對每個用例的介面卡、新用例只有幾 MB 的權重(對於一組當前基礎模型),
  • 並且基礎模型可以隨著時間的推移變得更好(新硬體和改進的模型)。
  • 基本上是針對模型的應用程式精簡。


2、將我們的模型與開源模型(Phi-3、Gemma、Mistral、DBRX)和同等規模的商業模型(GPT-3.5-Turbo、GPT-4-Turbo)1進行了比較。

  • 與大多數同類競爭模型相比,我們的模型更受人類評分者的青睞。
  • “人類對輸出危害的評估”,比其他模型“好”得多。無論是在裝置上還是在伺服器端。

3、我們的基礎模型是在 Apple 的 AXLearn 框架上進行訓練的,這是我們於 2023 年釋出的開源專案。它建立在 JAX 和 XLA 之上,使我們能夠在各種訓練硬體和雲平臺上以高效率和可擴充套件性訓練模型,包括 TPU 以及雲端和本地 GPU。

  • 除了 GPU 之外,他們還使用 TPU 進行訓練。這既是技術決策(JAX 和 XLA),也是對 英偉達 的對沖嗎?

4、我們利用授權資料訓練基礎模型,包括為增強特定功能而選擇的資料,以及我們的網路爬蟲 AppleBot 收集的公開資料。網路出版商可以透過資料使用控制選擇不將其網路內容用於 Apple Intelligence 訓練。

  • 蘋果比其他任何人都更努力地將這一功能打造為注重隱私的功能,而不僅僅是一個資料探勘功能
  • 除了遵守所有 robots.txt 規則和指令之外,Apple 還有一個二級使用者代理 Applebot-Extended,它使網路釋出商可以額外控制 Apple 如何使用其網站內容。
  • 藉助 Applebot-Extended,網路出版商可以選擇不將其網站內容用於訓練 Apple 的基礎模型,該模型為 Apple 產品(包括 Apple Intelligence、服務和開發者工具)的生成式 AI 功能提供支援。
  • 網頁抓取是合法的。如果您運營一個網站並希望退出,那麼只需新增 robots.txt。30 年來防範機器人的標準方法。

相關文章