蘋果智慧背後模型公佈:3B模型優於Gemma-7B,伺服器模型媲美GPT-3.5-Turbo

机器之心發表於2024-06-13

在剛剛結束的全球開發者大會上,蘋果宣佈了 Apple intelligence, 這是一款深度整合於 iOS 18、iPadOS 18 和 macOS Sequoia 的全新個性化智慧系統。

圖片

Apple Intelligence 由多種高度智慧的生成模型組成,這些模型專為使用者的日常任務設計。在蘋果剛剛更新的部落格中,他們詳細介紹了其中兩款模型:

  • 一個擁有約 30 億引數的裝置端語言模型

  • 一個更大的基於伺服器的語言模型,該模型透過私有雲端計算在蘋果伺服器上執行。

這兩個基礎模型是蘋果生成模型家族的一部分,蘋果表示,他們會在不久的將來分享更多關於這一模型家族的資訊。

在這篇部落格中,蘋果用大量篇幅介紹了他們是如何開發高效能、快速且節能的模型;如何進行這些模型的訓練;如何為特定使用者需求微調介面卡;以及如何評估模型在提供幫助和避免意外傷害方面的表現。
圖片
蘋果基礎模型的建模概覽

預訓練

基礎模型是在 AXLearn 框架上訓練而成的,這是蘋果在 2023 年釋出的一個開源專案。該框架建立在 JAX 和 XLA 之上,使得使用者能夠在各種硬體和雲平臺上高效且可擴充套件地訓練模型,包括 TPU 以及雲端和本地的 GPU。此外,蘋果使用資料並行、張量並行、序列並行和 FSDP 等技術,沿著多個維度(如資料、模型和序列長度)擴充套件訓練。

蘋果在訓練其基礎模型時,使用了經過授權的資料,這些資料包括為了增強某些特定功能而特別選擇的資料,以及由蘋果的網頁爬蟲 AppleBot 從公開的網路上收集的資料。網頁內容的釋出者可以透過設定資料使用控制,選擇不讓他們的網頁內容被用來訓練 Apple Intelligence。

蘋果在訓練其基礎模型時,從不使用使用者的私人資料。為了保護隱私,他們會使用過濾器去除公開在網際網路上的個人可識別資訊,比如信用卡號碼。此外,他們還會過濾掉粗俗語言和其他低質量的內容,以防這些內容進入訓練資料集。除了這些過濾措施之外,Apple 還會進行資料提取和去重,並使用基於模型的分類器來識別並選擇高質量的文件用於訓練。

後訓練

蘋果發現資料質量對模型至關重要,因此在訓練流程中採用了混合資料策略,即人工標註資料和合成資料,並進行全面的資料管理和過濾程式。蘋果在後訓練階段開發了兩種新演算法:(1) 帶有「teacher committee」的拒絕取樣微調演算法,(2) 使用帶有映象下降策略最佳化以及留一優勢估計器的從人類反饋中進行強化學習(RLHF)演算法。這兩種演算法顯著提高了模型的指令跟隨質量。

最佳化

除了保證生成模型本身的高效能,Apple 還採用了多種創新技術,在裝置端和私有云上對模型進行最佳化,以提升速度和效率。特別是,他們對模型在生成第一個 token(單個字元或詞語的基本單位)和後續 token 的推理過程都進行了大量最佳化,以確保模型的快速響應和高效執行。

蘋果在裝置端模型和伺服器模型中都採用了分組查詢注意力機制,以提高效率。為了減少記憶體需求和推理成本,他們使用了共享的輸入和輸出詞彙嵌入表,這些表在對映時沒有重複。裝置端模型的詞彙量為 49,000,而伺服器模型的詞彙量為 100,000。

對於裝置端推理,蘋果使用了低位 palletization,這是一個關鍵的最佳化技術,能夠滿足必要的記憶體、功耗和效能要求。為了保持模型質量,蘋果還開發了一個新的框架,使用 LoRA 介面卡,結合了混合的 2 位和 4 位配置策略 —— 平均每個權重 3.5 位 —— 以實現與未壓縮模型相同的準確率

此外,蘋果還使用互動式模型延遲和功耗分析工具 Talaria,以及啟用量化和嵌入量化,並開發了一種在神經引擎上實現高效鍵值 (KV) 快取更新的方法。

透過這一系列最佳化,在 iPhone 15 Pro 上, 當模型接收到一個提示詞時,從接收到這個提示詞到生成第一個 token 所需的時間約為 0.6 毫秒,這個延遲時間非常短,表明模型在生成響應時非常快速生成速率為每秒 30 個 token。

模型適配
蘋果將基礎模型針對使用者的日常活動進行了微調,並且可以動態地專門針對當前的任務。

研究團隊利用介面卡(可以插入預訓練模型各個層的小型神經網路模組)來針對特定任務微調模型。具體來說,研究團隊調整了注意力矩陣、注意力投影矩陣和逐點(point-wise)前饋網路中的全連線層。

透過僅微調介面卡層,預訓練基礎模型的原始引數保持不變,保留模型的一般知識,同時定製介面卡層以支援特定任務。蘋果智慧背後模型公佈:3B模型優於Gemma-7B,伺服器模型媲美GPT-3.5-Turbo
圖 2:介面卡是覆蓋在公共基礎模型上的模型權重的小型集合。它們可以動態載入和交換 —— 使基礎模型能夠動態地專門處理當前的任務。Apple Intelligence 包括一組廣泛的介面卡,每個介面卡都針對特定功能進行了微調。這是擴充套件其基礎模型功能的有效方法。

研究團隊使用 16 bit 表徵介面卡引數的值,對於約 30 億引數的裝置模型,16 介面卡的引數通常需要 10 兆位元組。介面卡模型可以動態載入、臨時快取在記憶體中以及交換。這使基礎模型能夠動態地專門處理當前的任務,同時有效地管理記憶體並保證作業系統的響應能力。

為了促進介面卡的訓練,蘋果建立了一個高效的基礎設施,以在基本模型或訓練資料更新時快速重新訓練、測試和部署介面卡。

效能評估

蘋果在對模型進行基準測試時,專注於人類評估,因為人類評估的結果與產品的使用者體驗高度相關。

為了評估特定於產品的摘要功能,研究團隊使用了針對每個用例仔細取樣的一組 750 個響應。評估資料集強調產品功能在生產中可能面臨的各種輸入,幷包括不同內容型別和長度的單個文件和堆疊文件的分層混合。實驗結果發現帶有介面卡的模型能夠比類似模型生成更好的摘要。

作為負責任開發的一部分,蘋果識別並評估了摘要固有的特定風險。例如,摘要有時會刪除重要的細微差別或其他細節。然而,研究團隊發現摘要介面卡沒有放大超過 99% 的目標對抗樣本中的敏感內容。
圖片
圖 3:摘要用例的「好」和「差」響應占比。

除了評估基礎模型和介面卡支援的特定功能之外,研究團隊還評估了裝置上模型和基於伺服器的模型的一般功能。具體來說,研究團隊採用一組全面的現實世界 prompt 來測試模型功能,涵蓋了頭腦風暴、分類、封閉式問答、編碼、提取、數學推理、開放式問答、重寫、安全、總結和寫作等任務。

研究團隊將模型與開源模型(Phi-3、Gemma、Mistral、DBRX)和規模相當的商業模型(GPT-3.5-Turbo、GPT-4-Turbo)進行比較。結果發現,與大多數同類競爭模型相比,蘋果的模型更受人類評估者青睞。例如,蘋果的裝置上模型具有約 3B 引數,其效能優於較大的模型,包括 Phi-3-mini、Mistral-7B 和 Gemma-7B;伺服器模型與 DBRX-Instruct、Mixtral-8x22B 和 GPT-3.5-Turbo 相比毫不遜色,同時效率很高。
圖片
圖 4:蘋果基礎模型與可比較模型的評估中首選響應比例。

研究團隊還使用一組不同的對抗性 prompt 來測試模型在有害內容、敏感主題和事實方面的效能,測量了人類評估者評估的模型違規率,數字越低越好。面對對抗性 prompt,裝置上模型和伺服器模型都很強大,其違規率低於開源和商業模型。
圖片
圖 5:有害內容、敏感主題和事實性的違規響應比例(越低越好)。當面對對抗性 prompt 時,蘋果的模型非常穩健。

考慮到大型語言模型的廣泛功能,蘋果正在積極與內部和外部團隊進行手動和自動紅隊合作,以進一步評估模型的安全性。
圖片
圖 6:在安全 prompt 方面,蘋果基礎模型與同類模型的並行評估中首選響應的比例。人類評估者發現蘋果基礎模型的響應更安全、更有幫助。

為了進一步評估模型,研究團隊使用指令跟蹤評估 (IFEval) 基準來將其指令跟蹤能力與同等大小的模型進行比較。結果表明,裝置上模型和伺服器模型都比同等規模的開源模型和商業模型更好地遵循詳細指令。
圖片
圖 7:蘋果基礎模型和類似規模模型的指令跟蹤能力(使用 IFEval 基準)。

蘋果還評估了模型的寫作能力,涉及各種寫作指令。
圖片
圖 8:寫作能力(越高越好)。

最後,我們看一下蘋果對於 Apple Intelligence 背後技術的介紹影片。蘋果智慧背後模型公佈:3B模型優於Gemma-7B,伺服器模型媲美GPT-3.5-Turbo參考連結:https://machinelearning.apple.com/research/introducing-apple-foundation-models

相關文章