GPT4規模大模型落地,Meta提ExFM框架:萬億引數基礎大模型的工業級落地成為可能

机器之心發表於2025-03-12
圖片
如何讓萬億級基礎大模型能夠高效、低成本地服務於大規模工業級應用,並且讓能夠隨著模型規模的提升(Scaling)而得到持續的效能增長?這一直是眾多企業困擾良久的難題。

線上廣告推薦系統是網際網路平臺的核心服務之一,其模型效能直接影響使用者體驗與商業價值。近年來,隨著 GPT-4、 DeepSeek、 Llama 等萬億引數基礎模型的成功,工業界和學術界開始探索透過模型規模化(Scaling)的方式建立基礎大模型來提升推薦效果。

然而,受限於其鉅額訓練以及計算成本,以及工業級廣告實時推薦對延時性以及部署計算資源的嚴格要求,基礎大模型幾乎很難被直接地應用於實時廣告排序以及推薦系統,尤其是考慮到很多公司無法負擔大規模的 GPU 來服務巨量使用者群體。

因此,目前工業界廣泛考慮讓基礎大模型(Foundation Model)的能力遷移到線上小模型(Vertical Model)當中以提高線上模型的能力,且主要採用教師-學生蒸餾(teacher-student distillation)。不過,此類解決方案在廣告工業中的應用依舊面臨著兩大長期被忽視的挑戰:受限的訓練/推理預算,與動態變化的流式資料分佈。這些挑戰的存在使得大模型對線上模型的幫助受限,且無法規模化提升線上模型的效能。

本週,在 Meta AI 研究團隊提交的一篇論文中,研究團隊提出 External Large Foundation Model(ExFM)框架,首次系統性地解決了上述問題,成功支援萬億引數大模型在廣告推薦中的高效服務。據文章描述,ExFM 框架實現了以下 SOTA 成果:

  • 規模化大模型及線上模型的迭代部署:ExFM 解耦了教師模型和學生模型的迭代和部署,在接近於 0 服務成本的情況下成功部署萬億級別引數的工業級大模型(類 GPT-4 規模),顯著降低了工業界受益於大模型的門檻和成本。ExFM 創新的提出資料增強系統(DAS),使得模型在等待線上使用者的真實訓練標籤(ground-truth label, 如使用者最終的點選或購買行為)的時間裡完成教師模型的引數更新與相應的偽標籤預測,達到對服務延遲沒有額外要求。
  • 高效的知識遷移轉化率:ExFM 創新地提出了輔助頭(Auxiliary Head)以及學生介面卡(Student Adapter)來解耦教師與學生模型,減少流式資料分佈變化對教師模型與學生模型訓練過程中引入的偏置對知識遷移的影響,從而提高教師模型到學生模型的知識遷移轉化率,並對此進行了相應的理論分析。經驗結果表明,這兩項新技術在內部以及公開資料上皆取得了 SOTA 的結果。
  • 實現 1 到 N 的知識遷移轉化:在 ExFM 的賦能下,不同領域、任務、階段裡負責廣告排序的線上模型均實現了 SOTA 表現。
  • 新型的 Transfer Scaling Law:在 ExFM 的賦能下,當不斷迭代和提升基礎大模型的模型規模時,其高效的知識轉化率使得線上的廣告排序模型的效能呈現出連續數年的持續提升(圖 1),且增速在不斷擴大,展示了一種新型的 Transfer Scaling Law。
圖片
圖 1:內部資料上基於不同規模的 FM 對 VM 進行迭代下取得的 NE 增益(時間跨度從 2023 年至 2024 年)。1X 等於 60 Million training FLOPs,1T 指 1 Trillion。

目前該論文已被 WWW 2025 Industrial Track 錄用為口頭報告 (Oral Presentation,根據往年資料一般為 top 10% 的論文)。本文將深入解析這一技術突破的核心思想與創新實踐。
圖片
  • 論文標題:External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation
  • 論文連結:https://arxiv.org/abs/2502.17494

規模化的隱形門檻
工業級推薦的兩大挑戰

現有廣告推薦方面的研究多聚焦於模型架構創新與引數規模擴充套件,但工業場景的特殊性導致線上部署的模型會面臨以下兩個主要挑戰:

1. (C-1) 大流量下嚴格的延遲限制

  • 廣告推薦需在毫秒級響應中從海量候選廣告(O (100K))中實時篩選,模型推理延遲將直接影響使用者體驗。
  • 傳統知識蒸餾(KD)需聯合訓練師生模型,顯著增加計算成本和線上模型更新迭代的延遲,無法滿足工業級模型實時更新的需求。

2. (C-2) 流式資料的動態漂移

  • 使用者與廣告數量會出現大規模的實時增減,這導致資料分佈持續變化。傳統多輪訓練易出現過時,具體指的是線上模型更新完成的時間點落後於即時資料到達的時間點而使得大量實時資料無法被納入訓練,導致模型訓練後效能不足。並且多輪訓練的計算代價高昂,這是因為實時資料的規模異常龐大且與日俱增。
  • 教師模型,如基礎模型(FM),與垂直模型(VM)間的跨域偏差新鮮度差異進一步加劇效能衰減。
圖片圖 2:(a)聯合蒸餾(Co-Distillation)與外部蒸餾(External Distillation);(b)流式資料下的模型迭代更新示意圖;(c)ExFM 框架,以一次模型迭代為例的示意圖。

對於解決挑戰 C-1,常見的解決手段基於知識蒸餾,如果圖 2(a)所示,即把一個引數量大的教師模型與一個引數量小的學生模型進行聯合訓練,而學生模型會用於線上廣告推薦。然而在現實場景中,聯合訓練將增加學生模型的訓練複雜度以至於無法滿足工業級應用對線上模型進行更新訓練的延時要求。另一方面,廣告推薦往往涉及多個線上服務模型,每一個模型需要負責特定的階段的廣告排序任務。若對每個服務模型都建立對應的教師模型將非常低效且無法規模化。

因此,本文認為一個理想的教師模型應該滿足以下兩點需求:

  1. 教師模型應該獨立於學生模型,即進行外部整理,如圖 2(a)所示。
  2. 教師模型應該像一個基礎模型一樣滿足 1-to-N,即一個教師模型可以幫助多個不同方向的學生模型的效能提升。

然而線上廣告工業中的流式及動態變化的資料分佈(挑戰 C-2)使得實現理想的教師模型變得相當困難。如圖 2(b)所示,模型需要持續訓練以應對不斷出現的分佈漂移。對此 Meta 內部資料顯示,若模型停止更新,其歸一化熵損失(NE)隨延遲時間呈指數級上升(如圖 3 所示)。這迫使工業系統必須在「模型規模」與「服務效率」間尋求平衡。
圖片 圖 3:點選率預測(CTR)隨著模型更新延遲而出現嚴重的下滑。

為了解決上述的挑戰,本文提出 ExFM 框架。ExFM的核心思想是透過外部蒸餾將基礎模型(FM)的知識高效遷移至多個垂直模型(VM),並結合動態適配機制應對資料漂移。該框架的核心優勢包括:

  • 零額外推理延遲:透過外部蒸餾與資料增強系統(DAS),萬億 FM 的預測離線生成,VM 服務延遲與基線持平。
  • 動態適應能力:流式訓練與介面卡設計使模型持續適應資料分佈變化,NE 增益能夠隨著時間推移以更大增速進行擴大。

ExFM 框架
外部蒸餾與動態適應的雙重革新

具體而言,ExFM 的技術架構如圖 2 (c) 所示,包含四大創新模組:

1. 外部蒸餾與資料增強系統(DAS, 見圖 4)

  • 解耦師生訓練:FM 獨立於 VM 訓練,透過離線生成預測標籤作為監督訊號,避免聯合訓練的計算開銷。
  • 1:N 資源共享:FM 聚合多個 VM 的資料進行訓練,以「基礎模型」形式服務多個垂直場景,顯著攤薄構建成本。
  • DAS 系統設計:透過分散式快照管理(Zeus)與資料流水線最佳化,實現 FM 預測的實時記錄與高效分發,確保 VM 訓練資料始終包含最新 FM 知識。
圖片 圖 4:資料增強系統(Data Augmentation Service,DAS)

2. 輔助頭

傳統蒸餾將 FM 預測與真實標籤透過同一頭部融合,導致偏差傳遞。ExFM 創新性引入獨立輔助頭(圖 5a):

  • 解耦監督訊號:真實標籤由服務頭處理,FM 預測由輔助頭處理,阻斷偏差傳播路徑。
  • 梯度/標籤縮放技術:透過放大 FM 預測的梯度影響與標籤幅值,解決廣告點選資料的長尾分佈難題。

文中對此進行理論分析顯示,輔助頭可確保 VM 在真實標籤任務上收斂至最優解,而傳統單頭架構因偏差傳遞無法實現。
圖片 圖 5:(a)輔助頭(Auxiliary Head)(b)學生介面卡(Student Adapter)

3. 學生介面卡(Student Adapter)

針對 FM 與 VM 間的新鮮度差異,ExFM 提出輕量級適配模組(圖 5b):

  • 動態校正機制:透過小型 MLP 網路實時調整 FM 預測,使其適配 VM 的當前資料分佈。
  • 理論保障:文中給出理論分析表明,介面卡可將模型偏差降低,顯著優於傳統方法。

4. 流式訓練正規化

  • FM 與 VM 均採用單輪流式訓練,每日處理超 3000 億樣本,模型引數逐日迭代更新。
  • 系統支援分鐘級快照切換,確保服務高可用性。

實驗結果
效能飛躍與工業驗證

ExFM 在 Meta 內部資料集與公開資料集(TaobaoAd、Amazon 等)上均取得顯著效果:

1. 單 VM 效能提升

  • 內部場景中,3.2 萬億引數的 FM 使 VM 的歸一化熵(NE)持續降低,效能增益隨訓練資料量增長呈類指數上升(圖 1)。
  • 公開資料集上(表 1),ExFM 在不同 FM-VM 組合均取得效能的提升。
圖片 表 1:公開資料集上的表現

2. 跨場景泛化能力

  • 單一 FM 可同時服務廣告系統的召回、粗排、精排多階段 VM(圖 6),NE 增益達 0.11%-0.25%。
  • 在跨域(表 4)與多工(表 5)場景中,ExFM 均顯著優於無 FM 基線,驗證其通用性。
圖片 圖 6:內部資料上 1000X,3.2T FM 對 跨階段(cross-stage) VM 的 NE 增益
圖片 表 4(左)及 表 5(右):公開資料集上 FM 對跨域以及跨任務的 VM 的效能提升

3. 模組消融實驗

  • 輔助頭(AH)貢獻主要效能增益,使學生模型 NE 降低 4%(圖 7)。
  • 學生介面卡(SA)在 FM 更新延遲時仍能維持 0.08% 的 NE 增益(圖 8),但其效果依賴 FM 的持續迭代(圖 9)。
圖片圖 7(左):對 1000X 3.2T 的 FM 增加輔助頭(AH)後的 NE 變化; 圖 8(右):對 1800X,2.2T 的 FM 增加學生介面卡(SA)後的 NE 變化
圖片 圖 9:公開資料集上,當 FM 的更新出現延遲的時,學生介面卡的效能變化

結論

在本論文中,Meta AI 研究團隊提出了 ExFM 框架以實現萬億引數量的基礎大模型對實時廣告推薦模型進行持續、規模化的效能提升。降低了LLM規模的大模型在 recsys domain 的門檻,開啟了「foundation model for RecSys 」領域的時代。

相關文章