
規模化大模型及線上模型的迭代部署:ExFM 解耦了教師模型和學生模型的迭代和部署,在接近於 0 服務成本的情況下成功部署萬億級別引數的工業級大模型(類 GPT-4 規模),顯著降低了工業界受益於大模型的門檻和成本。ExFM 創新的提出資料增強系統(DAS),使得模型在等待線上使用者的真實訓練標籤(ground-truth label, 如使用者最終的點選或購買行為)的時間裡完成教師模型的引數更新與相應的偽標籤預測,達到對服務延遲沒有額外要求。 高效的知識遷移轉化率:ExFM 創新地提出了輔助頭(Auxiliary Head)以及學生介面卡(Student Adapter)來解耦教師與學生模型,減少流式資料分佈變化對教師模型與學生模型訓練過程中引入的偏置對知識遷移的影響,從而提高教師模型到學生模型的知識遷移轉化率,並對此進行了相應的理論分析。經驗結果表明,這兩項新技術在內部以及公開資料上皆取得了 SOTA 的結果。 實現 1 到 N 的知識遷移轉化:在 ExFM 的賦能下,不同領域、任務、階段裡負責廣告排序的線上模型均實現了 SOTA 表現。 新型的 Transfer Scaling Law:在 ExFM 的賦能下,當不斷迭代和提升基礎大模型的模型規模時,其高效的知識轉化率使得線上的廣告排序模型的效能呈現出連續數年的持續提升(圖 1),且增速在不斷擴大,展示了一種新型的 Transfer Scaling Law。


論文標題:External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation 論文連結:https://arxiv.org/abs/2502.17494
廣告推薦需在毫秒級響應中從海量候選廣告(O (100K))中實時篩選,模型推理延遲將直接影響使用者體驗。 傳統知識蒸餾(KD)需聯合訓練師生模型,顯著增加計算成本和線上模型更新迭代的延遲,無法滿足工業級模型實時更新的需求。
使用者與廣告數量會出現大規模的實時增減,這導致資料分佈持續變化。傳統多輪訓練易出現過時,具體指的是線上模型更新完成的時間點落後於即時資料到達的時間點而使得大量實時資料無法被納入訓練,導致模型訓練後效能不足。並且多輪訓練的計算代價高昂,這是因為實時資料的規模異常龐大且與日俱增。 教師模型,如基礎模型(FM),與垂直模型(VM)間的跨域偏差與新鮮度差異進一步加劇效能衰減。

教師模型應該獨立於學生模型,即進行外部整理,如圖 2(a)所示。 教師模型應該像一個基礎模型一樣滿足 1-to-N,即一個教師模型可以幫助多個不同方向的學生模型的效能提升。

零額外推理延遲:透過外部蒸餾與資料增強系統(DAS),萬億 FM 的預測離線生成,VM 服務延遲與基線持平。 動態適應能力:流式訓練與介面卡設計使模型持續適應資料分佈變化,NE 增益能夠隨著時間推移以更大增速進行擴大。
解耦師生訓練:FM 獨立於 VM 訓練,透過離線生成預測標籤作為監督訊號,避免聯合訓練的計算開銷。 1:N 資源共享:FM 聚合多個 VM 的資料進行訓練,以「基礎模型」形式服務多個垂直場景,顯著攤薄構建成本。 DAS 系統設計:透過分散式快照管理(Zeus)與資料流水線最佳化,實現 FM 預測的實時記錄與高效分發,確保 VM 訓練資料始終包含最新 FM 知識。

解耦監督訊號:真實標籤由服務頭處理,FM 預測由輔助頭處理,阻斷偏差傳播路徑。 梯度/標籤縮放技術:透過放大 FM 預測的梯度影響與標籤幅值,解決廣告點選資料的長尾分佈難題。

動態校正機制:透過小型 MLP 網路實時調整 FM 預測,使其適配 VM 的當前資料分佈。 理論保障:文中給出理論分析表明,介面卡可將模型偏差降低,顯著優於傳統方法。
FM 與 VM 均採用單輪流式訓練,每日處理超 3000 億樣本,模型引數逐日迭代更新。 系統支援分鐘級快照切換,確保服務高可用性。
內部場景中,3.2 萬億引數的 FM 使 VM 的歸一化熵(NE)持續降低,效能增益隨訓練資料量增長呈類指數上升(圖 1)。 公開資料集上(表 1),ExFM 在不同 FM-VM 組合均取得效能的提升。

單一 FM 可同時服務廣告系統的召回、粗排、精排多階段 VM(圖 6),NE 增益達 0.11%-0.25%。 在跨域(表 4)與多工(表 5)場景中,ExFM 均顯著優於無 FM 基線,驗證其通用性。


輔助頭(AH)貢獻主要效能增益,使學生模型 NE 降低 4%(圖 7)。 學生介面卡(SA)在 FM 更新延遲時仍能維持 0.08% 的 NE 增益(圖 8),但其效果依賴 FM 的持續迭代(圖 9)。

