大模型擴充套件新維度:Scaling Down、Scaling Out

机器之心發表於2025-02-21
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文由悉尼大學計算機學院王雲柯,李言蹊和徐暢副教授完成。王雲柯是悉尼大學博士後,李言蹊是悉尼大學三年級博士生,徐暢副教授是澳洲ARC Future Fellow,其團隊長期從事機器學習演算法、生成模型等方向的研究。

近年來, Scaling Up 指導下的 AI 基礎模型取得了多項突破。從早期的 AlexNet、BERT 到如今的 GPT-4,模型規模從數百萬引數擴充套件到數千億引數,顯著提升了 AI 的語言理解和生成等能力。然而,隨著模型規模的不斷擴大,AI 基礎模型的發展也面臨瓶頸:高質量資料的獲取和處理成本越來越高,單純依靠 Scaling Up 已難以持續推動 AI 基礎模型的進步。

為了應對這些挑戰,來自悉尼大學的研究團隊提出了一種新的 AI Scaling 思路,不僅包括 Scaling Up(模型擴容),還引入了 Scaling Down(模型精簡)Scaling Out(模型外擴)。Scaling Down 透過最佳化模型結構,使其更輕量、高效,適用於資源有限的環境,而 Scaling Out 則致力於構建去中心化的 AI 生態系統,讓 AI 能力更廣泛地應用於實際場景。
圖片
  • 論文標題:AI Scaling: From Up to Down and Out
  • 論文連結:https://www.arxiv.org/abs/2502.01677
圖片
該框架為未來 AI 技術的普及和應用提供了新的方向。接下來,本文將詳細探討這一框架如何推動 AI Scaling 從集中化走向分散式,從高資源消耗走向高效普及,以及從單一模型衍生 AI 生態系統。

Scaling Up: 模型擴容,持續擴充套件基礎模型

Scaling Up 透過增加資料規模、模型引數和計算資源,使 AI 系統的能力得到了顯著提升。然而,隨著規模的不斷擴大,Scaling Up 也面臨多重瓶頸。資料方面,高質量公開資料已被大量消耗,剩餘資料多為低質量或 AI 生成內容,可能導致模型效能下降。模型方面,引數增加帶來的效能提升逐漸減弱,大規模模型存在冗餘、過擬合等問題,且難以解釋和控制。計算資源方面,訓練和推理所需的硬體、能源和成本呈指數級增長,環境和經濟壓力使得進一步擴充套件變得不可持續。

儘管面臨挑戰,規模化擴充套件仍是推動 AI 效能邊界的關鍵。未來的趨勢將聚焦於高效、適應性和可持續性的平衡:

資料最佳化:透過課程學習、主動學習等技術,利用更小規模的高質量資料集實現高效訓練。同時,處理噪聲資料和利用領域專有資料將成為突破點。

高效訓練:採用漸進式訓練、分散式最佳化和混合精度訓練等方法,減少資源消耗,提升訓練效率,推動 AI 開發的可持續性。

Test-Time Scaling:透過在推理階段動態分配計算資源,提升模型效能。例如,自適應輸出分佈和驗證器搜尋機制使小型模型在某些任務上超越大型模型,為高效 AI 提供了新方向。

AI Scaling Up 的未來不僅在於「更大」,更在於「更智慧」和「更可持續」。透過最佳化資料、訓練和推理流程,AI 有望在突破效能邊界的同時,實現更廣泛的應用和更低的環境成本。

Scaling Down: 模型精簡,聚焦核心模組

隨著 Scaling Up 所需的訓練、部署和維護計算資源、記憶體和能源成本急劇增加,一個關鍵問題浮出水面:如何在縮小模型規模的同時,保持甚至提升其效能?Scaling Down 旨在減少模型規模、最佳化計算效率,同時保持核心能力,使 AI 適用於更廣泛的資源受限場景,如邊緣裝置和移動端應用。

技術基礎

1. 減少模型規模:剪枝,透過移除神經網路中不重要的部分來簡化模型;量化,將浮點引數替換為整數,減少權重和啟用的位元寬度;知識蒸餾,將大型複雜模型的知識遷移到小型高效模型中。

2. 最佳化計算效率:投機取樣,透過近似模型生成候選詞,再由目標模型並行驗證,加速推理過程;KV Caching,儲存注意力機制的中間狀態,避免重複計算;混合專家模型,透過任務特定的子模型和門控機制實現高效擴充套件。例如,DeepSeek-V3 透過專家模型的選擇性啟用,顯著降低推理過程中的計算成本。

未來這一領域的研究可能聚焦以下方向。首先,核心功能模組的提煉將成為重點。未來的研究將致力於識別大型模型中的關鍵功能模組,力求在保留核心功能的前提下,最大限度地減少冗餘結構。透過系統化的剪枝和知識蒸餾技術,開發出更精細的模型架構最佳化方法,從而在縮小規模的同時不損失效能。

其次,外部輔助增強將為小模型提供新的能力擴充套件途徑。例如,檢索增強生成(RAG)技術透過結合預訓練的引數化記憶和非引數化記憶,使模型能夠動態獲取上下文相關資訊;而工具呼叫技術則讓小模型學會自主呼叫外部 API,甚至生成自己的工具以應對複雜任務。

Scaling Out: 模型外擴,構建 AI 生態系統

在 Scaling Up 和 Scaling Down 之後,文章提出 Scaling Out 作為 AI Scaling 的最後一步,其透過將孤立的基礎模型擴充套件為具備結構化介面的專業化變體,將其轉化為多樣化、互聯的 AI 生態系統。在該生態系統中,介面負責連線專業化模型與使用者、應用程式和其他 AI 系統。這些介面可以是簡單的 API,也可以是能夠進行多輪推理和決策的 Agent。

透過結合基礎模型專用變體介面,Scaling Out 構建了一個動態的 AI 生態系統,包含多個 AI 實體在其中互動、專業化並共同提升智慧。這一生態促進了協作,能夠實現大規模部署,並不斷擴充 AI 的能力,標誌著 AI 向開放可擴充套件去中心化的智慧基礎架構轉變。

技術基礎

1. 引數高效微調:傳統的微調需要大量計算資源,但引數高效微調技術如 LoRA 允許在不修改整個模型的情況下新增任務特定知識。

2. 條件控制:使基礎模型能夠動態適應多種任務,而無需為每個任務重新訓練。例如,ControlNet 透過結構引導生成上下文感知影像。

3. 聯邦學習:支援在分散式裝置上協作訓練 AI 模型,確保資料隱私和安全。聯邦學習允許在多樣化、領域特定的資料集上訓練專業化子模型,增強其適應能力。

未來這一領域的研究可能聚焦於以下方向。首先,去中心化 AI 和區塊鏈 。AI 模型商店將像應用商店一樣提供多樣化模型,區塊鏈則作為信任層,確保安全性、透明性和智慧財產權保護。每一次微調、API 呼叫或衍生模型建立都將被記錄在不可篡改的賬本上,確保信用歸屬和防止未經授權的修改。其次,邊緣計算與分散式智慧。邊緣計算在本地裝置上處理資料,減少對集中式資料中心的依賴。結合聯邦學習,邊緣計算能夠在保護隱私的同時,實現實時決策和分散式智慧。

應用場景設想

人機共創社群如 TikTok 等,將迎來智慧內容創作的新紀元。內容創作者不再僅限於人類,AI 驅動的 Bots 將成為重要組成部分。這些 Bots 能夠自主生成高質量短影片,與其他使用者互動,甚至彼此協作,推動內容創作的多樣性與複雜性。

Scaling Up 是整個體系的基石,透過整合 TikTok 全球使用者的多模態資料,開發出強大的多模態基礎模型,為 Bots 提供內容生成、互動和創意的核心能力。然而,僅靠一個巨型模型難以滿足多樣化需求,Scaling Down 將基礎模型的核心能力提煉為輕量化模組,使 AI Bots 能夠高效、靈活地執行任務,降低計算成本並適應多樣化場景部署。

最終,Scaling Out 將 TikTok 推向智慧生態的全新高度。透過任務驅動的生成機制,平臺能夠快速擴充套件出數以萬計的專用 Bots,每個 Bot 都針對特定領域(如教育、娛樂、公益)進行了深度最佳化。這些 Bots 不僅可以單獨執行,還能透過協作網路共享知識,構建實時進化的內容網路,為使用者提供無窮無盡的創意和互動體驗。

挑戰與機遇

此外,文中探討了 AI Scaling 在跨學科合作、量化標準、開放生態、可持續性和公平性方面的機遇與難點。

AI Scaling 需要跨學科合作,結合認知科學、神經科學、硬體工程和資料科學,提升計算效率和適應性。同時,需要建立量化標準,例如評估模型大小、計算成本與效能的關係,為 AI 發展提供清晰的參考。

開放生態是 AI Scaling 發展的關鍵,輕量級核心模型和開放 API 可以促進 AI 在醫療、農業、工業等行業的落地應用。為了實現可持續發展,Scaling Down 透過輕量化 AI 減少能耗,Scaling Out 則透過分散式和多介面擴充套件,降低對資料中心的依賴,從而提升全球可及性。

最終,AI Scaling 將為通用人工智慧(AGI)奠定基礎。Scaling Up 提供基礎知識,Scaling Down 提高適應性,Scaling Out 構建開放、去中心化的 AI 生態系統,該系統中的不同介面相互協同,共同應對複雜挑戰。

相關文章