原來，這些頂級大模型都是蒸餾的

机器之心發表於2025-01-29

原文網址 : https://www.jiqizhixin.com/articles/2025-01-29-2

「除了 Claude、豆包和 Gemini 之外，知名的閉源和開源 LLM 通常表現出很高的蒸餾度。」這是中國科學院深圳先進技術研究院、北大、零一萬物等機構的研究者在一篇新論文中得出的結論。

前段時間，一位海外技術分析師在一篇部落格中提出了一個猜想：一些頂級的 AI 科技公司可能已經構建出了非常智慧的模型，比如 OpenAI 可能構建出了 GPT-5，Claude 構建出了 Opus 3.5。但由於運營成本太高等原因，他們將其應用在了內部，透過蒸餾等方法來改進小模型的能力，然後依靠這些小模型來盈利（參見《GPT-5、 Opus 3.5 為何遲遲不發？新猜想：已誕生，被蒸餾成小模型來賣》）。

當然，這只是他的個人猜測。不過，從新論文的結論來看，「蒸餾」在頂級模型中的應用範圍確實比我們想象中要廣。

具體來說，研究者測試了 Claude、豆包、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus 等多個模型，發現這些模型大多存在很高程度的蒸餾（Claude、豆包和 Gemini 除外）。比較明顯的證據是：很多模型會在宣告自己身份等問題時出現矛盾，比如 llama 3.1 會說自己是 OpenAI 開發的，Qwen-Max 說自己由 Anthropic 創造。

蒸餾固然是一種提升模型能力的有效方法，但作者也指出，過度蒸餾會導致模型同質化，減少模型之間的多樣性，並損害它們穩健處理複雜或新穎任務的能力。所以他們希望透過自己提出的方法系統地量化蒸餾過程及其影響，從而提供一個系統性方法來提高 LLM 資料蒸餾的透明度。

論文標題：Distillation Quantification for Large Language Models
論文連結：https://github.com/Aegis1863/LLMs-Distillation-Quantification/blob/main/paper.pdf
專案連結：https://github.com/Aegis1863/LLMs-Distillation-Quantification

為什麼要測試 LLM 的蒸餾情況？

最近，模型蒸餾作為一種更有效利用先進大語言模型能力的方法，引起了越來越多的關注。透過將知識從更大更強的 LLM 遷移到更小的模型中，資料蒸餾成為了一個顯著的後發優勢，能夠以更少的人工標註和更少的計算資源與探索來實現 SOTA 效能。

然而，這種後發優勢也是一把雙刃劍，它阻止了學術機構的研究人員和欠發達的 LLM 團隊自主探索新技術，並促使他們直接從最先進的 LLM 中蒸餾資料。此外，現有的研究工作已經揭示了資料蒸餾導致的魯棒性下降。

量化 LLM 的蒸餾面臨幾個關鍵挑戰：

1. 蒸餾過程的不透明性使得難以量化學生模型和原始模型之間的差異；

2. 基準資料的缺乏使得需要採用間接方法（如與原始 LLM 輸出的比較）來確定蒸餾的存在；

3. LLM 的表徵可能包含大量冗餘或抽象資訊，這使得蒸餾的知識難以直接反映為可解釋的輸出。

最重要的是，資料蒸餾在學術界的廣泛使用和高收益導致許多研究人員避免批判性地檢查與其使用相關的問題，導致該領域缺乏明確的定義。

研究者使用了什麼方法？

作者在論文中提出了兩種方法來量化 LLM 的蒸餾程度，分別是響應相似度評估（RSE）和身份一致性評估（ICE）。

RSE 採用原始 LLM 的輸出與學生大語言模型的輸出之間的比較，從而衡量模型的同質化程度。ICE 則採用一個知名的開源越獄框架 GPTFuzz，透過迭代構造提示來繞過 LLM 的自我認知，評估模型在感知和表示身份相關資訊方面的差異。

他們將待評估的特定大語言模型集合定義為 LLM_test = {LLM_t1，LLM_t2，...，LLM_tk}，其中 k 表示待評估的 LLM 集合的大小。

響應相似度評估（RSE）

RSE 從 LLM_test 和參考 LLM（在本文中即 GPT，記為 LLM_ref）獲取響應。作者隨後從三個方面評估 LLM_test 和 LLM_ref 的響應之間的相似度：響應風格、邏輯結構和內容細節。評估者為每個測試 LLM 生成一個它與參考模型的整體相似度分數。

作者將 RSE 作為對 LLM 蒸餾程度的細粒度分析。在本文中，他們手動選擇 ArenaHard、Numina 和 ShareGPT 作為提示集，以獲取響應並評估 LLM_test 在通用推理、數學和指令遵循領域的相關蒸餾程度。如圖 3 所示，LLM-as-a-judge 的評分分為五個等級，每個等級代表不同程度的相似度。

身份一致性評估（ICE）

ICE 透過迭代構造提示來繞過 LLM 的自我認知，旨在揭示嵌入其訓練資料中的資訊，如與蒸餾資料來源 LLM 相關的名稱、國家、位置或團隊。在本文中，源 LLM 指的是 GPT4o-0806。

作者在 ICE 中採用 GPTFuzz 進行身份不一致性檢測。首先，他們將源 LLM 的身份資訊定義為事實集 F，F 中的每個 f_i 都清楚地說明了 LLM_ti 的身份相關事實，例如「我是 Claude，一個由 Anthropic 開發的 AI 助手。Anthropic 是一家總部位於美國的公司。」

同時，他們使用帶有身份相關提示的 P_id 來準備 GPTFuzz 的：，用於查詢 LLM_test 中的 LLM 關於其身份的資訊，詳見附錄 B。作者使用 LLM-as-a-judge 初始化 GPTFuzz 的 F^G，以比較提示的響應與事實集 F。具有邏輯衝突的響應會被識別出來，並相應地合併到 F^G 的下一次迭代中。

作者基於 GPTFuzz 分數定義兩個指標：

寬鬆分數：將任何身份矛盾的錯誤示例視為成功攻擊；
嚴格分數：僅將錯誤識別為 Claude 或 GPT 的示例視為成功攻擊。

實驗結果如何？

ICE 的實驗結果如圖 4 所示，寬鬆分數和嚴格分數都表明 GLM-4-Plus、Qwen-Max 和 Deepseek-V3 是可疑響應數量最多的三個 LLM，這表明它們具有更高的蒸餾程度。相比之下，Claude-3.5-Sonnet 和 Doubao-Pro-32k 幾乎沒有顯示可疑響應，表明這些 LLM 的蒸餾可能性較低。寬鬆分數指標包含一些假陽性例項，而嚴格分數提供了更準確的衡量。

作者將所有越獄攻擊提示分為五類，包括團隊、合作、行業、技術和地理。圖 5 統計了每種型別問題的成功越獄次數。這個結果證明 LLM 在團隊、行業、技術方面的感知更容易受到攻擊，可能是因為這些方面存在更多未經清理的蒸餾資料。

如表 1 所示，作者發現相比於監督微調（SFT）的 LLM，基礎 LLM 通常表現出更高程度的蒸餾。這表明基礎 LLM 更容易表現出可識別的蒸餾模式，可能是由於它們缺乏特定任務的微調，使它們更容易受到評估中利用的漏洞型別的影響。

另一個有趣的發現是，實驗結果顯示閉源的 Qwen-Max-0919 比開源的 Qwen 2.5 系列具有更高的蒸餾程度。作者發現了大量與 Claude 3.5-Sonnet 相關的答案，而 2.5 系列 LLM 的可疑答案僅與 GPT 有關。這些示例在附錄 D 中有所展示。

RSE 結果在表 3 中展示，以 GPT4o-0806 作為參考 LLM，結果表明 GPT 系列的 LLM（如 GPT4o-0513）表現出最高的響應相似度（平均相似度為 4.240）。相比之下，像 Llama3.1-70B-Instruct（3.628）和 Doubao-Pro-32k（3.720）顯示出較低的相似度，表明蒸餾程度較低。而 DeepSeek-V3（4.102）和 Qwen-Max-0919（4.174）則表現出更高的蒸餾程度，與 GPT4o-0806 相近。

為了進一步驗證觀察結果，作者進行了額外的實驗。在這個設定中，他們選擇各種模型同時作為參考模型和測試模型。對於每種配置，從三個資料集中選擇 100 個樣本進行評估。附錄 F 中的結果表明，當作為測試模型時，Claude3.5-Sonnet、Doubao-Pro-32k 和 Llama3.1-70B-Instruct 始終表現出較低的蒸餾程度。相比之下，Qwen 系列和 DeepSeek-V3 模型傾向於顯示更高程度的蒸餾。這些發現進一步支援了本文所提框架在檢測蒸餾程度方面的穩健性。

更多細節請參考原論文。

模型蒸餾的程式碼
2024-06-21
模型
模型壓縮-模型蒸餾、模型剪枝、模型量化
2024-08-07
模型
模型小型化：蒸餾法、剪枝
2020-11-21
模型
AI教父蒸餾論文曾被拒，如今DeepSeek引爆蒸餾革命！
2025-02-08
AI
Springer知識蒸餾專著解讀 | 面向影像識別的知識蒸餾綜述
2025-02-19
Spring
DevOps升級&AIOps落地，看看這些大廠都是怎麼做的?
2018-10-22
devAI
深挖DeepSeek：知識蒸餾才是核心！
2025-02-10
知道嗎？這十大世界頂級網站都是用Python開發的（下）
2020-10-13
網站Python
hadoop，spark，Zookeeper，，，這些名字都是怎麼來的呢？
2018-10-16
HadoopSpark
知識蒸餾、輕量化模型架構、剪枝…幾種深度學習模型壓縮方法
2023-03-13
模型架構深度學習
知識蒸餾在推薦系統的應用
2024-05-30
剪枝量化初完結，蒸餾學習又上場
2019-09-26
深度學習之雙DNN排序模型：線上知識蒸餾在愛奇藝推薦的實踐
2020-02-27
深度學習DNN排序模型
百萬tokens僅需8毛，不蒸餾造出世界一流大模型，豆包全新1.5Pro不走捷徑
2025-01-23
大模型
史丹佛吳佳俊擴散自蒸餾來了！突破文生圖身份保留挑戰
2024-11-29
PAIRDISTILL: 用於密集檢索的成對相關性蒸餾方法
2024-10-05
AI
Meta開發System 2蒸餾技術，Llama 2對話模型任務準確率接近100%
2024-07-15
模型
《自然》：發燒、怕冷、吃不下飯，原來都是大腦指揮的！
2022-06-16
CVPR 2022 | 這個自蒸餾新框架新SOTA，降低了訓練成本，無需修改網路
2022-04-08
框架
Mamba作者新作：將Llama3蒸餾成混合線性 RNN
2024-09-01
RNN
業界首發行業大模型，提出落地3大關鍵路徑，百度的大模型原來是這麼用的
2022-05-20
行業大模型
ACL 2018使用知識蒸餾提高基於搜尋的結構預測
2018-07-03
EMNLP 2020 | 忒修斯之船啟發下的知識蒸餾新思路
2020-11-11
區塊鏈的應用很廣泛這些都是
2019-07-29
區塊鏈
我懂了，原來這就是4+1架構模型！
2022-12-02
架構模型
頻寬、延時、吞吐率、PPS 這些都是啥？
2020-12-15
今年，中國AI大模型產業發展看這些
2024-03-28
AI大模型產業
全球頂級的超級計算機（附原資料表）
2020-12-25
計算機
洩露！Apple Intelligence提示詞原來是這樣，還告訴大模型：別幻覺
2024-08-07
APPIntel大模型
哈工大訊飛聯合實驗室釋出知識蒸餾工具TextBrewer
2020-03-03
大師級的程式設計師，都在用這些工作法
2019-07-12
程式設計師
賦能我們的未來生活的十大頂級程式設計師
2021-02-25
程式設計師
世界頂級公司的前端面試都問些什麼
2019-01-18
前端面試
別上當！這些都是5G假專案！
2020-04-06
大模型的未來在哪？
2021-10-26
大模型
科普分享|原來這些圖靈獎巨匠就藏在身邊
2020-12-01
圖靈
十大頂級的駭客級Linux發行版！
2022-11-28
Linux
Java 8開發的4大頂級技巧
2019-01-14
Java

原來，這些頂級大模型都是蒸餾的

相關文章