大模型合成資料機理分析,人大劉勇團隊:資訊增益影響泛化能力

机器之心發表於2024-10-15

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在大語言模型(LLMs)後訓練任務中,由於高質量的特定領域資料十分稀缺,合成資料已成為重要資源。雖然已有多種方法被用於生成合成資料,但合成資料的理論理解仍存在缺口。為了解決這一問題,本文首先對當前流行的合成資料生成過程進行了數學建模。在此基礎上,本文證明了後訓練模型的泛化能力關鍵取決於生成模型帶來的資訊增益,並從一個新的反向瓶頸視角進行了分析。此外,本文引入了互資訊泛化增益(GGMI)的概念,闡明瞭泛化增益與資訊增益之間的關係。我們希望為合成資料的應用提供理論基礎,進而為合成資料生成技術的設計與後訓練過程的最佳化提供新的理解。

It's not the form of data, but the information it brings that truly matters.

圖片

圖表 1: 合成資料一般生成正規化

正如著名的 Scaling laws 所說的那樣,大語言模型(LLMs)的效能在很大程度上依賴於訓練資料的規模和質量 [1]。然而,在 LLM 的後訓練階段,尤其是在微調和模型對齊的過程中,可用的高質量資料十分稀缺。

為解決這一問題,在真實資料匱乏的情況下合成資料在最近的研究中裡逐漸成為增強模型訓練的關鍵手段。截至 2024 年 9 月,在 Hugging Face 平臺上標註為 “合成” 的資料集已超過 1000 個。許多前沿的大語言模型,如 LLaMA [2]、Falcon [3]、Qwen [4] 和 GPT-4 [5] 都在其技術報告中表面在後訓練階段廣泛使用了合成資料。

近年來,研究人員提出了多種合成資料生成方法 [6-8],其中最為有效且常見的是透過一個在相關內容上進行過預訓練的大語言模型生成合成資料。具體來說,生成過程通常是基於少量的真實資料,編寫一組特定的 prompt,再經由生成模型生成具有針對性和高質量的合成資料,如圖 1 所示。這種方法不僅能夠緩解後訓練過程中資料不足的問題,還能夠為模型提供更豐富的任務相關資訊,進而提升模型的泛化能力和對齊精度。這一正規化已經在多個前沿的大語言模型中得到了廣泛應用,顯示出其在後訓練任務中的巨大潛力。

然而,當前對合成資料的建模和理論分析仍然存在顯著的不足,這在一定程度上限制了我們對其內在機制的深入理解 [9]。缺乏系統的理論框架使得我們難以準確預測合成資料在不同 LLM 應用中的有效性,也限制了生成模型在更具針對性的合成資料生成方面的最佳化 [10]。

因此,深入研究合成資料在模型訓練過程中的作用成為提升模型效能和可靠性的重要方向。透過加強對合成資料與大語言模型在訓練階段如何相互作用的理解,我們有望開發出更加精準的合成資料集,有效填補訓練資料中的特定空白,進而全面提升模型的表現和泛化能力。這不僅能為大語言模型在各類任務中的應用提供強有力的支援,還為未來的模型最佳化提供了理論依據。

合成資料為何能有效提升模型能力?這種提升又是基於什麼關鍵因素?針對這些核心問題,我們將從對合成資料生成過程的建模開始,將其與模型的泛化能力建立聯絡,並試圖探究這一框架下影響模型泛化能力的關鍵因素。

圖片

  • 論文標題:Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspective
  • 論文連結:https://arxiv.org/abs/2410.01720

在此工作中,我們主要作出瞭如下貢獻:

  • 我們對合成資料生成過程的進行了更加詳盡的數學建模,並從期望的角度揭示了這一過程的本質,即對生成模型輸出的分佈的壓縮;
  • 我們將合成資料的生成過程與後訓練模型的泛化能力進行了連線,並提出了 “反資訊瓶頸” 視角,解釋了合成資料在訓練過程中的作用機理;
  • 我們基於上述分析,從資訊理論的角度為合成資料訓練的模型提出了泛化誤差上界,並揭示了用於合成資料生成的生成模型所帶來的資訊增益的重要地位

模擬實驗設定

如圖 2 所示,在本研究中,我們使用混合高斯模型(GMM)來對合成資料的生成過程進行模擬。

簡單來說,我們設定了一個包含 K+J 個子高斯分佈的 GMM 作為 ground-truth(gt-GMM),並在此基礎上引入 L 個額外的隨機子高斯分佈構成用於模擬生成模型的 M。我們從 gt-GMM 的前 K 個子高斯進行取樣作為真實資料,從 M 中進行取樣作為最終的合成資料,並將其用於後續的驗證。

圖片

圖表 2: 模擬實驗設定

1 合成資料的生成過程是對生成模型輸出分佈的壓縮

合成資料的生成可以形象化的表達為如下的過程 [11]。記用於產生 prompt圖片 的少量真實資料為錨點圖片,合成資料為圖片,後訓練的目標任務為圖片。對於這一過程,一種抽象化的數學表達如下所示:

圖片

這一公式表示合成資料是圖片圖片上限定的表達,並且主要與目標任務和錨點資料有關。

其中,圖片則主要與三種分別代表 “任務”圖片、“條件”圖片和 “錨點資料”圖片的元素相關:

圖片

基於此觀點,並結合實際應用中的生成步驟,我們進一步用等式的形式表達了合成資料的實際生成過程。

首先,合成資料可以看作是圖片圖片上的直接輸出與其他的調整兩部分組成。

圖片

其中,圖片表示為了讓得到的合成資料具有可用性的格式與內容調整,例如資料策展等。

而更進一步,prompt 圖片則可以表達為根據任務圖片對錨點資料的轉換:

圖片

將這一過程中涉及到的變數視為隨機變數,並寫出它們對應的分佈,我們可以得到資料生成過程和對應的分佈變化過程,如圖 3 所示。

圖片

圖表 3: 合成資料生成與分佈變化過程

假設圖片取樣自後訓練的目標任務分佈圖片,生成模型圖片的輸出服從分佈圖片,其在圖片上受限的輸出服從分佈圖片,而最終的合成資料服從分佈圖片

從資料合成過程來看,合成資料是圖片圖片上的調整輸出。

若將其視為 “Prompting” 和 “Data Curation” 兩個步驟,資料合成的過程實質上是在對圖片圖片進行壓縮。如圖 4 所示。其中,所有藍色的部分表示圖片,而深藍色的部分表示圖片

圖片

圖表 4: 分佈的壓縮過程示意圖

值得注意的是,由於壓縮的不完全性, 圖片最終不一定會完全覆蓋圖片,也有可能會產出不屬於圖片的輸出,這一現象也為後續體現的資訊增益提供了較為直觀的解釋。

圖片

圖表 5: GMM 模擬實驗分佈結果

我們使用一組混合高斯模型(GMM)對合成資料的生成進行了模擬,結果如圖 5 所示。其中,藍色的點為錨點資料,取樣自用藍色橢圓表示中心的分佈中。黃色的點為合成資料,取樣自黃色橢圓表示中心的分佈中。

在實驗的設定中,合成資料(黃色)的分佈是對錨點資料(藍色)觀測的擬合和模擬,但由於 GMM 具體設定的差異,黃色橢圓最終無法完全覆蓋藍色橢圓,並且還覆蓋了藍色橢圓未覆蓋的位置,這與之前的分析相符。

2 連線資料合成過程與模型的泛化能力

對合成資料的生成過程的建模從分佈的角度刻畫了其本質特徵。

為了將這一特徵與後訓練模型的能力相結合,我們從模型的泛化能力切入並進行相應的分析。首先,我們將大模型圖片在合成資料圖片上進行訓練後得到的後訓練模型圖片的泛化誤差表示為:

圖片

其中圖片圖片分別表示模型在分佈圖片上的真實誤差和在資料圖片上的經驗誤差。

經過進一步的分析與推導(詳見正文及附錄),最終,模型的泛化誤差具有如下引理中的上界:

圖片

此引理將圖片的泛化誤差上界分為了兩個部分,分別是 “分佈間的散度” 和 “與合成資料有關的泛化誤差” 。

對於前一部分,主要與資料合成中採用的生成模型和任務本身的性質有關,而後一部分將成為我們分析的重點。

3 “逆資訊瓶頸” 視角下的泛化誤差上界

3.1 “逆資訊瓶頸”

注意到,合成資料的生成過程其實和一個典型的機器學習過程在形式上非常類似,圖片經由圖片得到 prompt圖片 ,再經由圖片得到圖片,十分類似於一個經典的 enc-dec 結構的機器學習過程,如圖 6 左側所示。

圖片

圖表 6: 逆資訊瓶頸示意圖

然而,正因為大模型中合成資料與傳統機器學習的關鍵不同之處:生成模型是圖片事先預訓練的,導致從資訊流的視角下二者具有相反的性質。如圖 6 右側所示,在合成資料的生成過程中,資訊量是一個被擴充的過程。

傳統機器學習過程中資訊是逐步被壓縮的,因此存在資訊瓶頸;而在生成圖片的過程中,由於圖片的存在,實質為這一過程擴充了額外的資訊,從而形成了一種 “逆資訊瓶頸”

3.2 “逆資訊瓶頸” 視角下的泛化誤差分析

刻畫這一 “逆資訊瓶頸” 的關鍵就是刻畫圖片引入的資訊增益。我們首先定義了合成因子圖片圖片,其中圖片是和 prompt 有關的因子,圖片是和生成模型有關的因子。

圖片

我們將資訊增益記為圖片,並從資訊理論的角度出發,定義如下:

圖片

可以看出,圖片衡量了在資料生成的過程中,除開 prompt 的影響後,由生成模型圖片所引入的資訊量。

接著,我們考慮合成資料圖片和後訓練模型的引數圖片之間的互資訊,並發現其存在可以由圖片所約束的上界:

圖片

根據資訊瓶頸理論已有的研究結果,經過一定的推導,並與之前的結論相結合,我們為圖片的期望泛化誤差尋找到了一個最終的上界:

圖片

這一上界的關鍵部分由圖片所控制。直觀上可見,當更多的資訊增益被引入時, 將具有更加緊湊的期望泛化誤差上界,從而獲得更好的泛化效能。

4 合成資料的泛化增益

之前的分析將後訓練大模型的泛化能力與合成資料的生成過程聯絡在了一起,並引入了資訊增益的概念,從而解釋了合成資料能夠提升模型效能的原因。基於此更進一步,我們將探究第二個問題,即合成資料的應用是從哪些方面帶來泛化能力提升的。

首先,我們考慮僅在錨點資料上進行訓練的模型圖片的期望泛化誤差上界:

圖片

顯然,合成資料帶來的泛化能力的提升主要體現在資料的規模上,即圖片

除了資料規模帶來的提升外,合成資料中所引入的新資訊是否也能帶來泛化能力的提升呢?為此,我們從互資訊項作為切入,定義瞭如下的衡量標準:GGMI。

圖片

直觀上,更大的 GGMI 表示合成資料帶來了更加緊湊的互資訊項,從而降低了模型整體的泛化誤差上界。

經過一定的推導從而消除不統一的引數項,GGMI 存在如下的上界:

圖片

可以看出, 圖片對於 GGMI 的增長也具有重要的作用。此外,降低熵等目標也有助於合成資料提供更好的泛化增益。

我們繼續在 GMM 的設定上對這一結果進行模擬。按照上述合成資料的生成過程,我們分別得到了圖片圖片,並用其分別訓練得到了 GMM圖片圖片,並設計了一個 ground-truth GMM圖片來表示真正的目標分佈。為了衡量圖片圖片的輸出與圖片之間的差距的相對大小,我們基於 KL 散度定義了 KL Gap:圖片. 模擬實驗的結果如下:(增大圖片有助於增大圖片,而增大圖片會分別影響 GGMI 上界中其他資訊熵項圖片

圖片

圖表 7: GMM 泛化增益模擬實驗結果

從圖 7 中可以看出,更大的資訊增益能有效提升 KL Gap,即提升了使用合成資料訓練的模型相比於未使用合成資料的模型對 ground-truth 的擬合結果。此外,對其他變數的改變也相應的影響了 KL Gap 的結果,進一步驗證了這一結論。

5 小結

我們從大模型中合成資料的生成過程出發,為常見的資料合成提供了數學上的建模,並將其與模型的泛化能力相結合,從而為合成資料的應用提供了理論基礎。基於此,我們從獨特的 “逆資訊瓶頸” 視角切入,將模型的泛化能力歸約在了生成模型所引入的資訊增益上,並透過模擬實驗的形式進行了驗證。

在未來的工作中,一方面我們希望能為大模型合成資料的作用機理提供更加深入的解析,從而為資料合成的方法研究提供理論依據;另一方面,我們希望能解決生成模型與後訓練任務間匹配的關係,透過動態的方式自適應的提升合成資料的質量。

作者介紹

劉勇,中國人民大學,長聘副教授,博士生導師,國家級高層次青年人才。長期從事機器學習基礎理論研究,共發表論文 100 餘篇,其中以第一作者 / 通訊作者發表頂級期刊和會議論文近 50 篇,涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級會議 ICML、NeurIPS 等。獲中國人民大學 “傑出學者”、中國科學院 “青年創新促進會” 成員、中國科學院資訊工程研究所 “引進優青” 等稱號。主持國家自然科學麵上 / 基金青年、北京市面上專案、中科院基礎前沿科學研究計劃、騰訊犀牛鳥基金、CCF - 華為胡楊林基金等專案。

甘澤宇,中國人民大學高瓴人工智慧學院博士研究生,本科及碩士研究生畢業於中國人民大學資訊學院。當前主要研究方向包括大模型對齊與機器學習理論。

參考文獻

[1] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.

[2] Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, and et al. The llama 3 herd of models, 2024. URLhttps://arxiv.org/abs/2407.21783.

[3] Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, and et al. The falcon series of open language models, 2023. URL https://arxiv.org/abs/2311.16867.

[4] Jinze Bai, Shuai Bai, Yunfei Chu, and et al. Qwen technical report, 2023. URL https://arxi v.org/abs/2309.16609.

[5] OpenAI, Josh Achiam, Steven Adler, and et al. Gpt-4 technical report, 2024. URL https: //arxiv.org/abs/2303.08774.

[6] Ajay Patel, Colin Raffel, and Chris Callison-Burch. Datadreamer: A tool for synthetic data genera tion and reproducible llm workflows. arXiv preprint arXiv:2402.10379, 2024.

[7] Anders Giovanni Møller, Jacob Aarup Dalsgaard, Arianna Pera, and Luca Maria Aiello. The parrot dilemma: Human-labeled vs. llm-augmented data in classification tasks. arXiv preprint arXiv:2304.13861, 2023.

[8] Jeiyoon Park, Chanjun Park, and Heuiseok Lim. Chatlang-8: An llm-based synthetic data generation framework for grammatical error correction. arXiv preprint arXiv:2406.03202, 2024.

[9] Hao Liang, Linzhuang Sun, Jingxuan Wei, Xijie Huang, Linkun Sun, Bihui Yu, Conghui He, and Wentao Zhang. Synth-empathy: Towards high-quality synthetic empathy data. arXiv preprint arXiv:2407.21669, 2024.

[10] Oscar Giles, Kasra Hosseini, Grigorios Mingas, Oliver Strickson, Louise Bowler, Camila Rangel Smith, Harrison Wilde, Jen Ning Lim, Bilal Mateen, Kasun Amarasinghe, et al. Faking feature importance: A cautionary tale on the use of differentially-private synthetic data. arXiv preprint arXiv:2203.01363, 2022.

[11] Lin Long, Rui Wang, Ruixuan Xiao, Junbo Zhao, Xiao Ding, Gang Chen, and Haobo Wang. On llms-driven synthetic data generation, curation, and evaluation: A survey, 2024. URL https: //arxiv.org/abs/2406.15126.

相關文章