中科大聯合華為諾亞提出Entropy Law,揭秘大模型效能、資料壓縮率以及訓練損失關係

机器之心發表於2024-07-22
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本工作由中科大認知智慧全國重點實驗室 IEEE Fellow 陳恩紅團隊與華為諾亞方舟實驗室完成。陳恩紅教授團隊深耕資料探勘機器學習領域,在頂級期刊與會議上發表多篇論文,谷歌學術論文引用超兩萬次。諾亞方舟實驗室是華為公司從事人工智慧基礎研究的實驗室,秉持理論研究與應用創新並重的理念,致力於推動人工智慧領域的技術創新和發展。

資料是大語言模型(LLMs)成功的基石,但並非所有資料都有益於模型學習。直覺上,高質量的樣本在教授 LLM 上預期會有更好的效率。因此,現有方法通常專注於基於質量的資料選擇。然而,這些方法中的大多數獨立地評估不同的資料樣本,忽略了樣本之間複雜的組合效應。如圖 1 所示,即使每個樣本質量完美,由於它們的互資訊冗餘或不一致性,它們的組合可能仍然次優。儘管基於質量的子集由所有三個優質樣本組成,但它們編碼的知識實際上是冗餘和衝突的。相比之下,另一個由幾個相對較低質量但多樣化的樣本組成的資料子集在教授 LLM 方面可能傳達更多資訊。因此,基於質量的資料選擇並未完全符合最大化 LLM 知識掌握的目標。

而本文旨在揭示 LLM 效能與資料選擇之間的內在關係。受 LLM 資訊壓縮本質的啟發,我們發現了一條 entropy law,它將 LLM 效能與資料壓縮率和前幾步模型訓練的損失加以聯絡,分別反映了資料集的資訊冗餘程度和 LLM 對資料集中固有知識的掌握程度。透過理論推導和實證評估,我們發現模型效能與訓練資料的壓縮率呈負相關,而這通常會產生較低的訓練損失。基於 entropy law 的發現,我們提出了一種非常高效且通用的資料選擇方法用於訓練 LLM,名為 ZIP,其旨在優先選擇低壓縮率的資料子集。ZIP 分多階段、貪心地選擇多樣化的資料,最終獲得一個具有良好多樣性的資料子集。

圖片

  • 團隊:中科大認知智慧全國重點實驗室陳恩紅團隊,華為諾亞方舟實驗室
  • 論文連結: https://arxiv.org/pdf/2407.06645
  • 程式碼連結: https://github.com/USTC-StarTeam/ZIP

圖片

圖 1
Entropy law

我們對資料壓縮與 LLM 效能之間的關係進行理論分析。直覺上,訓練資料的正確性和多樣性會影響最終模型的效能。同時,如果資料存在嚴重的內在衝突或模型對資料編碼的資訊掌握不佳,LLM 的效能可能會次優。基於這些假設,我們將 LLM 的效能表示為 Z ,其預期會受到以下因素的影響:

  • 資料壓縮率 R:直覺上,壓縮率越低的資料集表明資訊密度越高。
  • 訓練損失 L:表示資料對模型來說是否難以記憶。在相同的基礎模型下,高訓練損失通常是由於資料集中存在噪聲或不一致的資訊。
  • 資料一致性 C:資料的一致性透過給定前文情況下下一個 token 的機率的熵來反映。更高的資料一致性通常會帶來更低的訓練損失。
  • 平均資料質量 Q:反映了資料的平均樣本級質量,可以透過各種客觀和主觀方面來衡量。

給定一定量的訓練資料,模型效能可以透過上述因素來估計:

圖片

其中 f 是一個隱函式。給定一個特定的基礎模型,L 的規模通常取決於 R 和 C,可以表示為:

圖片

由於具有更高同質性或更好資料一致性的資料集更容易被模型學習,L 預計在 R 和 C 上是單調的。因此,我們可以將上述公式重寫為:

圖片

其中 g' 是一個反函式。透過結合上述三個方程,我們得到:

圖片

其中 h 是另一個隱函式。如果資料選擇方法不會顯著改變平均資料質量 Q,我們可以近似地將變數 Q 視為常數。因此,最終效能可以粗略地表示為:圖片
這意味著模型效能與資料壓縮率和訓練損失相關。我們將這種關係稱為 Entropy law

基於 Entropy law,我們提出兩個推論:

  • 如果將 C 視為常數,訓練損失直接受壓縮率影響。因此,模型效能由壓縮率控制:如果資料壓縮率 R 較高,那麼 Z 通常較差,這將在我們的實驗中得到驗證。
  • 在相同的壓縮率下,較高訓練損失意味著較低的資料一致性。因此,模型學到的有效知識可能更有限。這可以用來預測 LLM 在具有相似壓縮率和樣本質量的不同資料上的效能。我們將在後續展示這一推論在實踐中的應用。

ZIP:高度輕量化的資料選擇演算法

在 entropy law 的指導下,我們提出了 ZIP 這一資料選擇方法,透過資料壓縮率來選擇資料樣本,旨在在有限的訓練資料預算下最大化有效資訊量。出於效率考量,我們採用了一種迭代多階段貪心正規化,以高效地獲得具有相對低壓縮率的近似解。在每輪迭代中,我們首先使用全域性選擇階段來選擇一組具有低壓縮率的候選樣本池,找到資訊密度高的樣本。然後,我們採用粗粒度的區域性選擇階段,選擇一組與已選樣本冗餘度最低的較小樣本集。最後,我們使用細粒度的區域性選擇階段,最小化要新增樣本之間的相似性。上述過程持續進行直到獲得足夠的資料,具體演算法如下:

圖片

實驗結果

1.ZIP 選擇演算法對於不同 LLM、在不同 LLM 對齊階段的有效性

對比不同的 SFT 資料選擇演算法,基於 ZIP 選擇資料所訓練得到的模型效能上展現出優勢,並且在效率上也佔優。具體結果見下表:

圖片

得益於 ZIP 的模型無關、內容無感知的特性,其同樣也可應用於偏好對齊階段的資料選擇。而 ZIP 所選擇的資料同樣展現出了較大的優勢。具體結果見下表:

圖片

2.Entropy law 的實驗驗證

基於 SFT 資料選擇實驗,我們基於模型效果、資料壓縮率以及模型在前幾步訓練的損失,分別擬合了多條關係曲線。結果見圖 2 以及圖 3,我們從圖中可以觀察到三個因素之間的緊密關聯。首先,低壓縮率資料通常會帶來更好的模型效果,這是因為 LLMs 的學習過程與資訊壓縮高度相關,我們可以將 LLM 視為資料壓縮器,那麼壓縮率較低的資料意味著更多的知識量,從而對壓縮器更有價值。同時,可以觀察到較低的壓縮率通常伴隨著更高的訓練損失,這是因為難以壓縮的資料攜帶了更多的知識,對 LLM 吸收其中蘊含的知識提出了更大的挑戰。

圖片

圖 2 Mistral-7B

圖片

圖 3 Llama-3-8B

3.Entropy law 的實際應用

我們提供了一個 entropy law 在真實場景中指導 LLM 訓練資料增量更新的應用。在該任務場景中,訓練資料量保持相對穩定,只有一小部分資料會被修改。結果見圖 4,其中圖片圖片是逐漸增量更新的 5 個資料版本,出於保密要求,僅提供不同壓縮率下模型效果的相對關係。根據 entropy law 預測,假設每次增量更新後資料質量沒有顯著下降,可以預期隨著資料壓縮率的降低,模型效能會有所提升。這一預測與圖中資料版本圖片圖片的結果一致。然而,資料版本圖片顯示出損失和資料壓縮率的異常增加,這預示了由於訓練資料一致性下降導致的模型效能下降的潛在可能。這一預測透過隨後的模型效能評估進一步得到證實。因此,entropy law 可以作為 LLM 訓練的指導原則,無需在完整資料集上訓練模型直到收斂,便可預測 LLM 訓練失敗的潛在風險。鑑於訓練 LLM 的高昂成本,這一點尤其重要。

圖片

圖 4

相關文章