AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
團隊:中科大認知智慧全國重點實驗室陳恩紅團隊,華為諾亞方舟實驗室 論文連結: https://arxiv.org/pdf/2407.06645 程式碼連結: https://github.com/USTC-StarTeam/ZIP
資料壓縮率 R:直覺上,壓縮率越低的資料集表明資訊密度越高。 訓練損失 L:表示資料對模型來說是否難以記憶。在相同的基礎模型下,高訓練損失通常是由於資料集中存在噪聲或不一致的資訊。 資料一致性 C:資料的一致性透過給定前文情況下下一個 token 的機率的熵來反映。更高的資料一致性通常會帶來更低的訓練損失。 平均資料質量 Q:反映了資料的平均樣本級質量,可以透過各種客觀和主觀方面來衡量。
如果將 C 視為常數,訓練損失直接受壓縮率影響。因此,模型效能由壓縮率控制:如果資料壓縮率 R 較高,那麼 Z 通常較差,這將在我們的實驗中得到驗證。 在相同的壓縮率下,較高訓練損失意味著較低的資料一致性。因此,模型學到的有效知識可能更有限。這可以用來預測 LLM 在具有相似壓縮率和樣本質量的不同資料上的效能。我們將在後續展示這一推論在實踐中的應用。