ICLR 2025|浙大、千問釋出預訓練資料管理器DataMan,53頁細節滿滿

机器之心發表於2025-02-28

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


文章全面探討了大語言模型在預訓練資料選擇上的重要性,並提出了一種名為 DataMan 的資料管理器,用於對預訓練資料進行質量評分和領域識別,以最佳化 LLMs 的預訓練過程,本文由浙江大學和阿里巴巴千問團隊共同完成。

在 Scaling Law 背景下,預訓練的資料選擇變得越來越重要。然而現有的方法依賴於有限的啟發式和人類的直覺,缺乏全面和明確的指導方針。在此背景下,該研究提出了一個資料管理器 DataMan,其可以從 14 個質量評估維度對 15 個常見應用領域的預訓練資料進行全面質量評分和領域識別。透過大量的實驗,利用 DataMan 所篩選出的部分資料進行模型訓練,勝率最高可達 78.5%,且效能超過多使用 50% 資料訓練的模型。
圖片
  • 論文標題:DataMan: Data Manager for Pre-training Large Language Models

  • 作者單位:浙江大學 & 阿里巴巴

  • 論文連結:https://arxiv.org/abs/2502.19363

一. 逆向反思指導質量標準

隨著大語言模型(LLMs)的快速發展,資料在模型效能提升中的作用越來越受到關注。現有的資料選擇方法主要依賴於有限的手工規則和直覺,缺乏全面和明確的指導原則。為了解決這個問題,作者們提出了 “逆向思維”(reverse thinking)的概念,即透過提示 LLMs 自我識別哪些質量標準對其效能有益,來指導資料選擇。
圖片
具體來說,這一過程共分為四步:

1)分析文字困惑度的異常:透過分析預訓練所使用的文字資料,特別是那些困惑度(PPL)處於前 2% 和後 2% 的文字,來理解哪些文字特徵與困惑度異常有關。該步使用一個超級 LLM(Super LLM)來分析這些異常現象背後的原因,並試圖找出哪些文字特徵對 LLM 的效能有積極影響。
2)迭代提煉質量標準:透過上述分析,作者迭代地提煉出了 13 個與文字質量相關的標準。這些標準包括準確性、連貫性、語言一致性、語義密度、知識新穎性、主題聚焦、創造性、專業性、語法多樣性、結構標準化、風格一致性、原創性和敏感性。
3)構建全面的質量評分體系:除了上述 13 個質量標準外,作者還構建了一個綜合性的評分標準,稱為 “總體評分”(Overall Score)。這個評分標準綜合考慮了上述 14 個標準,旨在提供一個更全面的文字質量評估。
4)驗證質量標準的有效性:為了驗證這些質量標準的有效性,超級 LLM 將對這些標準進行評分,並與人類評分進行了比較。結果顯示,超級 LLM 的評分與人類評分有超過 95% 的一致性,這表明這些質量標準是有效的。

二. 資料卷王 DataMan

DataMan 是一個綜合性的資料管理器,它能夠對文字進行質量評分和領域識別,旨在促進預訓練資料的選擇和混合。DataMan 的訓練和管理資料的過程主要包括以下幾個步驟:

1)資料標註:DataMan 模型首先對 SlimPajama 語料庫進行標註,標註內容包括 14 個質量評分標準和 15 個常見的應用領域。標註過程透過提示 Super LLM 生成文字的評分,並使用這些評分來建立一個用於模型微調的資料集。
2)模型微調:使用 Qwen2-1.5B 作為基礎模型,透過文字生成損失進行微調。微調過程中,DataMan 模型學習如何根據給定的文字自動評分和識別領域。
3)資料取樣:基於 DataMan 模型對資料的質量評分和領域識別,可以採用不同的資料取樣策略。例如,透過 top-k 取樣,根據質量評分和領域分佈機率,從源和領域分佈中取樣資料,以最大化樣本的代表性,同時確保資料來源和領域的多樣性。
圖片
三. 實驗設定

DataPajama:DataPajama 是一個經過清洗和去重的 447B token 的預訓練語料庫,其已經由 DataMan 模型為其的每個文件打上 14 個質量評分和 15 個領域型別標籤。儘管這一過程很昂貴(等於 1146 NVIDIA A800 小時),但可以透過大規模的並行化和低成本的 DataMan 模型來緩解,以可以服務於各種目的,如資料選擇、資料混合或特定領域的持續預訓練。

資料選擇:該研究使用不同的資料選擇方法從 DataPajama 中選擇 30B token 的子集進行實驗。這些方法包括:

1)Uniform:隨機選擇。2)DSIR:使用重要性重取樣(DSIR)方法選擇與英語維基百科或書籍領域相似的文件。3)Perplexity Filtering:基於困惑度過濾資料。4)Sample with Qurating:根據 Qurating 提出的四個質量標準(寫作風格、事實、教育價值和所需專業知識)進行取樣。5)Sample with DataMan:基於 DataMan 的 13 個質量標準進行取樣。

模型訓練:使用 Sheared-Llama-1.3B 模型架構,對從 DataPajama 中選擇的 30B token 子集進行訓練。訓練設定包括使用 RoPE 嵌入和 SwiGLU 啟用函式,以及 Adam 最佳化器等。

四. 實驗發現

透過大量實驗,該研究驗證了 DataMan 方法的有效性,並展示了使用 DataMan 選擇的資料進行訓練的模型在多個下游任務上的優異效能。

Dataman 效能如何?

如下表所示,使用 DataMan 選擇的資料進行訓練的模型在語言建模、任務泛化能力和指令遵循能力上均優於使用均勻取樣的基線模型。此外,使用 DataMan 的 13 個質量標準進行取樣,相較於使用均勻取樣,可以顯著提升模型的效能,尤其是在上下文學習(ICL)任務中。
圖片
在指令跟隨效能上,作者們的模型始終超過 SOTA 基線,總體得分達到了令人印象深刻的勝率 78.5%。
圖片
在垂直領域上繼續預訓練?

作者們應用 DataMan 的領域識別來過濾醫學、法律和金融領域的垂類資料,並進行繼續預訓練以得到領域特定的模型。如圖所示,模型效能得到了進一步提升,這驗證了 DataMan 的域混合能力。
圖片
資料量與模型效能的關係?

該研究使用同樣的方法抽樣取樣了一個更大的 60B 子集,以探究資料量的影響。如下表所示,模型在 ICL 等下游任務中都取得了進一步提升。
圖片
PPL 與 ICL 的失調?

下圖我們繪製了 10 個下游任務中所有模型的困惑度(PPL)和上下文學習(ICL)效能之間的關係,包括 Pearson 和 Spearman 相關係數。結果表明,這種錯位在 LogiQA 和 MMLU 任務中最為明顯。更深入的分析確定了兩個主要原因:i)- 域不匹配:預訓練通常使用廣泛的通用語料庫,這使得模型在一個公共文字上表現出較低的困惑度。然而,像 MMLU 這樣的任務,它跨越了 57 個不同的專門領域(如抽象代數和解剖學),可能會因為域不匹配爾在 ICL 中受到影響。ii)-ICL 任務的複雜性:許多 ICL 任務需要複雜的推理,而不是簡單的文字生成,而困惑性評估難以捕獲。這一點在 LogiQA 中尤為明顯,該任務透過來自公務員考試中的專家撰寫的問題來評估人類的邏輯推理技能。
圖片

相關文章