自己抓取,如 OpenAI 或 Anthropic 等公司; 使用抓取網頁的公共資源庫,如非營利組織 CommonCrawl 維護的資源庫。
CommonSense QA HellaSwag OpenBook QA PIQA SIQA WinoGrande ARC MMLU
應用 URL 過濾; 應用 fastText 語言分類器,僅保留分數≥0.65 的英文文字; 應用來自 MassiveText 的質量和重複過濾器(使用預設閾值)。
基礎過濾 每個轉儲獨立的 MinHash 重複資料刪除 精選 C4 過濾器 自定義過濾器
我們的訓練資料包括經過嚴格過濾的公開網路資料(根據「教育程度」),這些資料來自各種開放的網際網路資源,以及 LLM 生成的合成資料。
我們發現,前幾代 Llama 擅長識別高質量資料,因此我們使用 Llama 2 來幫助構建文字質量分類器,為 Llama 3 提供動力。
FineWeb-Edu 超越了 FineWeb 和所有其他開放網路資料集,在教育基準(如 MMLU、ARC 和 OpenBookQA)方面取得了顯著改進。 與 C4 和 Dolma 相比,它需要的 token 數量減少了 10 倍,才能與 MMLU 的結果相媲美。 這證明了使用在 LLM 註釋上訓練的分類器進行大規模資料過濾的有效性。