當計算預算低時,重複使用高質量資料更好;當不差錢時,使用大量資料更有利。
論文標題:Scaling Laws for Data Filtering—Data Curation cannot be Compute Agnostic 論文地址:https://arxiv.org/pdf/2404.07177.pdf 程式碼地址:https://github.com/locuslab/scaling_laws_data_filtering
當計算預算低時,重複使用高質量資料更好;當不差錢時,使用大量資料更有利。