資料更多更好還是質量更高更好？這項研究能幫你做出選擇

机器之心發表於2024-05-20

原文網址 : https://www.jiqizhixin.com/articles/2024-05-20-6

當計算預算低時，重複使用高質量資料更好；當不差錢時，使用大量資料更有利。

對基礎模型進行 scaling 是指使用更多資料、計算和引數進行預訓練，簡單來說就是「規模擴充套件」。

雖然直接擴充套件模型規模看起來簡單粗暴，但也確實為機器學習社群帶來了不少表現卓越的模型。之前不少研究都認可擴大神經模型規模的做法，所謂量變引起質變，這種觀點也被稱為神經擴充套件律（neural scaling laws）。

近段時間，又有不少人認為「資料」才是那些當前最佳的閉源模型的關鍵，不管是 LLM、VLM 還是擴散模型。隨著資料質量的重要性得到認可，已經湧現出了不少旨在提升資料質量的研究：要麼是從大型語料庫中過濾出高質量資料，要麼是生成高質量的新資料。但是，過去的擴充套件律一般是將「資料」視為一個同質實體，並未將近期人們關注的「資料質量」作為一個考量維度。

儘管網路上的資料規模龐大，但高質量資料（基於多個評估指標）通常很有限。現在，開創性的研究來了 —— 資料過濾維度上的擴充套件律！它來自卡內基梅隆大學和 Bosch Center for AI，其中尤其關注了「大規模」與「高質量」之間的數量 - 質量權衡（QQT）。

論文標題：Scaling Laws for Data Filtering—Data Curation cannot be Compute Agnostic
論文地址：https://arxiv.org/pdf/2404.07177.pdf
程式碼地址：https://github.com/locuslab/scaling_laws_data_filtering

如圖 1 所示，當訓練多個 epoch 時，高質量資料的效用（utility）就不大了（因為模型已經完成了學習）。

此時，使用更低質量的資料（一開始的效用更小）往往比重複使用高質量資料更有助益。

在數量 - 質量權衡（QQT）之下，我們該如何確定訓練使用怎樣的資料搭配更好？

為了解答這個問題，任何資料整編（data curation）工作流程都必須考慮模型訓練所用的總計算量。這不同於社群對資料過濾（data filtering）的看法。舉個例子，LAION 過濾策略是從常見爬取結果中提取出質量最高的 10%。

但從圖 2 可以看出，很明顯一旦訓練超過 35 epoch，在完全未整編的資料集上訓練的效果優於在使用 LAION 策略整編的高質量資料上訓練的效果。

當前的神經擴充套件律無法建模質量與數量之間這種動態的權衡。此外，視覺 - 語言模型的擴充套件律研究甚至還要更加更少，目前的大多數研究都僅限於語言建模領域。

今天我們要介紹的這項開創性研究攻克了之前的神經擴充套件律的三大重要侷限，其做到了：

（1）在擴充套件資料時考慮「質量」這個軸；

（2）估計資料池組合的擴充套件律（而無需真正在該組合上進行訓練），這有助於引導實現最優的資料整編決策；

（3）調整 LLM 擴充套件律，使之適用於對比訓練（如 CLIP），其中每一批都有平方數量的比較次數。

該團隊首次針對異構和數量有限的網路資料提出了擴充套件律。

大型模型是在多種質量的資料池組合上訓練完成的。透過對從各個資料池的擴散引數（如圖 1 (a) 中的 A-F）派生的聚合資料效用進行建模，就可以直接估計模型在這些資料池的任意組合上的效能。

需要重點指出，這種方法並不需要在這些資料池組合上進行訓練就能估計它們的擴充套件律，而是可以根據各個組成池的擴充套件引數直接估計它們的擴充套件曲線。

相比於過去的擴充套件律，這裡的擴充套件律有一些重要差異，可以建模對比訓練機制中的重複，實現 O (n²) 比較。舉個例子，如果訓練池的大小倍增，對模型損失有影響的比較次數就會變成原來的四倍。

他們用數學形式描述了來自不同池的資料的相互互動方式，從而可以在不同的資料組合下估計模型的效能。這樣便可以得到適合當前可用計算的資料整編策略。

這項研究給出的一個關鍵資訊是：資料整編不能脫離計算進行。

當計算預算少時（更少重複），在 QQT 權衡下質量優先，如圖 1 中低計算量下的激進過濾（E）的最佳效能所示。

另一方面，當計算規模遠超過所用訓練資料時，有限高質量資料的效用會下降，就需要想辦法彌補這一點。這會得到不那麼激進的過濾策略，即資料量更大時效能更好。

該團隊進行了實驗論證，結果表明這個用於異構網路資料的新擴充套件律能夠使用 DataComp 的中等規模池（128M 樣本）預測從 32M 到 640M 的各種計算預算下的帕累托最優過濾策略。

一定計算預算下的資料過濾

該團隊透過實驗研究了不同計算預算下資料過濾的效果。

他們使用一個大型初始資料池訓練了一個 VLM。至於基礎的未過濾資料池，他們選用了近期的資料整編基準 Datacomp 的「中等」規模版本。該資料池包含 128M 樣本。他們使用了 18 個不同的下游任務，評估的是模型的零樣本效能。

他們首先研究了用於獲得 LAION 資料集的 LAION 過濾策略，結果見圖 2。他們觀察到了以下結果：

1. 在計算預算低時，使用高質量資料更好。

2. 當計算預算高時，資料過濾會造成妨害。

原因為何？

LAION 過濾會保留資料中大約 10% 的資料，因此計算預算大約為 450M，來自已過濾 LAION 池的每個樣本會被使用大約 32 次。這裡的關鍵見解是：對於同一個樣本，如果其在訓練過程中被多次看見，那麼每一次所帶來的效用就會下降。

之後該團隊又研究了其它兩種資料過濾方法：

（1）CLIP 分數過濾，使用了 CLIP L/14 模型；

（2）T-MARS，在掩蔽了影像中的文字特徵（OCR）後基於 CLIP 分數對資料進行排名。對於每種資料過濾方法，他們採用了四個過濾層級和多種不同的總計算量。

圖 3 給出了在計算規模為 32M、128M、640M 時 Top 10-20%、 Top 30%、Top 40% CLIP 過濾的結果比較。

在 32M 計算規模時，高度激進的過濾策略（根據 CLIP 分數僅保留前 10-20%）得到的結果最好，而最不激進的保留前 40% 的過濾方法表現最差。但是，當計算規模擴充套件到 640M 時，這個趨勢就完全反過來了。使用 T-MARS 評分指標也能觀察類似的趨勢。

資料過濾的擴充套件律

該團隊首先用數學方式定義了效用（utility）。

他們的做法不是估計 n 的樣本在訓練結束時的損失，而是考慮一個樣本在訓練階段的任意時間點的瞬時效用。其數學公式為：

這表明，一個樣本的瞬時效用正比於當前損失且反比於目前所見到的樣本數量。這也符合我們的直觀想法：當模型看到的樣本數量變多，樣本的效用就會下降。其中的重點是資料效用引數 b 。

接下來是資料被重複使用之下的效用。

數學上，一個被見到 k+1 次的樣本的效用引數 b 的定義為：

其中 τ 是效用引數的半衰期。τ 值越高，樣本效用隨著重複而衰減得越慢。δ 則是效用隨重複的衰減情況的簡潔寫法。那麼，模型在看過 n 個樣本且每個樣本都被看過 k 次之後的損失的表示式就為：

其中 n_j 是在第 j 輪訓練 epoch 結束時的模型看到的樣本數量。這一等式是新提出的擴充套件律的基礎。

最後，還有一層複雜性，即異構的網路資料。

然後就得到了他們給出的定理：給定隨機均勻取樣的 p 個資料池，其各自的效用和重複引數分別為 (b_1, τ_1)...(b_p, τ_p)，則每個 bucket 的新重複半衰期就為 τˆ = p・τ。此外，組合後的資料池在第 k 輪重複時的有效效用值 b_eff 是各個效用值的加權平均值。其數學形式為：

其中

，這是新的每 bucket 衰減引數。

最後，可以在 (3) 式中使用上述定理中的 b_eff，就能估計出在資料池組合上進行訓練時的損失。

針對各種資料效用池擬合擴充套件曲線

該團隊用實驗探究了新提出的擴充套件律。

圖 4 給出了擬合後的各種資料效用池的擴充套件曲線，其使用的資料效用指標是 T-MARS 分數。

圖 4 的第 2 列表明各個資料池的效用會隨 epoch 增多而降低。下面是該團隊給出的一些重要觀察結果：

1. 網路資料是異構的，無法透過單一一組擴充套件引數進行建模。

2. 不同資料池有不同的資料多樣性。

3. 具有重複現象的高質量資料的效果趕不上直接使用低質量資料。

結果：在 QQT 下為資料組合估計擴充套件律

前面針對不同質量的資料池推斷了各自相應的引數 a、b、d、τ。而這裡的目標是確定當給定了訓練計算預算時，最有效的資料整編策略是什麼。

透過前面的定理以及各個資料池的擴充套件引數，現在就能估計不同池組合的擴充套件律了。舉個例子，可以認為 Top-20% 池是 Top-10% 和 Top 10%-20% 池的組合。然後，這種來自擴充套件曲線的趨勢就可以用於預測給定計算預算下的帕累托最優資料過濾策略。

圖 5 給出了不同資料組合的擴充套件曲線，這是在 ImageNet 上評估的。

這裡需要強調，這些曲線是基於上述定理，直接根據各個組成池的擴充套件引數估計的。他們並未在這些資料池組合上訓練來估計這些擴充套件曲線。散點是實際的測試效能，其作用是驗證估計得到的結果。

可以看到：（1）當計算預算低 / 重複次數少時，激進的過濾策略是最好的。

（2）資料整編不能脫離計算進行。

對擴充套件曲線進行擴充套件

2023 年 Cherti et al. 的論文《Reproducible scaling laws for contrastive language-image learning》研究了針對 CLIP 模型提出的擴充套件律，其中訓練了計算規模在 3B 到 34B 訓練樣本之間的數十個模型，並且模型涵蓋不同的 ViT 系列模型。在這樣的計算規模上訓練模型的成本非常高。Cherti et al. (2023) 的目標是為這一系列的模型擬合擴充套件律，但對於在小資料集上訓練的模型，其擴充套件曲線有很多錯誤。

CMU 這個團隊認為這主要是因為他們沒考慮到重複使用資料造成的效用下降問題。於是他們使用新提出的擴充套件律估計了這些模型的誤差。

圖 6 是修正之後擴充套件曲線，其能以很高的準確度預測誤差。

這表明新提出的擴充套件律適用於用 34B 資料計算訓練的大型模型，這說明在預測模型訓練結果時，新的擴充套件律確實能考慮到重複資料的效用下降情況。

更多技術細節和實驗結果請參閱原論文。

資料上雲，應該選擇全量抽取還是增量抽取？
2019-11-04
你應該選擇 Ubuntu 還是 Fedora？
2019-07-05
Ubuntu
redis存json資料時選擇string還是hash
2021-01-16
RedisJSON
難≠勸退？這五點能幫你的生存恐怖遊戲做得更好
2019-05-28
遊戲
從 InfluxDB 到 TDengine，陽光氫能為什麼會做出這個選擇？
2022-08-22
UX
這4個技巧幫助您選擇雲端計算資料庫
2020-08-23
資料庫
Oracle回應使用者鎖定，自治資料庫是更好選擇
2019-01-21
Oracle資料庫
一文讀懂選擇資料湖還是資料倉儲
2022-10-20
獨享還是共享，你選擇哪一種鎖？
2019-07-25
當iPad用上macOS，你會選擇iPad還是MacBook？
2021-07-24
iPadMac
論海外買量投入，還是這款黑幫遊戲大
2020-08-27
遊戲
什麼是資料質量？
2018-11-02
這些前端框架，讓你的開發更高效率，高質量，你用過嗎？
2020-09-01
前端框架
想要從事資料分析，選擇python還是R語言呢?
2020-06-24
PythonR語言
資料科學領域，你該選 Python 還是 R ？
2018-08-02
資料科學Python
如果能重來，我選擇這樣學習資料科學……
2020-10-07
資料科學
選擇Serverless還是Kubernetes？這種爭辯並沒有意義
2018-12-18
Server
選擇HTTPS代理還是SOCKS代理？
2022-06-10
HTTP
選擇python還是web前端好
2021-09-11
PythonWeb前端
資料倉儲架構到底選擇內部部署還是上雲？
2018-08-14
架構
除了吸引玩家，直播還能幫助開發者把遊戲做得更好
2020-03-12
遊戲
【譯Py】2018年，這5個資料科學專案能幫你找到工作
2018-07-08
資料科學
為什麼 APISIX Ingress 是比 Traefik 更好的選擇？
2022-12-23
API
資料跟蹤應該是選擇加入而不是選擇退出
2019-05-29
入門資料分析選擇Python還是SQL？七個常用操作對比
2020-11-05
PythonSQL
微服務選擇Spring Cloud還是Dubbo？
2018-04-27
微服務SpringCloud
選擇 Python3.6 還是 Python 3.7
2018-07-27
Python
iOS 開發選擇OC還是Swift？
2018-04-11
iOSSwift
Java選擇自學還是培訓？
2021-09-22
Java
是列舉？還是常量？其實很好選擇！
2020-05-30
資質平平的你為什麼不選擇小程式代理?
2018-12-17
修改IP地址選擇高質量IP波段選用技巧！
2020-06-06
zabbix、cacti、nagios，伺服器監控還有更好的選擇嗎？
2020-07-24
iOS伺服器
為什麼 APISIX Ingress 是比 Ingress NGINX 更好的選擇？
2023-01-17
APINginx
如何選擇谷歌seo還是adwords廣告？
2020-08-04
谷歌
workman還是swoole,大家選擇那個呢？
2020-11-05
分析選擇Salesforce CRM還是Zoho CRM（上）
2022-04-27
Salesforce
不知道這些，你以為你還能devops?
2020-06-14
dev

資料更多更好還是質量更高更好？這項研究能幫你做出選擇

相關文章