ICLR 2024 | 雞生蛋蛋生雞?再論生成資料能否幫助模型訓練 机器之心 發表於2024-04-01
隨著生成模型 (如 ChatGPT、擴散模型)飛速發展,一方面,生成資料質量越來越高,到了以假亂真的程度;另一方面,隨著模型越來越大,也使得人類世界的真實資料即將枯竭。 面對這一處境,一個近期的研究熱度是,能否利用生成模型 生成的假資料來輔助學習?學界對此也產生了許多爭論:到底是可以左腳踩右腳(bootsrap)地實現 weak-to-strong 的不斷提升,還是像雞生蛋、蛋生雞一樣,只不過是徒勞無功? 在近期 ICLR 2024 工作中,北大王奕森團隊針對這一「資料擴充」(Data Inflation)問題展開了深入研究。 他們針對對比學習(如 SimCLR、DINO、CLIP)這一常見的自監督學習 場景,從理論和實驗兩方面分析了生成資料對於表示學習能力的影響 。為了控制變數,他們保證生成模型 和表示學習都只能使用同一個(無監督)真實資料集進行訓練,避免了擴充資料本身帶來的收益。
論文題目:Do Generated Data Always Help Contrastive Learning? 論文地址:https://arxiv.org/abs/2403.12448 程式碼地址:https://github.com/PKU-ML/adainf 他們發現,在這種情況下,生成資料並不總是對錶示學習有幫助,在很多情況下甚至有害 。比如,將 DDPM 的資料直接加入 CIFAR-10 訓練,反而導致分類準確率 下降超過 1%(前人工作 [1] 也有類似發現:用生成資料擴充 ImageNet 後 ResNet-50 的分類準確率 下降了 2.69%)。進一步分析表明,有兩個關鍵因素影響了生成資料的收益: 真實資料和生成資料的比例 。從人的角度來看,生成資料似乎以假亂真,但對於模型訓練而言並非如此。他們發現,真實資料與生成資料的混合比例在 10:1 附近時達到最優,也就是說,1 個真實資料的「訓練價值」約等於 10 個生成資料。這側面說明了二者的差異。訓練策略的設計 。他們發現,在使用生成資料進行訓練時,如果維持原有的訓練引數 ,則模型幾乎沒有提升。相反,如果隨著資料集的擴充,而相應降低模型訓練所使用的資料增廣的強度,則可以獲得顯著提升。針對這兩個核心觀察,本文還從自監督理論出發,解釋了他們內在的產生原因,並進而分析了資料量、資料質量與資料增廣強度之間的權衡取捨。
圖 1 (a):資料擴充流程 ;(b):不同擴充策略下的對比學習效能。 資料擴充最直觀的一個影響因素是生成資料的質量問題。下圖 2(a)表明,生成資料質量越高,對比學習的下游泛化能力越好,但遺憾的是即使是目前的 SOTA 生成模型 STF,也只讓模型的 Linear Accuracy(在特徵上應用線性分類器 的分類準確率 )比此前僅上升 0.02%。由於真實圖片包含更豐富、準確的資訊,因此擴充後的資料集中真實資料和生成資料的地位不應該相同。本文研究透過在混合時對真實資料複製 N 倍的方式,對真實資料和生成資料進行重加權(Reweighting)。 圖 2(b)表明,混合比例在 10:1 時達到最優(weak augmentation)。本文進一步從理論上分析了重加權的作用,在此不做展開。
圖 2 (a)生成資料質量對對比學習的影響 (b)資料重賦權對對比學習的影響 在對比學習中,資料增強(Data Augmentation)的選取至關重要。通常來說,自監督學習 需要使用較強的資料增強(如裁切、掩碼等)來學習的資料表示。為了區分,本文將生成資料視為資料擴充(Data Inflation),二者的區別是,資料擴充是擴大原始資料集的大小,而資料增廣是對每個原始樣本,在訓練過程中進行隨機增強。 直觀上看,資料擴充和資料增廣都會提升資料多樣性但資料增廣可能會改變影像的語義資訊(下圖 3),因此當資料擴充提供了足夠的資料時,便可以減弱資料增廣從而減小因影像語義資訊的改變帶來的誤差。
文中構造了四個不同規模的資料集:CIFAR-10、Half CIFAR-10(CIFAR-10 的一半)、CIFAR-10+10 萬張生成圖片、CIFAR-10+100 萬張生成圖片,透過改變 random resized crop(RRC)來反應不同的資料增廣強度。 下圖 4 中表明最優資料增廣強度隨著資料規模的增大而減小(Half CIFAR-10:0.02,CIFAR-10:0.08,CIFAR-10+0.1M:0.20,CIFAR-10+1M:0.30)。因此當進行資料擴充時,資料增廣強度需要減弱。也就是說,只有當二者搭配得當,才能充分發揮生成資料的作用。
為了進一步刻畫資料擴充和資料增廣之間的關係,本文從圖的角度來建模對比學習:將資料增強產生的每個樣本視為圖 上的節點,並定義同一樣本產生的資料增廣樣本之間存在一條邊,這樣便在樣本空間構建了一個圖,稱為增廣圖(Augmentation Graph)[2,3]。 這是理解自監督學習 的經典理論之一,根據這一建模,對比學習的下游泛化誤差上界可表示為 ,其中 表示由於資料增強造成的標籤錯誤(labeling error), 表示增廣圖拉普拉斯矩陣的第 小的特徵值,用於反應圖的連通性。 資料擴充和資料增廣對 和 的影響: 資料擴充 :不會改變標籤錯誤 ,但可以提升圖的連通性( 增大)(下圖 5 (a))。資料增廣 :資料增廣強度增加,會使得 labeling error 增大(圖 5 (b)),但同時使不同樣本之間的交疊部分增加,即增廣圖的連通性增強( 增大)(圖 5 (c))。因此當資料擴充提升資料規模從而提供了足夠的圖的連通性時,為了進一步減小下游泛化誤差,可以減弱資料增廣強度從而使得 減小。反之資料規模比較小時,則需要更強的資料增強去獲得更好的圖的連通性。也就是說,資料擴充和資料增強在對比學習中存在互補作用 ,當資料擴充後,對應的最優資料增廣強度減小(圖 5(d))。
圖 5 資料擴充和資料增廣對 labeling error 和圖 的連通性的影響 基於以上的理解,論文提出自適應的資料擴充 Adaptive Inflation(AdaInf) ,根據生成資料的質量、大小,動態調整對比學習演算法。其中,最重要的兩個指導原則是 1)真實資料和生成資料需賦予不同權重 ,生成資料質量越差權重 應該越小 ;2)資料量增大後,應該減弱資料增廣強度,減少資料增強的負面作用。 本文主要考慮生成資料的規模遠大於真實資料的應用場景。為了在計算能力有限的情況下分析這一場景,作者主要考慮 CIFAR 資料集,因為可以在該資料集上取樣 大量圖片。 以 CIFAR-10 為例,其中包含 5 萬真實訓練樣本,作者利用生成模型 (GAN 或擴散模型)為它們新增 100 萬生成資料。以 10:1 的比例混合之後,作者將 CIFAR 資料集的總規模擴充到 150 萬。為了公平比較,本文保證全訓練過程中,生成模型 也只能獲取 5 萬無監督資料。作者採用 SimCLR 作為預設方法並保持預設引數 。
表 1 不同模型和不同資料集下的對比學習線性探測效能 本文在影像識別任務上表 1 表明,AdaInf 在不同的對比學習模型和不同資料集上的效能顯著好於沒有資料擴充(No Inflation)或者直接進行資料擴充(Vanilla Inflation)。僅使用基礎的 SimCLR 方法,AdaInf 就可以將 ResNet-18 上的自監督效能從 91.56 提升到 93.42,超越了大部分「魔改」的自監督學習 方法,達到 Sota 水平。這進一步驗證了「資料為王」的規律,展示了 scaling 的潛力 。 消融實驗 :本文在下表 2 (a)中研究了 AdaInf 的組成部分:生成資料、資料重賦權、資料弱增廣。結果表明三者的重要性為資料弱增廣 > 資料重賦權 > 生成資料。這反映了資料擴充和資料增廣之間的相互作用對於對比學習的影響很大。應用場景 :作者進一步發現, AdaInf 可以很好地應用的資料缺乏的場景下。如表 2 (b)所示,當 CIFAR-10 每個類僅有 500 個樣本時,AdaInf 可以獲得更明顯的提升。
表 2 (a)消融實驗 (b)資料匱乏場景下的應用 [1] Shekoofeh Azizi, Simon Kornblith, Chitwan Saharia, Mohammad Norouzi, and David J. Fleet. Synthetic data from diffusion models improves imagenet classification. arXiv preprint arXiv:2304.08466, 2023. [2] Jeff Z HaoChen, Colin Wei, Adrien Gaidon, and Tengyu Ma. Provable guarantees for self-supervised deep learning with spectral contrastive loss. NeurIPS, 2021. [3] Yifei Wang*, Qi Zhang*, Yisen Wang, Jiansheng Yang, Zhouchen Lin. Chaos is a Ladder: A New Theoretical Understanding of Contrastive Learning via Augmentation Overlap. ICLR 2022.