圖 1:CounterAnimal 測試示例,這張北極熊影像展示了從常見的雪地背景 97.62% 的零樣本準確率下降到少見的草地背景 70.91%。
引言
大型視覺語言模型,如 CLIP,在廣泛的多模態任務中展示了令人印象深刻的效能優勢,在分佈外泛化上超越了在如 ImageNet 這類資料集上訓練的單模態模型[1]。然而,現有的測試資料集主要是基於 ImageNet 訓練模型通常遇到的假相關性來構建的。這些資料集可能無法充分反映 CLIP 模型在如 LAION 這樣的資料集上訓練時所面臨的獨特假相關性。這種不匹配引發了對 CLIP 模型與以 ImageNet 為導向的假相關性基準測試的有效性的擔憂,因為它們可能未能全面捕捉 CLIP 模型在處理真實的假相關性時所面臨的挑戰[3,4,5,6,7,8]。
接下來我們向大家分享在 NeurIPS 2024 上發表的研究成果。這項工作探討了如何可靠地評估並提高大規模視覺語言模型在面對真實分佈外資料的魯棒性,特別是透過新構建的 CounterAnimal 資料集評估 CLIP 模型在分佈外場景下的表現。該資料集特別設計用來測試 CLIP 模型對於環境背景變化的魯邦度,從而揭示在不同背景下,CLIP 模型效能的變化,為理解和改進模型在實際應用中的泛化能力提供了可靠的依據。
我們提出了一個名為 CounterAnimal 的新資料集。這個資料集旨在特別揭示 CLIP 模型對其訓練環境中真實存在的假相關性的依賴性。CounterAnimal 將動物影像根據背景分組,為每個類別設立對於 CLIP 來講的“簡單”和“困難”兩個子類別。這種設定使我們能夠直接評估 CLIP 模型對比通常在 ImageNet 中發現的假相關性集合更多樣化和真實的假相關性。
我們的評估表明,CounterAnimal 捕獲的假相關性通常會被使用不同模型和訓練資料集的 CLIP 模型學習。我們不僅從實驗層面挑戰了先前對 CLIP 魯棒性的認知侷限,還提供了對應的理論分析,以解釋為何 CLIP 的訓練目標無法提供額外的魯棒性。此外,我們還探索瞭如增加模型引數,資料規模,以及使用高質量資料等策略對 CLIP 模型魯棒性的影響。儘管我們發現了一些有益的策略,但它們並不足以完全消解假相關性帶來的影響。這表明我們在未來還需要進一步改進訓練策略,以更好地應對 CLIP 模型在真實世界的廣泛應用。
CounterAnimal 資料集:CLIP 魯棒性的新基準
人工智慧應用需要頻繁面臨開放世界中廣泛且不可預測的環境,因此 CLIP 模型不僅需要展現總體較高的準確率,還必須保持對常被傳統基準忽視的假相關性的魯棒性。為此,我們引入了專門構建的 CounterAnimal 資料集,用以評估 CLIP 模型對可能在傳統資料集如 ImageNet 中未能充分代表的假相關性的魯棒性。CounterAnimal 資料集包含 45 個動物類別,共計 7,174 張“簡單”照片和 5,926 張“困難”照片。
資料集建立過程
我們使用了來自 iNaturalist 的影像,並根據背景對其進行分類。例如,北極熊的圖片通常呈現雪地背景。然而,我們的資料集額外包含一組反例,例如北極熊出現在草地環境的圖片,這對 CLIP 模型學習到的關聯性構成了一定的挑戰。
1.資料收集:我們從 ImageNet-1K 資料集中選擇一批具有代表性的動物種類,然後從 iNaturalist 檢索相應的影像。
2.資料策劃:每張影像都經過嚴格的篩選,我們手動移除了包含歧義或質量低下的影像,確保資料集只包含清晰、明確的影像。
3.背景標記:我們對每張影像進行了的背景標註,選擇反映每個物種的環境標註。這一精確的標記對於設定我們的實驗至關重要。
4.發現假相關性:最後一步涉及根據背景將影像分類為“簡單”和“困難”兩組。這種分類基於預訓練的 CLIP 模型在不同背景下的表現。
該資料集主要使用 CLIP-LAION400M-ViT-B/32 模型來發現假相關性。
視覺化 CounterAnimal 資料集的結構和佈局
我們在圖 3 中展示了 CounterAnimal 資料集的分佈,並在附圖中展示了其目錄結構。圖 3 顯示了每個動物類別的影像數量,分為“簡單”和“困難”的背景組。目錄結構圖說明了資料是如何被組織的,背景則被分類為“簡單”或“困難”組。
圖 3:各種動物類別的資料佈局。水平軸表示類別 ID,垂直軸表示簡單和困難組的照片數量。
圖4:CounterAnimal 資料集的目錄結構。
CounterAnimal 的基本性質
圖 5展示了在比較“簡單”和“困難”背景設定下 CLIP 模型的零樣本分類準確率的變化。該圖表明 CLIP 模型在常見環境中雖然表現出較強的零樣本泛化效能,但面對分佈外或“困難”背景時效能會顯著下降。
此視覺化展示了模型對背景資訊的依賴。在背景與訓練資料匹配的場景中(“簡單”),模型表現良好。然而,當引入非典型背景時(“困難”),準確率會顯著受到影響,展示了 CLIP 模型分佈外泛化能力的差距。這一現象表明了 CLIP 模型對環境資訊的依賴,很大程度上限制了這些模型在真實世界應用中的有效性。
圖5:使用 CLIP-LAION400M-ViT-B/32 的效能下降(%)。水平軸表示類別 ID,垂直軸表示下降的百分點。
## 研究發現和詳細觀察
### 詳細的效能分析
表 1 展示了使用 CLIP-LAION400M-ViT-B/32 模型在 CounterAnimal 資料集上的零樣本效能結果。這種設定測試了模型識別動物類別的能力,突出顯示了它在常見(“簡單”)分佈外(“困難”)背景下的泛化能力。這個表格顯示了每個動物類別在兩種背景型別下的準確率,並計算了模型在遇到分佈外背景時效能下降的百分比。這量化了 CLIP 模型對背景環境的依賴以及效能變化。
動物標籤 | 簡單背景 | 準確率(簡單) | 困難背景 | 準確率(困難) | 下降(%) |
北極熊 | 雪 | 97.62% | 草地 | 70.91% | 26.71% |
黑天鵝 | 水 | 93.63% | 土地 | 68.87% | 24.76% |
火烈鳥 | 水 | 79.70% | 天空 | 55.45% | 24.25% |
禿鷲 | 天空 | 87.76% | 樹 | 41.84% | 45.92% |
屎殼郎 | 地面 | 56.92% | 手 | 17.02% | 39.90% |
實驗結果
圖 6提供了在不同評估設定下,不同模型在 CounterAnimal 資料集上的表現比較。這個圖突出了模型面對簡單和困難分類場景時的效能變化。
圖 6:在兩種評估設定下的效能比較,展示了 CLIP 模型對 CounterAnimal 資料集中假相關性的魯棒性。較大的資料集和模型大小由標記的大小和顏色深淺表示。
圖 6中的分析可以引申到如下結論:
-普遍的假相關性:CLIP 模型在從“簡單”組過渡到“困難”組時表現出顯著的效能下降,表明 CounterAnimal 資料集確實包含了各種 CLIP 模型配置中普遍存在的假相關性。
- ImageNet 模型的魯棒性:ImageNet 模型(紅色標記)顯示出比 CLIP 變體更強的魯棒性,挑戰了先前關於 CLIP 強魯棒性和強泛化能力的片面認識。
-模型和資料規模的影響:較大的模型顯示出更強的效能,表明增加模型容量可以提高魯棒性。相反,僅擴大資料集大小(顏色較深的標記)並未帶來類似的改善,表明擴大資料規模對效能的提升是有限的。
- 高質量資料和模型魯棒性:在高質量資料上預訓練的 CLIP 模型(CLIP-DC 和 CLIP-DFN)顯示出更強的魯棒性,強調了資料質量對於模型效能的重要性。
這些觀察對於理解 CLIP 及其他大型視覺語言模型在現實世界多樣性條件下的行為至關重要,並強調了實現真正魯棒的多模態人工智慧系統面臨的持續挑戰。
實驗分析
我們的研究透過使用精心構建的 CounterAnimal 資料集,專注於評估在不同資料以及模型條件下 CLIP 模型對假相關的魯棒性。
假相關的普遍性
在這一部分,我們評估 CounterAnimal 資料集捕獲的假相關性在不同 CLIP 模型設定中的普遍性。我們分析不同預訓練資料集和模型如何影響 CLIP 的魯棒性。結果顯示,在測試“簡單”和“困難”組時,不同模型和預訓練資料集的效能都出現了顯著下降,表明由 CounterAnimal 標識的假相關性確實在不同的 CLIP 訓練正規化中普遍存在。
圖 7:不同 CLIP 設定的結果。
規模擴大可以提升魯棒性
我們的分析還擴充套件到擴大規模和質量對於 CLIP 魯棒性的影響。我們發現,較大的模型和高質量的資料通常顯示出更強的魯棒性。然而,單純增加資料規模並不足以緩解模型受到假相關的影響。
表 2:提高預訓練資料和模型規模的結果。
評估其他學習正規化
最後,我們擴充套件了對其他學習正規化的評估,以瞭解它們如何與 CLIP 在處理假相關性方面的比較。這部分分析涉及評估在不同條件下訓練的模型,包括那些在 ImageNet 上有監督訓練的和更先進的語言視覺模型。結果表明,各類視覺語言模型仍然易受假特徵的影響,凸顯了視覺語言預訓練所面臨的持續挑戰。
表 3:ImageNet 模型和 CLIP 模型的效能比較。
理解 CLIP 依賴假特徵的原因
進一步而言,我們介紹了一個理論框架以系統性地分析 CLIP 對假特徵的依賴性。我們將定義兩種型別的特徵:不變特徵,對任務有用,以及假特徵,對任務沒有幫助。我們發現,這些假特徵可能主導 CLIP 模型的學習過程,導致模型在訓練中表現良好但在分佈外的環境中表現不佳。
假相關性的關鍵定理
如下,我們提出了一個形式化地描述假特徵對模型效能影響的定理。
定理 1:展示假特徵對 CLIP 模型的影響。
該定理表明,當 CLIP 模型在假特徵與輸出標籤強相關的資料上訓練時,只要這些相關性存在,它就能達到高準確率。然而,在這些相關性不存在的分佈外設定中,模型的準確率會顯著下降。這和我們在 CounterAnimal 上的真實實驗觀察是一致的。
實際影響和未來方向
對於未來人工智慧發展,尤其是對於使用大規模多模態資料集訓練的模型意味著什麼?我們的發現強調了設計更好的訓練策略的必要性,這些策略可以減少對這些誤導特徵的依賴。這對於開發真正魯棒和可靠的 AI 系統至關重要,這些系統可以跨不同環境執行。
有關我們實驗以及理論的詳細討論,請參考我們在https://counteranimal.github.io/上的完整研究論文的補充材料。
參考文獻
1. Jingyi Zhang, Jiaxing Huang, Sheng Jin, and Shijian Lu. Vision-language models for vision tasks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024.
2. Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion5b: An open large-scale dataset for training next generation image-text models. In NeurIPS, 2022.
3. Martin Arjovsky, Léon Bottou, Ishaan Gulrajani, and David Lopez-Paz. Invariant risk minimization. arXiv preprint arXiv:1907.02893, 2019.
4. Xiao Zhou, Yong Lin, Weizhong Zhang, and Tong Zhang. Sparse invariant risk minimization. In ICML, 2022.
5. Yong Lin, Hanze Dong, Hao Wang, and Tong Zhang. Bayesian invariant risk minimization. In CVPR, 2022.
6. Xiao Zhou, Yong Lin, Renjie Pi, Weizhong Zhang, Renzhe Xu, Peng Cui, and Tong Zhang. Model agnostic sample reweighting for out-of-distribution learning. In ICML, 2022.
7. Yong Lin, Fan Zhou, Lu Tan, Lintao Ma, Jiameng Liu, Yansu He, Yuan Yuan, Yu Liu, James Zhang, and Yujiu Yang. Continuous invariance learning. In ICLR, 2024.
8. Yong Lin, Lu Tan, Yifan Hao, Honam Wong, Hanze Dong, Weizhong Zhang, Yujiu Yang, and Tong Zhang. Spurious feature diversification improves out-of-distribution generalization. In ICLR, 2024.
9. Xiaoyu Tan, Lin Yong, Shengyu Zhu, Chao Qu, Xihe Qiu, Xu Yinghui, Peng Cui, and Yuan Qi. Provably invariant learning without domain information. In ICML, 2023.
10. Yongqiang Chen, Kaiwen Zhou, Yatao Bian, Binghui Xie, Bingzhe Wu, Yonggang Zhang, MA KAILI, Han Yang, Peilin Zhao, Bo Han, and James Cheng. Pareto invariant risk minimization: Towards mitigating the optimization dilemma in out-of-distribution generalization. In ICLR, 2023.
11. Yongqiang Chen, Wei Huang, Kaiwen Zhou, Yatao Bian, Bo Han, and James Cheng. Understanding and improving feature learning for out-of-distribution generalization. In NeurIPS, 2023.
12. Dan Hendrycks, Kevin Zhao, Steven Basart, Jacob Steinhardt, and Dawn Song. Natural adversarial examples. In CVPR, 2021.
13. Benjamin Recht, Rebecca Roelofs, Ludwig Schmidt, and Vaishaal Shankar. Do imagenet classifiers generalize to imagenet? In ICML, 2019.