視覺語言模型的高效遷移學習

zhaihaotian發表於2024-10-30

原文網址 : https://www.cnblogs.com/zhaihaotian/p/18515706

隨著CLIP的出現，如何將大規模預訓練的模型高效地遷移到小樣本的下游任務中，成為了一個新的挑戰。
根據方法策略的不同可以分為兩類：Prompt-based方法和Adapter-based方法。Prompt-based和Adapter-based方法中，我們又可以根據梯度是否經過編碼器，將其細分為兩類：梯度經過編碼器的方法和梯度不經過編碼器的方法。此外，一部分遷移的方法專注於給定少樣本的情況，另一部分遷移的方法則專注於測試時適應。
梯度經過編碼器的Prompt-based方法可以分為：文字模態、視覺模態和雙模態。
文字模態的Prompt Learning：CoOp（Context Optimization）將NLP領域的Prompt Learning遷移到視覺語言模型中。給定少量資料集和模板（如“a photo of [class]”），CoOp最佳化前幾個輸入的token，使模型能夠更好地適應特定任務。TPT（Test-time Prompt Tunning）在測試時適應的過程中最小化不同增強視角的平均熵來最佳化prompt，與CoOp方法可以無縫整合。
視覺模態的Prompt Learning：VPT在視覺輸入中嵌入可學習的token，將這些token作為額外的輸入嵌入到視覺編碼器中，對視覺特徵進行調整。
雙模態的Prompt Learning：UPT在將雙模態的可學習的token送入編碼器之前，經過一個Transformer網路處理，增強了模態之間token的表達能力。MaPle在文字和視覺端的token之間加入了一個可學習的線性層，使得兩種模態的token耦合，產生更強的聯絡。Prompt-align將MaPle進一步擴充套件至測試時適應，計算支援集的圖片的編碼之後的token的均值和方差並在測試時將測試圖片的token的均值和方差向支援集拉近。
梯度經過編碼器的Adapter-based方法有CLIP-LoRA和MMA（Multi-modal Adapter）。CLIP-LoRA將LoRA微調大語言模型的經驗應用到少樣本微調中，透過微調CLIP模型文字端和影像端的Query、Key和Value矩陣，實現高效的引數更新。MMA在Transformer層之間加入了文字和影像端耦合的Adapter模組，增強了多模態資訊的融合。
梯度不經過編碼器的Prompt-based主要為TaskRes。TaskRes在文字端學習一個殘差，僅調整文字編碼器的輸出。相比CoOp，TaskRes方法簡單更小，效果更佳。類似的，TPS方法選擇在測試時調整改殘差。梯度不經過編碼器意味我們只需要編碼一次，同時我們可以更好的利用外部知識，因為我們不受到CoOp中模版的限制。我們可以向LLM中獲得更加豐富的Prompt，參考CuPL的工作。
梯度不經過編碼器的Adapter-based的方法：Tip-Adapter使用一個簡單的快取模組，將訓練集的影像特徵存成Key，標籤作為Value。測試時，輸入影像透過編碼器得到的特徵作為Query，與快取中的Key進行匹配，實現快速的少樣本適應。CaFo利用大型語言模型（LLM）的外部知識擴充概念，並藉助生成模型來擴充少量的資料集，提高模型的泛化能力。DMN設計了一個動態記憶和靜態記憶模組，隨著測試樣本的增多，動態記憶不斷被填滿，提高模型效能。TDA設定了一個正樣本快取模組和負樣本快取模組，隨著測試樣本的不斷增多，更新快取模組。Dual-Adapter和Cluster-Adapter：這兩種方法在視覺和文字端針對編碼後的原型共同學習殘差，增強了多模態的適應性。DPE則在測試時適應的過程中共同學習文字和影像端的殘差，保持了模型的泛化能力。
透過對以上方法的調研，我發現當前的高效遷移學習方法存在以下主要問題和挑戰：
1.高效遷移學習加劇了CLIP模型的類別偏差
現有的高效遷移學習方法雖然能夠在少樣本學習中提升模型的效能，但也加劇了CLIP模型在零樣本任務中固有的類別偏差問題。CLIP模型基於大規模的多模態資料進行訓練，天然具有良好的泛化能力，但由於類別分佈的不均勻，模型對某些類別的學習較為充分，而對其他類別的學習則幾乎完全失敗。在少樣本場景中，這種偏差更加明顯，因為少數類別的訓練樣本更為稀少，模型容易忽略這些類別，甚至出現類別完全崩塌的現象。例如，使用CoOp等Prompt-based方法時，模型可能過度擬合於頻繁出現的類別，對罕見類別的表現卻極差。
2．測試時過度依賴監督訊號，訓練與測試不統一
現有的一些測試時適應的方法在測試階段過度依賴監督訊號，同時缺乏訓練和測試的統一。DMN和TDA這兩種方法在測試時引入了偽標籤或快取模組，對測試資料施加了明確的監督訊號。雖然在理論上提升了模型的測試準確性，但卻忽視了對資料分佈的學習能力，可能導致模型的確認偏差，進一步擴大類別之間的差異。目前，僅有DMN，TPT+CoOp，TPS+TaskRes可以做到在既能給定小樣本的情況下訓練，又能測試時適應，一個高效準確的方法應當既能在有資料的情況下適應，也能在測試時適應。
3.模型引數和超引數複雜度增加，應用成本高
為了提升模型的效能，現有的高效遷移學習方法往往增加了大量的引數和超引數，導致模型複雜度和應用成本增加。Tip-Adapter對於不同的資料集，需要設定不同的引數，人為地加入了先驗知識，缺乏統一的標準。MaPLe等方法在模型結構中引入了較多新的可學習層或模組，增加了模型的引數量和複雜度。超引數過多不僅增加了模型訓練和除錯的難度，也使得方法之間缺乏公平的比較，影響了實際應用。
4．文字與影像模態利用不足，模態融合效果不佳
當前的方法在多模態資訊的融合上存在明顯不足，具體表現在：Prompt生成未結合影像資訊：現有的Prompt多依賴於預設的模板或外部的語言模型生成，未能根據輸入影像的內容動態調整，導致文字和影像模態之間的聯絡不足。視覺端的噪聲干擾：如VPT方法在視覺端引入可學習的token，但這些token與輸入影像的實際內容並無直接關係，無法根據影像的變化進行靈活調整。少樣本情況下，模型容易受到影像中的背景噪聲干擾，無法有效提取前景目標的資訊。
5.訓練集擬合與CLIP基礎模型泛化能力的平衡
現有的高效遷移學習方法在提高模型適應性的同時，往往會過度擬合訓練集，導致CLIP基礎模型的泛化能力下降。現有的解決方案主要有兩種，殘差學習方法：TaskRes、Dual-Adapter、Cluster-Adapter等方法透過在編碼器輸出上學習殘差，嘗試在擬合訓練集和保持模型泛化能力之間取得平衡。一致性正則方法：CoPrompt，在微調的過程中引入對比損失，保持微調後的模型與原始模型之間的特徵一致性，避免過度偏離原始模型的分佈。然而，這些方法在實際應用中仍需要在效能和泛化能力之間進行權衡，找到最佳的平衡點。
最後我認為未來的研究應該從以下幾個方向上展開：
1、平衡類別學習，減少偏差：未來可以探索新的損失函式或資料平衡策略，減少類別偏差。
2、統一訓練和測試策略：耦合訓練和測試時適應，減少對測試時偽標籤的依賴
3、降低模型複雜度，提高實用性：簡化模型結構，減少引數和超引數的數量。
4、加強模態融合，提升多模態協同效果：在Prompt生成和特徵提取過程中，充分利用影像和文字的模態資訊，增強多模態協同效果
5、保持模型的泛化能力，避免過度擬合：引入其他領域的方法，在微調的同時保持原始模型的泛化特性，避免過度擬合訓練集。

（隨手寫的，很多優秀的方法現在回看依然沒有寫上，如一致性正則的一些方法，以及一些最新的方法）

自然語言處理中的遷移學習(下)
2019-10-23
自然語言處理遷移學習
自然語言處理中的遷移學習(上)
2019-10-23
自然語言處理遷移學習
深入瞭解視覺語言模型
2023-03-01
視覺模型
DAAM：首次利用視覺語言學解釋大型擴散模型
2023-02-14
視覺模型
遷移學習系列---基於例項方法的遷移學習
2022-03-09
遷移學習
「深度學習系列」CNN模型的視覺化
2019-08-27
深度學習CNN模型視覺化
微調 Florence-2 - 微軟的尖端視覺語言模型
2024-07-15
微軟視覺模型
視覺語言兩開花！谷歌提出全新視覺語言橋樑
2020-09-22
視覺谷歌
如何用最強模型BERT做NLP遷移學習？
2019-02-03
模型遷移學習
谷歌130億引數多語言模型mT5來襲，101種語言輕鬆遷移
2020-11-12
谷歌模型
C語言：一種高效、易學的程式語言
2021-02-04
C語言
再無需從頭訓練遷移學習模型！亞馬遜開源遷移學習資料庫 Xfer
2019-02-01
遷移學習模型亞馬遜資料庫
什麼是遷移學習？什麼時候使用遷移學習？
2020-12-30
遷移學習
2024年6月計算機視覺論文推薦：擴散模型、視覺語言模型、影片生成等
2024-06-23
計算機視覺模型
Vokenization：一種比GPT-3更有常識的視覺語言模型
2020-11-17
GPT視覺模型
Facebook增強版LASER開源：零樣本遷移學習，支援93種語言
2019-01-24
遷移學習
遷移學習(Transfer Learning)
2022-08-15
遷移學習
基於VGG的遷移學習
2020-12-29
遷移學習
spaCy 學習第二篇：語言模型
2019-05-13
模型
為視覺語言多模態模型進行偏好最佳化
2024-07-16
視覺模型
如何高效橋接視覺和語言，位元組&中大提出全新多模態大模型聯結器ParGo
2025-01-11
橋接視覺大模型Go
站在巨人的肩膀上：遷移學習
2019-01-23
遷移學習
遷移學習中的BN問題
2020-11-03
遷移學習
快速實現地圖遷移資料視覺化
2018-12-19
地圖視覺化
深度學習+深度強化學習+遷移學習【研修】
2021-03-25
深度學習強化學習遷移學習
C語言學習方法，怎麼學習C語言？
2021-02-01
C語言
視覺學習（三）
2020-12-10
視覺
程式語言的變遷
2019-05-12
圖解BERT（NLP中的遷移學習）
2019-04-24
圖解遷移學習
激發創新，助力研究：CogVLM，強大且開源的視覺語言模型亮相
2023-11-21
視覺模型
Idefics2 簡介: 為社群而生的強大 8B 視覺語言模型
2024-05-15
IDE視覺模型
遷移學習基本原理
2019-12-11
遷移學習
[譯] TensorFlow 教程 #08 – 遷移學習
2019-03-04
遷移學習
深度學習不得不會的遷移學習Transfer Learning
2019-04-19
深度學習遷移學習
使用PyTorch進行主動遷移學習：讓模型預測自身的錯誤
2020-01-16
PyTorch遷移學習模型
模型微調-書生浦語大模型實戰營學習筆記&大語言模型5
2024-04-16
大模型筆記
深度學習之遷移學習介紹與使用
2018-10-24
深度學習遷移學習
機器學習：詳解遷移學習（Transfer learning）
2024-07-18
機器學習遷移學習

視覺語言模型的高效遷移學習

相關文章