前言 本文透過設計一種統一的微調策略來解決自注意力機制(Self-Attention Mechanism,SAM)在各種下游任務中表現次優的挑戰,以提升SAM在不同應用場景下的有效性。受基於旁路網路的微調方法的啟發,提出了雙流自注意力機制(Two-Stream SAM,TS-SAM),以在不同下游任務中統一微調SAM。
歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
本文轉載自計算機視覺工坊
僅用於學術分享,若侵權請聯絡刪除
CV方向的準研究生們,未來三年如何度過?
招聘高光譜影像、語義分割、diffusion等方向論文指導老師
0. 這篇文章幹了啥?
作為在超過1100萬張影像上進行預訓練的大型視覺模型,Segment-Anything Model(SAM)已引起研究人員的興趣。然而,最近的研究表明,SAM在包括偽裝目標檢測(Camouflaged Object Detection,COD)、陰影檢測和顯著目標檢測(Salient Object Detection,SOD)在內的下游任務中難以取得令人滿意的效能。
如何更好地將在大規模通用資料集上預訓練的大型模型適應於不同的下游任務,是大型模型應用中的一個關鍵問題。為解決這一問題,已存在大量關於引數高效微調(Parameter-Efficient Fine-Tuning,PEFT)的研究。一些方法採用輕量級的介面卡或提示(Prompt)來彌合通用大型模型與各種下游任務之間的差距。在訓練過程中,僅更新少量介面卡或提示引數,從而降低儲存和計算成本。最近,基於旁路網路的微調方法也受到了關注。該方法在大模型中新增一個輕量級的旁路網路,並在訓練過程中僅對旁路網路進行微調。旁路網路將大模型主幹網路提取的特徵調整為滿足下游任務的要求。
目前,已有一些工作嘗試使用PEFT對SAM進行微調。SAM-Adapter在SAM編碼器中引入了輕量級介面卡,提高了SAM在COD和陰影檢測任務上的效能。SSOM則利用固有的低秩結構對SAM進行自適應微調,從而提高了SAM在SOD任務上的效能。SAM-Adapter和SSOM都是探索SAM在下游任務中應用能力的開創性工作。然而,這些微調後的SAM與最近的特定領域模型之間仍存在顯著的效能差距。
在本文中,我們旨在透過設計一種統一的微調策略來解決自注意力機制(Self-Attention Mechanism,SAM)在各種下游任務中表現次優的挑戰,以提升SAM在不同應用場景下的有效性。受基於旁路網路的微調方法的啟發,我們提出了雙流自注意力機制(Two-Stream SAM,TS-SAM),以在不同下游任務中統一微調SAM。具體而言,我們設計了一個輕量級的卷積旁路介面卡(Convolutional Side Adapter,CSA),以輔助SAM在各種具有挑戰性的場景下執行。此外,根據分割任務的特點,我們提出了多尺度細化模組(Multi-scale Refinement Module,MRM),以提取影像的更精細位置特徵,從而實現更細粒度的分割。在解碼過程中,我們設計了特徵融合解碼器(Feature Fusion Decoder,FFD),以在解碼過程中整合不同尺度的特徵,從而產生更精細的分割結果。
下面一起來閱讀一下這項工作~
1. 論文資訊
標題:TS-SAM: Fine-Tuning Segment-Anything Model for Downstream Tasks
作者:Yang Yu, Chen Xu, Kai Wang
機構:天津大學
原文連結:https://arxiv.org/abs/2408.01835
程式碼連結:https://github.com/maoyangou147/TS-SAM
2. 摘要
為了提升自注意力機制(Self-Attention Mechanism,SAM)在下游任務中的效能,已對基於介面卡的微調方法進行了研究。然而,微調後的SAM與特定領域模型之間仍存在顯著的效能差距。為了縮小這一差距,我們提出了雙流自注意力機制(Two-Stream SAM,TS-SAM)。一方面,受引數高效微調(Parameter-Efficient Fine-Tuning,PEFT)中旁路網路的啟發,我們設計了一個輕量級的卷積旁路介面卡(Convolutional Side Adapter,CSA),該介面卡將SAM的強大特徵整合到旁路網路訓練中,以實現全面的特徵融合。另一方面,根據分割任務的特點,我們設計了多尺度細化模組(Multi-scale Refinement Module,MRM)和特徵融合解碼器(Feature Fusion Decoder,FFD),以同時保留詳細特徵和語義特徵。在來自三個任務的十個公共資料集上進行了大量實驗,結果表明,TS-SAM不僅顯著優於最近提出的SAM-Adapter和SSOM,而且與最先進的特定領域模型相比也取得了具有競爭力的效能。我們的程式碼可在以下網址獲取:https://github.com/maoyangou147/TS-SAM。
3. 效果展示
圖1展示了在COD10K資料集的部分影像上,所提出的TS-SAM與SAM、SAM-Adapter以及最先進(SOTA)的特定領域模型之間的比較,展示了TS-SAM的優越性。此外,TS-SAM是輕量級的,其ViT-h版本僅需要29.44M個可訓練引數,佔總模型引數量的4.4%,這使得不同下游任務僅需儲存少量引數副本。
4. 主要貢獻
本文的主要貢獻總結如下:
1)我們首次將旁路網路引入SAM的微調中。創新性地提出了雙流旁路網路結構,有效地從SAM編碼器中提取特徵。
2)我們針對分割任務提出了多尺度細化模組(MRM)和特徵融合解碼器(FFD)。這些模組透過高解析度的層次特徵獲取精細的目標位置資訊,並在解碼過程中充分融合這些資訊,以實現詳細的分割結果。
3)我們在來自三個任務(包括COD、陰影檢測和SOD)的十個公共資料集上評估了所提出的TS-SAM。實驗結果表明,TS-SAM在針對這些下游任務微調SAM的近期工作中表現顯著優於其他方法,甚至與專為每個任務設計的最先進(SOTA)特定領域模型相比也具有競爭力。
5. 基本原理是啥?
圖2(a)展示了所提出TS-SAM的總體架構。我們採用預訓練的SAM ViT作為主幹網路,併為下游任務的微調設計了一系列輕量級模組。給定一張影像I ∈ R^(3×H×W),透過SAM影像編碼器提取視覺特徵Fvit ∈ R^(C×H/16×W/16)。同時,透過堆疊的卷積旁路介面卡(CSA)逐層提取SAM影像編碼器的特徵,得到適應於下游任務的影像特徵Fcsa ∈ R^(C1×H/16×W/16)。為了從影像編碼器中提取更詳細的特徵,我們提出了多尺度細化模組(MRM)。MRM對上取樣來自影像編碼器各層的特徵嵌入,建立了一個層次化的特徵表示{Fk_mrm}^2_{k=1}。進一步地,一個輕量級的門控單元連續地將來自SAM影像編碼器較低層到較高層的特徵進行合併,從而收集更豐富的影像細節特徵。在解碼過程中,我們沒有使用SAM的掩碼解碼器,因為SAM解碼器需要如點或框等提示才能達到良好效果,而透過單次前向傳播分割多個目標具有挑戰性。因此,我們設計了輕量級的特徵融合解碼器(FFD),將層次化特徵表示{Fk_mrm}^2_{k=1}注入到從CSA獲得的特徵Fcsa中,以增強特徵表示,從而獲得精細的分割掩碼。FFD在Fcsa的上取樣過程中逐步合併層次化特徵表示,透過兩階段注入方法突出層次化特徵表示中的關鍵資訊。最後,為了降低訓練成本,在訓練過程中凍結SAM影像編碼器,僅訓練卷積旁路介面卡、多尺度細化模組和特徵融合解碼器,且這三個元件均為輕量級。
6. 實驗結果
表I展示了TS-SAM與SAM、SAM-Adapter以及當前最優的特定領域模型在四個常用COD資料集上的結果對比。我們的模型僅微調了4.4%的引數,並且沒有為該任務設計特定的模組,就在所有四個資料集上取得了具有競爭力的效能。特別是在兩個最大的資料集COD10K和NC4K上,TS-SAM在大多數指標上都取得了最佳結果。對於COD10K資料集,我們的模型在Sα和Fwβ上分別比次優方法SARNet高出3.3%和4.4%,並將MAE降低了19.0%。在NC4K資料集上,我們的模型在Sα、Fwβ和MAE上均達到了當前最優效能,並在Sα上比SARNet高出1.8%。這些結果充分證明了我們模型的強大泛化能力。
7. 總結 & 未來工作
本文中,我們專注於大型視覺模型SAM在下游任務中的高效微調。為了充分利用在大規模資料集上預訓練的SAM的優勢,我們引入了TS-SAM。我們首次將旁路網路的概念應用於SAM的微調中,透過輕量級的卷積旁路介面卡(CSA)實現。此外,根據分割任務的特點,我們設計了多尺度細化模組(MRM)和特徵融合解碼器(FFD),以從高解析度影像中提取詳細特徵。在三個下游任務上的實驗表明,我們的模型超越了現有的SAM高效微調方法,並且與為每個任務專門設計的最先進(SOTA)領域特定模型相比,也能達到具有競爭力的效能。
對更多實驗結果和文章細節感興趣的讀者,可以閱讀一下論文原文~
歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
計算機視覺入門1v3輔導班
【技術文件】《從零搭建pytorch模型教程》122頁PDF下載
QQ交流群:470899183。群內有大佬負責解答大家的日常學習、科研、程式碼問題。
其它文章
分享一個CV知識庫,上千篇文章、專欄,CV所有資料都在這了
明年畢業,還不知道怎麼做畢設的請抓緊機會了
LSKA注意力 | 重新思考和設計大卷積核注意力,效能優於ConvNeXt、SWin、RepLKNet以及VAN
CVPR 2023 | TinyMIM:微軟亞洲研究院用知識蒸餾改進小型ViT
ICCV2023|漲點神器!目標檢測蒸餾學習新方法,浙大、海康威視等提出
ICCV 2023 Oral | 突破性影像融合與分割研究:全時多模態基準與多互動特徵學習
聽我說,Transformer它就是個支援向量機
HDRUNet | 深圳先進院董超團隊提出帶降噪與反量化功能的單幀HDR重建演算法
南科大提出ORCTrack | 解決DeepSORT等跟蹤方法的遮擋問題,即插即用真的很香
1800億引數,世界頂級開源大模型Falcon官宣!碾壓LLaMA 2,效能直逼GPT-4
SAM-Med2D:打破自然影像與醫學影像的領域鴻溝,醫療版 SAM 開源了!
GhostSR|針對影像超分的特徵冗餘,華為諾亞&北大聯合提出GhostSR
Meta推出畫素級動作追蹤模型,簡易版線上可玩 | GitHub 1.4K星
CSUNet | 完美縫合Transformer和CNN,效能達到UNet家族的巔峰!
AI最全資料彙總 | 基礎入門、技術前沿、工業應用、部署框架、實戰教程學習
計算機視覺入門1v3輔導班
計算機視覺交流群