視覺Mamba的多向掃描策略真的有效嗎?

CV技术指南(公众号)發表於2024-05-18
前言 本文對主流的掃描方向及其組合對遙感影像語義分割的影響進行了全面的實驗研究。透過在LoveDA、ISPRS Potsdam和ISPRS Vaihingen資料集上廣泛的實驗,我們證明了無論其複雜性或掃描方向的數量,沒有一個掃描策略能夠顯著優於其他策略。所以對於高解析度遙感影像的語義分割,簡單的單一掃描方向已經足夠。

本文轉載自CVer

僅用於學術分享,若侵權請聯絡刪除

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

CV方向的準研究生們,未來三年如何度過?

招聘高光譜影像、語義分割、diffusion等方向論文指導老師

視覺Mamba的多向掃描策略真的有效嗎?

論文標題:Rethinking Scanning Strategies with Vision Mamba in Semantic Segmentation of Remote Sensing Imagery: An Experimental Study

原文連結:

單位:西交利物浦大學、CSIRO(澳大利亞科學與工業研究院)

01 背景介紹

視覺Mamba的多向掃描策略真的有效嗎?

圖1. Vision Mamba中常用的12種掃描方向。影像根據預設定的大小裁剪成patches,然後根據特定的掃描方向將這些patches建模為序列。

Mamba是一個基於狀態空間模型(SSM)的網路,最初應用於大型語言模型。Mamba 作為一個類似於迴圈神經網路的序列網路,能夠歸納先前資訊並預測後續狀態。透過引入選擇性機制來選擇性地關注或忽略輸入,它有效地壓縮了長期上下文資訊。在應用於視覺任務時,該網路能夠兼顧全域性感受野和線性複雜度,這表明它在遙感影像分割中具有很大潛力。

借鑑了ViT將Transformer架構引入視覺任務的成功經驗,大量研究成功地將Mamba整合到影像處理任務中。類似於ViT將影像裁剪成patch並展開以輸入Transformer模型的方式,Mamba將影像patch作為序列進行處理。然而,與ViT不同的是,ViT能夠在這些影像patch之間計算多頭自注意力,而Mamba則順序的處理影像patch。因此,有許多可用的影像patch的掃描方向。

大量研究探索了新的掃描方向及其組合,試圖增強Mamba對影像理解的效能。圖1展示了12種常用的掃描方向(D1 - D12)。D1 - D4 是以“Z”字形模式順序掃描影像patch的每一行或每一列。D5 - D8 是對影像patch進行對角線方向的順序掃描。D9 - D12 則進行“S”字形蛇形掃描。然而,現有研究尚未全面比較其有效性。因此,亟需一項比較研究,定量評估各種掃描方向及其組合對Mamba在典型遙感任務(語義分割)效能的影響。

02 相關工作

視覺Mamba的多向掃描策略真的有效嗎?

圖2. (a) 平鋪掃描策略,與Samba一致;(b) 平鋪後進行正向和反向掃描,然後合併,與Vim一致;(c) 依次進行四個方向的掃描,然後合併,與VMamba一致;(d) 四個方向的蛇形掃描,與PlainMamba一致。

由於Mamba是一個序列網路,無法直接處理二維影像資料,因此探索將影像序列化的方法是有意義的。Vim進行了首次嘗試,其方法與ViT相似,將影像裁剪成patch並展開。它對影像patch進行正向(D1)和反向(D2)掃描,然後合併,如圖2(b)所示。類似地,VMamba在ViM的基礎上增加了兩個垂直掃描方向(D3,D4),如圖2(c)所示。PlainMamba採用了蛇形掃描方法(D8,D9,D10,D11),如圖3(d)所示。這些嘗試都是基於一個假設,即不同的影像patch掃描方向可能會增強Mamba對影像的理解。然而,目前仍缺乏在不同掃描方向下對模型效能進行全面和定量的比較。

隨著Vision Mamba的不斷髮展,許多研究評估了其在語義分割任務中的表現,特別是在醫學和遙感領域。U-Mamba是首次將Mamba與UNet架構結合,用於醫學影像語義分割的嘗試。隨後,基於Vim的雙向掃描和VMamba的四向掃描的工作相繼出現。在遙感領域,Samba是第一個將Mamba引入遙感影像語義分割的研究,其中影像patch按照與ViT相同的方式展開,如圖2(a)所示。之後,RS3Mamba使用VMamba的四向掃描方法構建了輔助編碼器,用於語義分割。類似地,RSMamba在VMamba的四向掃描基礎上,在其編碼器-解碼器架構中增加了四個額外的對角線方向(即D5、D6、D7和D8)。

03 實驗

視覺Mamba的多向掃描策略真的有效嗎?

圖3. 實驗框架的總體架構。

為了全面評估掃描策略對Mamba在高解析度影像語義分割任務中表現的影響,我們設計了一個特定的語義分割框架,使用編碼器-解碼器架構以便於對掃描策略進行定量比較。整體框架如圖3左側所示。在編碼器部分,影像被裁剪成patch,然後依次輸入四個Vision Mamba Scan (VMS)模組進行漸進式降取樣。為了確保實驗的公平性,我們一致使用UperNet作為解碼器來生成分割結果。VMS模組是一個帶有跳躍連線的殘差網路。殘差網路由兩個分支組成。一個分支使用深度卷積(DW Conv)層來提取特徵,對各個方向的掃描進行S6計算,然後進行合併。另一個分支則由線性對映和啟用層組成。雖與Mamba相似,該架構在影像掃描形式上存在一個關鍵區別,稱為8方向掃描(8D Scan)模組,如圖3右側所示。由於我們實驗中考慮的掃描方向數量從1(即單向)到8(即8個單獨掃描方向的組合),我們在8D Scan模組中設計了8個潛在的掃描方向:Dn1、Dn2、Dn3、……、Dn8。

視覺Mamba的多向掃描策略真的有效嗎?

圖4. 掃描策略的實驗設定

圖4展示了我們實驗中測試的22種掃描策略,包含了主流的掃描策略的方法。實驗設定詳見原文。

04 結果

視覺Mamba的多向掃描策略真的有效嗎?

表1. 不同掃描策略在Vaihingen資料集的分割表現。

視覺Mamba的多向掃描策略真的有效嗎?

表2. 不同掃描策略在Potsdam資料集的分割表現。

視覺Mamba的多向掃描策略真的有效嗎?

表3. 不同的掃描策略在LoveDA資料集的分割表現。

表1、2和3分別展示了使用圖4中詳細描述的22種掃描策略在ISPRS Vaihingen、ISPRS Potsdam和LoveDA資料集上的語義分割表現。我們在三個資料集中觀察到一個有趣的現象:由22種掃描策略得到的分割準確率都是相似的。考慮到每個資料集中不同掃描策略之間的微小效能差異,以及單個掃描策略在三個資料集中的效能變化,沒有明顯的跡象表明特定的掃描策略在複雜性或涉及單個或多個掃描方向上優於其他策略。觀察到的任何輕微效能波動可能都歸因於訓練過程中的隨機性。基於結果的詳細討論以及未來工作詳見論文。

05 結論

本研究在ISPRS Vaihingen、ISPRS Potsdam和LoveDA資料集上,定量研究了22種掃描策略對基於Mamba方法的高解析度遙感影像語義分割的影響。實驗結果表明,無論是單向掃描方向還是其組合,各種掃描策略並未在分割準確率上帶來明顯提升。因此,對於遙感影像,簡單的平鋪方法在基於Mamba的方法中已足夠。然而,多方向掃描方法在常規影像中的有效性仍需驗證。我們的研究還發現,減小步長可以提高Mamba在語義分割中的表現,但代價是增加計算資源的消耗。因此,開發更高效的計算方法以支援更密集的掃描是有價值的。

參考文獻:

[1] Zhu, Q., Fang, Y., Cai, Y., Chen, C., & Fan, L. (2024). Rethinking scanning strategies with vision Mamba in semantic segmentation of remote sensing imagery: An experimental study.

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

計算機視覺入門1v3輔導班

【技術文件】《從零搭建pytorch模型教程》122頁PDF下載

QQ交流群:470899183。群內有大佬負責解答大家的日常學習、科研、程式碼問題。

其它文章

分享一個CV知識庫,上千篇文章、專欄,CV所有資料都在這了

明年畢業,還不知道怎麼做畢設的請抓緊機會了

LSKA注意力 | 重新思考和設計大卷積核注意力,效能優於ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微軟亞洲研究院用知識蒸餾改進小型ViT

ICCV2023|漲點神器!目標檢測蒸餾學習新方法,浙大、海康威視等提出

ICCV 2023 Oral | 突破性影像融合與分割研究:全時多模態基準與多互動特徵學習

聽我說,Transformer它就是個支援向量機

HDRUNet | 深圳先進院董超團隊提出帶降噪與反量化功能的單幀HDR重建演算法

南科大提出ORCTrack | 解決DeepSORT等跟蹤方法的遮擋問題,即插即用真的很香

1800億引數,世界頂級開源大模型Falcon官宣!碾壓LLaMA 2,效能直逼GPT-4

SAM-Med2D:打破自然影像與醫學影像的領域鴻溝,醫療版 SAM 開源了!

GhostSR|針對影像超分的特徵冗餘,華為諾亞&北大聯合提出GhostSR

Meta推出畫素級動作追蹤模型,簡易版線上可玩 | GitHub 1.4K星

CSUNet | 完美縫合Transformer和CNN,效能達到UNet家族的巔峰!

AI最全資料彙總 | 基礎入門、技術前沿、工業應用、部署框架、實戰教程學習

計算機視覺入門1v3輔導班

計算機視覺交流群

相關文章