文章資訊
標題
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion
會議及時間
CVPR2023
主要內容
為了解決建模跨模態特徵和分解期望模態特有和模態共有特徵的挑戰,本文提出了一種用於多模態影像融合的雙分支Transformer-CNN架構CDDFuse,透過結合Transformer和CNN的優勢,實現了多工多模態影像的有效融合。在Restormer、Lite transformer和可逆神經網路塊的幫助下,更好地提取了特有模態和共有的特徵,並透過提出的相關驅動分解損失對它們進行了更直觀有效的分解。實驗證明了CDDFuse的融合效果,也提高了下游多模態模式識別任務的準確率。
貢獻點&創新點
我們提出了一種雙分支Transformer-CNN框架,用於提取和融合全域性和區域性特徵,從而更好地反映出獨特的模態特定和模態共享特徵。
現有的問題
- CNN的內部工作機制難以控制和解釋,導致交叉模態特徵提取不足。
- 上下文無關的CNN只能提取相對較小感受野範圍內的區域性資訊,很難提取用於生成高質量融合影像所需的全域性資訊。
- 融合網路的前向傳播往往會導致高頻資訊的丟失
- Transformer全域性資訊捕獲能力強,但計算複雜度高
本文的方法
本文提出將CNN的區域性上下文提取和計算效率的優勢與Transformer的全域性關注和遠端依賴建模的優勢相結合來完成MMIF任務。
改進了CNN和Transformer模組,以更好地適應MMIF任務
本文的方法
首次利用INN模組進行無損資訊傳輸,並使用LT模組在融合質量和計算成本之間進行權衡。
考慮到細節特徵中的邊緣和紋理資訊對於影像融合任務非常重要,我們希望DCE中的CNN架構能儘可能地保留更多的細節資訊。INN 模組是透過可逆性設計讓輸入和輸出特徵的相互生成來防止資訊丟失,符合融合影像中保留高頻特徵的目標。因此,它可以被看作是一個無損特徵提取模組,在這裡非常適用。因此,我們採用了具有仿射耦合層的INN塊。
提出了一個相關驅動的分解損失函式來強制模態共享/特定特徵分解
提出了一個統一的測量基準來證明IVF融合影像如何促進下游MM目標檢測和語義分割任務
方法
論文假設是,在MMIF任務中,兩個模態的輸入特徵在低頻時是相關的,代表模態共享的資訊,而高頻特徵是不相關的,代表各自模態的獨特特徵。
CDDFuse包含四個模組,即雙分支編碼器用於特徵提取和分解,解碼器用於重建原始影像(在訓練階段I)或生成融合影像(在訓練階段II),以及基礎/細節融合層分別用於融合不同頻率的特徵。
訓練階段1的作用是利用配對的紅外影像和可見光影像進行訓練,以提取淺層特徵和分解不同模態的特徵。在這個階段,我們將紅外影像和可見光影像輸入到SFE(特徵提取器)中,提取淺層特徵。然後,我們使用基於LT塊的BTE(低頻特徵提取器)和基於INN的DCE(高頻特徵提取器)來分別提取低頻基礎特徵和高頻細節特徵。
編碼器
編碼器有三個組成部分:基於Restormer塊[80]的Shared Encoder(SFE),基於Lite Transformer(LT)塊[67]的Base transformer encoder(BTE)和基於可逆神經網路(INN)塊[13]的Detail CNN encoder(DCE)。BTE和DCE一起構成了長短距離編碼器。
SFE
共享特性編碼器,旨在從紅外和可見光輸入中提取淺層特徵。
在SFE中使用Restormer block的原因是利用維度間的自注意力機制提取全域性特徵,因此可以不增加算力的情況下提取跨模態淺層特徵。因此,它可以提取跨模態淺層特徵,而不會增加太多的計算。
BTE
BTE是從共享特徵中提取低頻基特徵
為了提取遠距離依賴特徵,我們使用了具有空間自注意力的Transformer。
考慮到平衡效能和計算效率,我們使用Lite Transformer塊(LT塊)作為BTE的基本單元。透過扁平化前饋網路的結構,將Transformer塊的瓶頸部分展平,LT塊縮小了嵌入維度,從而減少了引數數量,同時保持了相同的效能,滿足了我們的期望。
DCE
DCE從共享特徵中提取高頻細節資訊
考慮到細節特徵中的邊緣和紋理資訊對於影像融合任務非常重要,我們希望DCE中的CNN架構能夠儘可能多
地保留細節資訊。INN[13]模組透過使輸入資訊的輸入和輸出特徵相互生成,使輸入資訊得到更好的儲存。因
此,它可以被看作是一個無損的特徵提取模組,非常適合在這裡使用具有仿射耦合層的INN塊
融合層
基礎/細節融合層的功能是分別融合基礎/細節特徵
基礎特徵融合層採用Lite Transformer塊,細節特徵融合層採用INN塊
解碼器
將分解後的特徵拼接在通道維中作為輸入,原始影像(訓練階段I)或融合後的影像(訓練階段II)作為解碼器的輸出
由於這裡的輸入涉及跨模態和多頻率特徵,因此我們使解碼器結構與SFE的設計保持一致,即使用Restormer塊作為解碼器的基本單元。
兩階段訓練
MMIF任務面臨的一個重要挑戰是缺乏準確的真實標籤,因此傳統的監督學習方法效果有限。
因為訓練目標不同,一階段為了重構原圖(訓練AE),二階段為了融合(訓練AE+融合層);encoder和decoder是繼續訓練的。
Lir和Lvis為紅外和可見光影像的重建損失,Ldecomp為特徵分解損失,α1和α2為調優引數。重建損失主要保證影像中包含的資訊在編碼和解碼過程中不丟失
SSIM(·,·)為結構相似度指數
實驗
度量指標
我們使用熵(EN)、標準差(SD)、空間頻率(SF)、互資訊(MI)、差異相關和(SCD)、視覺資訊保真度(VIF)、QAB/F
和結構相似性指數(SSIM)八個指標來定量測量融合結果。度量越高,表明融合影像越好。
下游任務
紅外可見目標檢測
語義分割
醫學影像融合
收穫&想法
- 在網路架構設計中,可以採用不同架構模型的多個分支的思想,從而成為提升影像融合效果的新思路
- 文中使用了一個兩階段的學習方案來端到端訓練CDDFuse,提供了一種結合兩階段和端到端的思路
- 學習了定量測量多源影像融合效果的8個指標指標
術語&科普
消融實驗
在深度學習中,消融實驗(Ablation Study)是一種用來評估模型不同部分對整體效能貢獻的實驗方法。透過逐步移除或修改模型的某些元件或輸入特徵,觀察其對模型最終效果的影響,消融實驗可以幫助研究人員和工程師理解哪些元件、特徵或超引數對模型的效能至關重要,哪些則可以忽略或簡化。
具體步驟
- 選擇元件:確定要分析的模型部分或特徵,例如某些網路層、特定的啟用函式、正則化方法等。
- 逐步移除或替換:分別移除或替換這些元件,並重新訓練或測試模型,確保每次只有一個因素髮生變化。
- 觀察效能變化:比較每次變動後的模型效能與完整模型的效能差異,從而判斷該元件或特徵對整體模型的影響大小。
- 總結分析:根據效能變化結果,判斷每個元件或特徵的必要性,進一步最佳化模型結構或簡化設計。
舉例說明
假設你有一個卷積神經網路(CNN)用於影像分類任務,包含多層卷積層、池化層和全連線層。你可以設計一個消融實驗,逐步移除某些卷積層、池化層或更改啟用函式,然後觀察分類準確率的變化,從而分析哪部分對模型效果影響最大。
作用
- 識別重要元件:明確哪些模型元件對效能貢獻最大,有助於最佳化模型結構。
- 降低模型複雜度:透過去除不必要的元件,減少模型的計算資源消耗。
- 提供模型解釋:更好地理解模型的工作原理,提高模型的透明度和可解釋性。
消融實驗廣泛應用於深度學習的研究和工程實踐中,是驗證和最佳化模型的重要手段之一。
IoU(Intersection over Union,交併比)
是一種常用來衡量預測結果和真實標籤之間重疊程度的指標。它在計算機視覺任務中非常常見,尤其是在目標檢測和影像分割中。
IoU的值介於0和1之間:
- 當IoU = 1時,說明預測和真實區域完全重合。
- 當IoU = 0時,說明預測和真實區域完全不重疊。
應用場景
- 目標檢測:在目標檢測任務中,IoU被用來評估預測的邊界框與真實框的重疊程度。當IoU超過某個閾值(例如0.5)時,預測框通常被認為是正確的檢測。
- 影像分割:在語義或例項分割任務中,IoU評估預測分割區域與真實分割區域的重疊度。較高的IoU表示更精確的分割結果。
IoU作為一種評價指標的優點在於它能夠較為準確地反映出預測區域與真實區域的重疊情況,具有較強的魯棒性,因此在實際應用中被廣泛採用。
INN可逆神經網路
INN(Invertible Neural Networks)是一種特殊的神經網路模型,具有輸入到輸出、輸出到輸入的雙向對映能力。INN的結構設計使其變換過程完全可逆,即在不丟失資訊的前提下,可以從輸出重建輸入。這種特性非常適合於資料生成、分佈轉換和多模態影像融合等任務。
核心特點
- 可逆性:INN的每一層都遵循可逆變換設計,即對於任意輸入𝑥,輸出𝑦可以透過同樣的網路反向傳遞得到輸入。這種特性依賴於每一層操作的巧妙構建,如加性耦合層或仿射耦合層。
- 精確重構:在正向傳播得到輸出後,INN能夠無損地重構輸入,因此在影像生成、資料壓縮和多模態資料融合中優勢顯著。
- 高效計算雅可比行列式:為了保證模型的可逆性,INN的層設計一般是針對快速計算雅可比行列式進行最佳化的,如透過耦合層設計降低計算複雜度,適合無監督密度估計。
基本結構
INN通常透過耦合層(Coupling Layers)實現雙向傳遞。典型的耦合層結構將輸入分為兩部分,一部分保持不變,另一部分基於固定部分進行仿射或非線性變換。例如,輸入𝑥分為𝑥1和𝑥2兩部分,透過對𝑥1應用簡單函式並對𝑥2施加變換達到可逆性。
- 仿射耦合層:這種耦合層將一部分輸入透過可學習函式生成縮放和平移引數,對另一部分進行仿射變換。
- 加性耦合層:加性耦合僅對輸入加偏移值,適用於需要快速反向操作的情況。
應用領域
- 無監督密度估計和資料生成:由於INN能夠學到資料的隱空間分佈,因此適合生成對抗網路(GAN)或流模型(Normalizing Flow)中的密度估計問題。
- 影像到影像的翻譯:INN透過學習輸入和輸出的雙向對映,在多模態影像翻譯中如醫學影像(CT-MRI轉換)、可見光-紅外轉換中應用廣泛。
- 多模態資料融合:利用INN的雙向對映特性,不同模態的資料可以相互轉換,從而實現多模態資料融合。
- 逆問題求解:INN還用於解決如影像復原和超解析度等逆問題,允許透過一個方向生成變換,反向生成更清晰的影像或高解析度影像。
優勢和挑戰
資訊保留性強:由於可逆性,INN避免了資訊損失問題。
無監督學習:INN不依賴監督標籤,可直接對資料分佈進行建模。
網路設計複雜:可逆性限制了層的設計,使得設計複雜。
計算代價高:雖然INN具有可逆性,但在深層網路中對儲存和計算資源有較高要求。