2024.11多模態學習月報

陈用饼發表於2024-12-01

2024年11月學習月報

SegEarth-OV

SegEarth-OV是面向遙感影像的開放詞彙語義分割模型。SegEarth-OV的模型架構為CLIP,並且採用SimFeatUp作為上取樣器。由於FeatUp中的上取樣器和下采樣器都是可學習的,所以難以保證HR特徵完整。於是在SimFeatUp中引入了一個額外的圖片重建損失來約束HR特徵。透過新增一個CRN(內容保留網路)來重建圖片。用時在patch中減去了'[cls]'以減輕全域性誤差。

PromptKD

主要思想

Reuse教師模型的Text Feature,只訓練學生模型的Image Encoder。將教師模型產生的對應類別的text feaure儲存下來,再與學生模型的Image Feature相乘得到Logits。
採用離散的可學習Prompt:{v1,v2,v3,v4,...,ci},提高正確率。

解決的問題

  1. 節省計算量,避免Text Feature的重複計算。
  2. 解決資料量限制問題,可以用大量的無標籤的資料來訓練學生模型。

RAR

方法

檢索器

使用 CLIP 模型提取影像和文字的多模態嵌入。構建一個外部記憶庫,將類別的嵌入儲存在顯式記憶體中。輸入影像時,檢索器從記憶庫中提取與輸入影像最相似的top-k類別。

排序器

使用 MLLM(如 LLaVa 或 GPT4-Vision)對檢索的類別進行重新排序。MLLM透過上下文提示(Prompt)結合內建知識,對類別進行語義級別的細粒度分析,生成最終預測結果。

效果

RAR 方法在細粒度分類、少樣本學習和零樣本檢測任務上實現了顯著的效能提升,同時保持高效和通用性,為多模態視覺識別任務提供了更強的工具。

LSeg(多模態語義分割模型)

方法

將圖片([W,H,C]),類別文字([N,C])進行編碼,在通道維度計算餘弦相似度,得到文字引導後的圖片特徵([W,H,N]),最後將特徵圖恢復到原圖大小。

GroupViT(多模態語義分割模型)

Idea

引入了可學習的gruop tokens,與圖片tokens一起進行注意力計算,學習圖片特徵,與文字特徵進行對比學習。透過上面對比學習後,透過求解類別文字和影像區域的相似度,為特定區域分配其相似度最高的類別。

GLIP

方法(多模態目標檢測模型)

透過RNP(區域候選網路)獲取候選框,候選框內的圖片經過圖片編碼器處理提取特徵。損失由兩部分組成,一部分是分類損失,類似CLIP,與prompt文字特徵進行對比損失計算,prompt由多個類別phrase組成。另一部分是框的迴歸損失。

深度融合

透過多模態多頭注意力機制對文字和圖片特徵進行多層的深度融合,使模型學習到更深層次的語義資訊,並在下游任務上具有更好的應用。

相關文章