Text Augmented Spatial-aware Zero-shot Referring Image Segmentation論文閱讀筆記(EMNLP23 Findings)

脂环發表於2024-09-05

Motivation & Method

關注的任務為zero-shot referring image segmentation,模型無法獲得pixel-level的分割標註。之前的方法通常使用預訓練的多模態模型如CLIP,然而CLIP使用影像文字對進行訓練,難以做到image local patch與referring sentence的細粒度對齊。為此作者提出了TAS。TAS包含了一個mask proposal network用於提取instance level的mask,一個用於挖掘影像-文字相關性的文字增強視覺-文字匹配分數,以及一個用於mask後處理的空間校正器。三個資料集的結果表明方法取得了sota。

Method

截圖2024-09-02 17.43.44

Mask Proposal Network

直接將CLIP用於密集預測任務效果不好,可以採用分階段提取mask+masked image-text matching的方式。以前的工作利用 FreeSOLO(類別無關的例項分割網路)來獲取所有掩碼。然而最近提出的SAM在分割單個物件方面表現出強大的效能,特別是對於遮擋等場景而言。因此文章中的mask proposal network選擇了SAM。

Text-augmented visual-text matching score

mask proposal network提供的mask並不包含語義資訊,一種方法是使用masked image與text計算score,然而CLIP可能不適用於細粒度的region-text matching,且masked image與natural image可能存在domain gap。為此作者使用補充文字挖掘區域資訊,引入了一個由 V 分數、P 分數和 N 分陣列成的文字增強視覺-文字匹配分數。

V-score。給定三通道RGB影像與一個referring expression,SAM首先提取若干個binary mask,將每個mask施加到影像上,對前景部分裁剪然後送入CLIP visual encoder,使用提取得到的visual feature與text feature計算cosine similarity。

P-score。如前所述,natural image和masked image之間的domain gap影響視覺-文字對齊。為此作者引入P-score,藉助captioning model提升對齊的質量。具體做法是透過一個captioning model為masked image生成一個互補的caption,之後計算P scpre:

截圖2024-09-05 00.18.47

N-score。N score主要是針對影像中與參考表述無關的情況。為了挖掘不相關的表達,作者首先為輸入影像生成一個總體描述,總體描述總結了影像中的所有物體,然後使用spaCy從描述中提取名詞短語,並將它們視為潛在的負面表達。同時,在指代表達中可能存在指示同一物體的短語。為了避免這種情況,作者使用WordNet消除包含指代表達中主體同義詞的短語。具體做法是計算兩個同義詞集的路徑相似度來決定是否消除同義詞。截圖2024-09-05 00.37.41

最終的分數以及mask選擇:截圖2024-09-05 00.42.37

Spatial Rectifier

CLIP的訓練過程無法使其理解參考表述的空間關係。為此,作者提出了一個基於規則的空間解析器用於後處理,強制框架從特定區域選擇遮罩。該過程可以分解為三個步驟:方向描述識別、位置計算和空間校正。

方向描述識別。首先透過spaCy提取指代表達Tr的主題的描述性詞彙,並檢查是否有“上、下、左、右”等方向詞。如果在描述性詞彙中沒有發現方向詞,則不應用空間校正。

位置計算。其次,為了空間校正預測,需要每個mask proposal的位置資訊。每個mask的中心點被用作位置的代理。具體來說,每個遮罩的中心點位置是透過平均所有前景畫素的座標來計算的。

空間校正。在獲得中心點位置後選擇在相應方向區域下總體得分S最高的mask。

實驗

截圖2024-09-05 00.59.07

相關文章