CVPR 2024 | 擅長處理複雜場景和語言表達,清華&博世提出全新例項分割網路架構MagNet

机器之心發表於2024-04-26

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

指代分割 (Referring Image Segmentation,RIS) 是一項極具挑戰性的多模態任務,要求演算法能夠同時理解精細的人類語言和視覺影像資訊,並將影像中句子所指代的物體進行畫素級別的分割。RIS 技術的突破有望在人機互動、影像編輯、自動駕駛等諸多領域帶來革命性變革。它能夠極大地提升人機協作的效率和體驗。儘管目前最先進的 RIS 演算法已經取得了顯著進展,但仍然面臨著模態差異 (modality gap) 的問題,即影像和文字特徵的分佈並未完全對齊。這一問題在處理複雜的指代語言表達和罕見語境時尤為突出。

圖片

圖 1:細粒度語言 - 影像對齊能力對 RIS 的重要性示意圖。紅色掩碼是目前最先進的 RIS 演算法之一 LAVT 的預測結果,而黃色虛線框則是正確的標註。

目前的 RIS 研究主要集中在設計新穎的損失函式或引入創新的網路架構 / 模組,以增強語言 - 影像的分佈對齊。儘管取得了顯著進展,但仍存在兩個根本性問題,導致它們在細粒度語言 - 影像對齊(Fine-grained Visual Grounding)方面能力不足:

1. 這些方法主要依賴於句子級別的語言特徵進行語言 - 影像對齊,導致它們在文字級別的語言 - 影像對齊能力較為薄弱。
2. 這些方法在訓練過程中往往缺乏顯式的監督訊號,無法有效地教會模型進行細粒度對齊,導致它們在處理複雜的指代語言時表現不佳。

圖片

圖 2:現有演算法的缺陷

在近期一篇 CVPR 2024 工作中,來自清華大學自動化系和博世中央研究院的聯合研究團隊設計了一種新的輔助任務 Mask Grounding。透過隨機掩碼部分文字詞彙,並讓演算法學習預測其真實身份,這一任務旨在顯式地教會模型學習文字與視覺物件之間的細粒度對應關係。除此之外,他們還提出了一個新穎的跨模態對齊模組(Cross-modal Alignment Module)和一個新穎的跨模態對齊損失函式 (Cross-modal Alignment Loss),來進一步全面縮小語言和影像之間的模態差距。基於這些技術,他們設計了一個全新的例項分割網路架構 Mask-grounded Network (MagNet)。

圖片

  • 論文標題:Mask Grounding for Referring Image Segmentation
  • 論文地址:https://arxiv.org/abs/2312.12198

在 RefCOCO、RefCOCO + 和 G-Ref 資料集上,MagNet 大幅超越了所有之前最優的演算法,在整體交併比 (oIoU) 這項核心指標上顯著提升了 2.48 個百分點。視覺化結果也證實,MagNet 在處理複雜場景和語言表達時具有出色的表現。

方法

MagNet 由 3 個獨立互補的模組組成,分別為 Mask Grounding,Cross-modal Alignment Module 和 Cross-modal Alignment Loss。

1.Mask Grounding

圖片

圖 3:Mask Grounding 流程圖

如圖 3 所示,在給定輸入影像、對應的指代表達以及分割掩碼的情況下,作者隨機選取句子中的某些詞彙,並將其替換為一個特殊的可學習掩碼 token。然後,訓練模型來預測這些被替換詞彙的實際身份。透過成功預測被掩碼 token 的身份,模型能夠理解文字中的哪些詞彙對應於影像的哪些部分,從而在此過程中學習細粒度語言 - 影像對齊能力。為了執行這一輔助任務,首先提取掩碼區域的中心座標,並將其傳遞給一個 2 層 MLP,以編碼分割掩碼的特徵。同時,使用線性層將語言特徵對映到與影像特徵相同的維度。然後,使用提出的掩碼 token 預測器聯合處理這些特徵,並使用注意力機制模組來進行掩碼 token 預測。雖然 Mask Grounding 需要透過語言編碼器進行額外的前向傳遞來處理被掩碼的表示式,但由於語言編碼器非常小,整體計算成本幾乎可以忽略不計。

2.Cross-modal Alignment Module (CAM)

圖片

圖 4:Cross-modal Alignment Module 結構圖

如圖 4 所示,為了進一步提升模型效能,作者還提出了跨模態對齊模組(CAM),透過在執行語言 - 影像融合之前將全域性上下文先驗注入影像特徵來增強語言 - 影像對齊效果。CAM 首先使用不同視窗大小的池化操作生成 K 個不同金字塔尺度的特徵圖。然後,每個特徵圖透過一個 3 層 MLP 以更好地提取全域性資訊,並與另一模態進行交叉注意力操作。接下來,所有輸出特徵透過雙線性插值上取樣到原始特徵圖尺寸,並在通道維度上拼接。隨後,使用一個 2 層 MLP 將拼接後的特徵通道數減少回原始維度。為了防止多模態訊號淹沒原始訊號,使用一個帶有 Tanh 非線性的門控單元來調製最終輸出。最後,這個門控後的特徵被加回到輸入特徵中,然後傳遞給影像或語言編碼器的下一階段。在作者的實現中,CAM 被加到影像和語言編碼器的每個階段末尾。

3.Cross-modal Alignment Loss (CAL)

圖片

圖 5:Cross-modal Alignment Loss 公式

為了監督模型對齊語言和影像特徵,作者提出了一種新穎的跨模態對齊損失函式 (CAL)。圖五展示了該損失函式的數學公式。與之前工作不同,CAL 同時考慮了畫素到畫素 (Pixel-to-Pixel,P2P) 和畫素到文字 (Pixel-to-Text,P2T) 之間的對齊。精確的畫素到畫素對齊能確保模型能分割輸出具有準確形狀和邊界的分割掩碼,而精確的畫素到文字對齊能使模型能夠正確地將文字描述與其匹配的影像區域進行合理的關聯。

實驗

在表 1 中,作者使用 oIoU 指標評估 MagNet,並與現有最先進的演算法做效能比較。測試資料為 RefCOCO、RefCOCO + 和 G-Ref。在單一和多個 / 額外資料集的設定下,MagNet 的效能在這些資料集上全都是 SOTA。

圖片

表 1:實驗結果

視覺化結果圖片
圖 6:MagNet 視覺化結果

在圖 6 中,我們可以看到,MagNet 的視覺化結果也非常突出,在許多困難的場景中都比對比基準 LAVT 強很多。

小結

這篇文章深入探討了指代分割(RIS)領域的挑戰和當前存在的問題,特別是在細粒度語言 - 影像對齊方面的不足。針對這些問題,清華大學和博世中央研究院的研究人員提出了一種新的方法,名為 MagNet,透過引入輔助任務 Mask Grounding、跨模態對齊模組和跨模態對齊損失函式,全面提升了語言和影像之間的對齊效果。實驗證明,MagNet 在 RefCOCO、RefCOCO + 和 G-Ref 資料集上均取得了顯著優異的效能,超越了之前最先進的演算法,表現出了強大的泛化能力。視覺化結果也證實了 MagNet 在處理複雜場景和語言表達時的優越性。這一研究為指代分割領域的進一步發展提供了有益的啟示,有望推動該領域取得更大的突破。

團隊介紹

此論文來源於清華大學自動化系(https://www.au.tsinghua.edu.cn)和博世中央研究院(https://www.bosch.com/research/)。其中論文一作莊榮賢為清華大學在讀博士生,並在博世中央研究院實習;專案負責人為邱旭衝博士,任博世中央研究院資深研發科學家;通訊作者為清華大學自動化系黃高教授。

相關文章