超越CVPR 2024方法,DynRefer在區域級多模態識別任務上,多項SOTA

机器之心發表於2024-06-20

為了實現高精度的區域級多模態理解,本文提出了一種動態解析度方案來模擬人類視覺認知系統。

本文作者來自於中國科學院大學LAMP實驗室,其中第一作者趙毓鍾是中國科學院大學的2023級博士生,共同一作劉峰是中國科學院大學2020級直博生。他們的主要研究方向是視覺語言模型和視覺目標感知

簡介

DynRefer 透過模擬人類視覺認知過程,顯著提升了區域級多模態識別能力。透過引入人眼的動態解析度機制,DynRefer 能夠以單個模型同時完成區域識別、區域屬性檢測和區域字幕生成(region-level captioning)任務,並在上述任務都取得 SOTA 效能。其中在 RefCOCOg 資料集的 region-level captioning 任務上取得了 115.7 CIDEr,顯著高於 RegionGPT,GlaMM,Osprey,Alpha-CLIP 等 CVPR 2024 的方法。

圖片

  • 論文標題:DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
  • 論文連結:https://arxiv.org/abs/2405.16071
  • 論文程式碼:https://github.com/callsys/DynRefer

圖片

動機

區域級多模態任務致力於將指定的影像區域轉換為符合人類偏好的語言描述。人類完成區域級多模態任務時具有一種解析度自適應能力,即關注區域是高解析度的,非關注區域是低解析度的。然而,目前的區域級多模態大語言模型往往採用固定解析度編碼的方案,即對整張影像進行編碼,然後透過 RoI Align 將區域特徵提取出來。這種做法缺乏人類視覺認知系統中的解析度自適應能力,對關注區域的編碼效率和能力較低。為了實現高精度的區域級多模態理解,我們提出了一種動態解析度方案來模擬人類視覺認知系統,如下圖所示。

圖片

圖 1:傳統的區域級多模態方法(左)與 DynRefer 方法(右)的比較。

方法

1、模擬動態解析度的影像(Multi-view construction)。由於主流的預訓練視覺語言模型(CLIP)只能接收均勻解析度的輸入,我們透過構造多個均勻解析度的檢視來模擬一幅動態解析度影像。該影像在指代區域具有高解析度,而在非指代區域低解析度。具體流程如圖 2 上。原始影像 x 被裁剪並調整大小為多個候選檢視。裁剪區域的計算方式為 圖片,其中圖片。這裡的圖片表示參考區域的邊界框,圖片表示整個影像的尺寸,t 表示插值係數。在訓練過程中,我們從候選檢視中隨機選擇 n 個檢視,以模擬由於注視和眼球快速運動而生成的影像。這些 n 個檢視對應於插值係數 t,即圖片。我們固定保留僅包含參考區域的檢視(即圖片)。經實驗證明該檢視有助於保留區域細節,對於所有區域多模態任務都至關重要。

圖片

圖 2:DynRefer 訓練(上)與 推理(下)。

2、隨機動態檢視嵌入(Stochastic Multi-view Embedding)。具體流程如圖 3 所示。取樣的 n 個檢視透過凍結的 CLIP 編碼成空間特徵,然後經過 RoI-Align 模組處理,以獲取區域嵌入,即圖片。如圖 3 左側所示。由於裁剪、調整大小和 RoI-Align 引入的空間誤差,這些區域嵌入在空間上並不對齊。受 deformable convolution 操作啟發,我們提出了一個對齊模組,透過將 圖片對齊到 圖片來減少偏差,其中 圖片是僅包含參考區域的檢視編碼的區域嵌入。對於每個區域嵌入圖片,首先將其與 圖片連線,然後透過卷積層計算一個二維偏移圖。圖片的空間特徵然後根據二維偏移重新取樣。最後,對齊後的區域嵌入沿通道維度連線並透過 linear 層進行融合。輸出進一步透過視覺重取樣模組,即 Q-former,進行壓縮,從而提取原始影像 x 的參考區域 圖片的區域表示(圖 3 中的圖片)。

圖片

圖 3:DynRefer 網路結構

3、視覺語言對齊 (Vision-language Alignment)。透過隨機多檢視嵌入模組計算得到的區域表示圖片,由三個解碼器圖片解碼,如圖 3(右)所示,分別受三個多模態任務的監督:

i) 影像區域標籤生成。我們採用基於查詢的輕量級識別解碼器進行區域標籤生成。解碼器 圖片 如圖 3(右側)所示。透過使用標籤作為查詢圖片作為鍵和值,計算預定義標記的置信度來完成標記過程。我們從真值字幕中解析出標籤,以監督識別解碼器。ii) 區域 - 文字對比學習。類似於區域標記解碼器,解碼器 圖片定義為基於查詢的識別解碼器。該解碼器計算字幕與區域特徵之間的相似性分數,使用 SigLIP loss 進行監督。iii) 語言建模。我們採用預訓練的大語言模型 圖片將區域表示 圖片轉換為語言描述。

圖片

圖 4:雙檢視(n=2)DynRefer 模型在區域級多模態任務上的表現。在不同的插值係數 t 下,圖片。檢視一是固定的(圖片),檢視二隨機選擇或固定。

4、在推理過程中,經過訓練的 DynRefer 模型透過動態解析度在影像上執行多模態任務。透過調整取樣的 n 個檢視的插值係數圖片,我們可以得到具有動態解析度特性的區域表示。為了評估不同動態解析度下的特性,我們訓練了一個雙檢視(n=2)的 DynRefer 模型,並在四個多模態任務上進行評估。從圖 4 中的曲線可以看出,對於沒有上下文資訊的檢視(圖片),屬性檢測(Attribute detection)獲得了更好的結果。這可以解釋為這種任務通常需要詳細的區域資訊。而對於區域級字幕(Region-level captioning)和密集字幕生成(Dense captioning)任務,需要上下文豐富的檢視( 圖片),以便完整理解參考區域。需要注意的是,過多上下文的檢視(圖片)會降低所有任務的效能,因為它們引入了過多與區域無關的資訊。當已知任務型別時,我們可以根據任務特性取樣適當的檢視。當任務型別未知時,我們首先構建一組在不同插值係數 t 下的候選檢視集合,圖片。從候選集中,透過貪婪搜尋演算法取樣 n 個檢視。搜尋的目標函式定義為:

圖片其中圖片表示第 i 個檢視的插值係數,圖片表示第 i 個檢視,pHASH (・) 表示感知影像雜湊函式圖片表示異或操作。為了從全域性視角比較檢視的資訊,我們利用 "pHASH (・)" 函式將檢視從空間域轉換到頻域,然後編碼成雜湊碼。對於圖片這一項,我們減少上下文豐富檢視的權重,以避免引入過多冗餘資訊。

實驗

Region-level Captioning

圖片

在區域字幕生成任務,DynRefer 以更小的模型(4.2B v.s. 7B),在 RefCOCOg 和 VG 兩個資料集上、在 METEOR 和 CIDEr 兩個指標上都顯著超過了 CVPR 2024 中的眾多方法,如 RegionGPT,GlaMM,Alpha-CLIP 和 Osprey 等,展現出 DynRefer 巨大的效能優勢。

Dense Captioning

圖片

在密集字幕生成任務,在 VG1.2 資料集,DynRefer 相較之前的 SOTA 方法 GRiT 提升了 7.1% mAP。

Open Vocabulary Attribute Detection

圖片

在區域屬性檢測任務,DynRefer 也取得了 SOTA 的效能。

Open Vocabulary Region Recognition

圖片

在區域識別任務,DynRefer 比 CVPR 24 的 RegionGPT 提升了 15% mAP 和 8.8% Accuracy,比 ICLR 24 的 ASM 高 15.7% mAP。

消融實驗

圖片

  • Line 1-6:隨機動態多檢視要優於固定檢視。
  • Line 6-10:透過最大化資訊選擇檢視優於隨機選擇檢視。
  • Line 10-13:多工訓練可以學習得到更好的區域表徵。

視覺化

下面幾張圖展示了 DynRefer 的推理結果,DynRefer 可以用一個模型同時輸出區域字幕、標籤、屬性和類別。

圖片

圖片

相關文章