LISA: Reasoning Segmentation via Large Language Model

脂环發表於2024-06-12

Motivation & Abs

現有的感知系統依賴人類的指示,難以主動推理以理解人類意圖。

新任務:reasoning segmentation,模型需要根據給定的複雜 / 具有隱含意義的文字輸出相應的seg mask。

新的benchmark:包含1000張左右影像的資料集(image-instruction-mask)。

模型:LISA,既有LLM的語言生成能力,又有生成分割mask的能力。訓練好的模型在非reasoning的資料集上也有著較強的zs能力,同時僅僅使用少量reasoning data對模型進行ft就可以大幅提升效能。

Reasoning Segmentation

reasoning segmentation相當於更加困難的referring segmentation,查詢的文字是更復雜的表達或者更長的句子,涉及到對現實世界知識的推理。資料集:文字為短語和長句子,影像總計1218張,包含239張訓練影像,200張驗證影像以及779張測試影像。

Method

Architecture

Embedding as Mask. 之前的方法如LLaVA以及BLIP2等僅能接受圖片輸入同時輸出文字,無法輸出細粒度的分割mask。VisionLLM提供了一種解決方案,將掩碼錶示為一系列的多邊形頂點,使之能夠用文字描述,然而使用多邊形序列的端到端訓練最佳化困難,並且可能會損害泛化能力,除非使用大量資料和計算資源。為此,作者提出了使用embedding作為mask的正規化從而將分割能力融入LLM,對LLM的詞彙表進行擴充,額外新增了<SEG> token, 用來代表輸出的分割結果。

截圖2024-06-11 17.36.54

給定文字指令\(\hat{y}_{txt}\)以及輸入影像\(x_{img}\),作者將其輸入多模態LLM \(\mathcal{F}\),得到輸出\(\hat{y}_{txt}\)(包含<SEG>標記)。同時將SAM image encoder給出的dense feature與<SEG>送入SAM的decoder即可得到分割mask。

損失函式:

截圖2024-06-12 14.51.57

截圖2024-06-12 14.52.10

這種方式能夠支援端到端的訓練,比兩階段的方法更加有效。

訓練

訓練資料形式。

Semantic Set Dataset:訓練時對每張圖片隨機選擇幾個類別,類別對應的mask為GT。QA模版如同:“USER: <IMAGE> Can you segment the {class name} in this image? ASSISTANT: It is <SEG>.”

Vanilla Referring Segmentation Dataset:資料包含圖片和對應物體的文字描述。QA模版:“USER: <IMAGE> Can you segment {description} in this image? ASSISTANT: Sure, it is <SEG>.”

Visual Question Answering Dataset:目的是保持MLLM的VQA能力。

可學習引數。用lora微調LLM,凍住image encoder,訓練mask decoder、LLM token embedding、LLM head、projection layer。

為什麼不會發生災難遺忘:訓練使用了VQA資料。

實驗

截圖2024-06-12 15.10.01

Metric: gIoU和cIoU,gIoU 為所有影像IoU的平均值,而 cIoU 由累積並集上的累積交集定義。由於cIoU高度偏向於大面積物體,而且波動太大,所以首選gIoU。截圖2024-06-12 15.25.17

相關文章