多模態大模型有了統一分割框架,華科PSALM多工登頂,模型程式碼全開源

机器之心發表於2024-04-08
最近,多模態大模型(LMM)取得了一系列引人注目的成就,特別是在視覺 - 語言任務上的表現令人矚目。它們的成功不僅展現了多模態大模型在各個領域的實用性和靈活性,也為更多視覺場景下的應用探索了新的道路。

儘管如此,在將 LMM 應用到計算機視覺任務上時,我們仍面臨一個關鍵挑戰:大多數 LMM 目前只限於文字輸出,這限制了它們在處理更細粒度的視覺任務,如影像分割方面的能力。

此外,影像分割領域內部的需求多樣化,任務各異 —— 例項分割需為每個物件分配唯一 ID 並計算類別信賴度,指代分割(RES)則需要基於描述性語句來識別影像中的特定區域,而互動式分割的輸入可能包括點、線、邊界框或掩碼。這些不同的輸入和輸出格式如何能夠被 LMM 高效地統一和處理,目前仍然是一個開放性問題。

圖片

華中科技大學的研究團隊針對多模態大模型(LMM)在視覺任務中的應用挑戰,推出了針對性的解決方案:PSALM 模型。這一模型的設計理念是:透過一個統一的框架處理絕大多數型別的影像分割任務,從而實現分割任務的全面覆蓋。

同時,得益於多模態大模型廣泛的預訓練,PSALM 不僅在已見分割任務上表現出色,更在諸多未曾訓練過的開放場景分割任務中,展現出強大的零樣本泛化能力。多模態大模型作為視覺任務統一框架的巨大潛力得到進一步挖掘。

圖片

PSALM 有如下的特點:

  • 引數最佳化:PSALM 採用了 Swin-Base 結合 Phi-1.5(1.3B 引數)的模型組合,這比傳統的 ViT-L 和 Vicuna-7B/Llama2-13B 模型要小巧得多,實現了效率與效能的兼備。
  • 多工統一:得益於 PSALM 靈活的結構設計,模型能夠將多種分割任務的輸入形式進行統一,並支援多工的聯合訓練,最終取得相互促進的效果。
  • 效能優異:PSALM 不僅在全景分割、互動式分割、指代分割等多個已見分割任務上展現出比肩或超越專家模型的強大效能,還在開放詞表、影片目標分割等未見開放場景任務中表現出令人矚目的零樣本泛化能力。

目前,模型和訓練程式碼已全部開源。

圖片

  • 論文標題:PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
  • 論文地址:https://arxiv.org/abs/2403.14598
  • 程式碼地址:https://github.com/zamling/PSALM
  • 模型地址:https://huggingface.co/EnmingZhang/PSALM

PSALM 如何實現的?

圖片

PSALM 包含影像編碼器、大語言模型(LLM)和 mask 生成器,如上圖所示。為了使得模型可以處理各種分割任務,模型將 LLM 的輸入分為四個部分:圖片特徵、任務指令提示、任務條件提示以及一組可學習的 mask tokens

任務指令提示包含當前分割任務的一個簡單任務描述。例如,對於全景分割,任務指令提示可以是:「請分割出圖片中所有的目標,下面是可能的類別名稱」。任務條件提示指的是當前分割任務所需要的特有的資訊。對於語義分割、全景分割等,所需要的即所有類別名稱。模型直接簡單地將類別使用逗號進行拼接,如「person, bicycle, car…」;對於指令分割,任務條件提示是當前所需分割的物體的一段描述;對於更為複雜的互動式分割,模型將點、線、框、掩碼等各種提示資訊轉換為掩碼,並透過掩碼池化的操作提取所指定的區域的特徵,作為互動式分割的任務條件提示。

隨後,得到 mask tokens 對應位置的輸出,送入 mask 生成其中,得到 mask 的特徵。該特徵與任務條件提示所對應的輸出特徵計算相似度得到置信度,與影像特徵計算內積得到候選分割結果。

最終,將置信度和候選分割結果相結合,即可得到各種分割任務的結果。各種任務型別如何生成特定的條件提示和對應的條件特徵可見下圖。

圖片

PSALM 的效果如何?

對於指代分割 (RES) 任務,也是目前已有的基於 LMM 的分割模型所關注的任務,PSALM 在 RefCOCO、RefCOCO + 和 RefCOCOg 上的許多基準測試集上取得了 SOTA 的效能,詳見下表。

圖片

語義分割例項分割、全景分割等任務上,PSALM 在 COCO-val 上比較了現有的 SOTA 模型。對於採用類似規模的影像編碼器的方法,PSALM 取得了極具競爭力的結果,甚至不弱於該任務上的專家模型。

圖片

對於互動式分割任務,由於當前沒有開源的互動式分割資料集和測試基準。因此,在 COCO 的基礎上,對其中的所有目標隨機生成了各種互動提示,最終生成了 COCO-Interactive 資料集。具體結果如下表所示,PSALM 在使用點,曲線,掩碼作為提示下,取得了 SOTA 的效果。在使用框作為提示下,略弱於使用資料集 SA-1B 訓練的 SAM。

圖片

PSALM 對於沒有見過的任務,泛化能力如何?

PSALM 在開放詞表分割、通用指代分割、影片目標分割以及多視角 Ego-Exo 匹配分割任務上的零樣本泛化能力同樣令人印象深刻,這些結果展示了它對未知任務的適應性。

圖片

下圖展示了 PSALM 在多個任務上的視覺化結果包括全景分割、指令分割、互動式分割、開放詞表例項分割、通用指令分割、影片目標檢測和 Ego-Exo 多視角匹配分割。

圖片

總結

PSALM 代表了多模態大模型在統一影像分割領域的一次積極探索,其在引數最佳化、效能展示以及泛化能力方面均取得了顯著成果。PSALM 的創新架構和條件提示機制,使其能夠靈活處理多樣化的輸入輸出需求,從而在各種基準任務中取得優異的成績。

相關文章