太全了!蘋果上新視覺模型4M-21,搞定21種模態

机器之心發表於2024-06-25

當前的多模態和多工基礎模型,如 4M 或 UnifiedIO,顯示出有希望的結果。然而,它們接受不同輸入和執行不同任務的開箱即用能力,受到它們接受訓練的模態和任務的數量(通常很少)的限制。

基於此,來自洛桑聯邦理工學院(EPFL)和蘋果的研究者聯合開發了一個任意到任意模態單一模型,該模型在數十種高度多樣化的模態上進行訓練,並對大規模多模態資料集和文字語料庫進行協同訓練。

訓練過程中一個關鍵步驟是對各種模態執行離散 tokenization,無論它們是類似影像的神經網路特徵圖、向量、例項分割或人體姿態等結構化資料,還是可以表徵為文字的資料。

圖片

  • 論文地址:https://arxiv.org/pdf/2406.09406

  • 論文主頁 https://4m.epfl.ch/

  • 論文標題:4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

該研究展示了訓練單一模型,也能完成現有模型至少 3 倍多的任務 / 模態,並且不會損失效能。此外,該研究還實現了更細粒度和更可控的多模態生成能力。

該研究建立在多模態掩碼預訓練方案的基礎上,並透過在數十種高度多樣化的模態上進行訓練來提高模型能力。透過使用特定於模態的離散分詞器對其進行編碼,該研究實現了在不同模態上訓練單個統一模型。

簡單來說,該研究在幾個關鍵維度上擴充套件了現有模型的功能:

  • 模態:從現有最佳任意到任意模型的 7 種模態增加到 21 種不同模態,從而實現跨模態檢索、可控生成和強大的開箱即用效能。這是第一次單個視覺模型可以以任意到任意的方式解決數十個不同的任務,而不會損害效能,並且沒有任何傳統的多工學習

  • 多樣性:新增對更多結構化資料的支援,例如人體姿態、SAM 例項、後設資料等等。

  • tokenization:使用特定於模態的方法研究不同模態的離散 tokenization,例如全域性影像嵌入、人體姿態和語義例項。

  • 擴充套件:將模型大小擴充套件至 3B 引數,將資料集擴充套件至 0.5B 樣本。

  • 協同訓練:同時在視覺和語言上協同訓練。

方法介紹

該研究採用 4M 預訓練方案(該研究同樣來自 EPFL 和蘋果,在去年釋出),其被證明是一種通用方法,可以有效擴充套件到多模態。

具體而言,本文保持架構和多模態掩碼訓練目標不變,透過擴大模型和資料集的規模、增加訓練模型所涉及的模態型別和數量,並且在多個資料集上進行聯合訓練,可以提升模型的效能和適應性。

模態分為以下幾大類別:RGB、幾何、語義、邊緣、特徵圖、後設資料和文字,如下圖所示。

圖片

Tokenization

Tokenization 主要包括將不同模態和任務轉換為序列或離散 token,從而統一它們的表示空間。研究者使用不同的 tokenization 方法來離散具有不同特徵的模態,如圖 3 所示。總而言之,本文采用了三種 tokenizer,包括 ViT tokenizer、MLP tokenizer 以及文字 tokenizer。

圖片

在架構選擇上,本文采用基於 Transformer 的 4M 編碼器 - 解碼器架構,並新增額外的模態嵌入以適應新模態。

實驗結果

接下來,論文展示了 4M-21 多模態能力。

多模態生成

基於迭代解碼 token ,4M-21 可以用來預測任意訓練模態。如圖 2 所示,本文可以從給定的輸入模態以一致的方式生成所有模態。圖片

此外,由於該研究可以有條件和無條件地從其他模態的任何子集生成任何訓練模態,因此它支援幾種方法來執行細粒度和多模態生成,如圖 4 所示,例如執行多模態編輯。此外,4M-21 表現出改進的文字理解能力,無論是在 T5-XXL 嵌入上還是在常規字幕上,都可以實現幾何和語義上合理的生成(圖 4,右上)。

圖片

多模態檢索

如圖 5 所示,4M-21 解鎖了原始 DINOv2 和 ImageBind 模型無法實現的檢索功能,例如透過使用其他模態作為查詢來檢索 RGB 影像或其他模態。此外,4M-21 還可以組合多種模態來預測全域性嵌入,從而更好地控制檢索,如右圖所示。

圖片

開箱即用

4M-21 能夠開箱即用地執行一系列常見的視覺任務,如圖 6 所示。

圖片

表 1 評估了 DIODE 表面法線和深度估計、COCO 語義和例項分割、3DPW 3D 人體姿態估計等。

圖片

遷移實驗

此外,本文還訓練了三種不同尺寸的模型:B、L 和 XL。然後,將其編碼器遷移到下游任務,並在單模態 (RGB) 和多模態 (RGB + 深度) 設定上進行評估。所有遷移實驗均丟棄解碼器,而是訓練特定任務的頭部。結果如表 2 所示:

圖片

最後,本文在 NYUv2、Hypersim 語義分割和 ARKitScenes 上的 3D 物件檢測上執行多模態傳輸。如表 3 所示,4M-21 充分利用了可選的深度輸入,並顯著改進了基線。

圖片

相關文章