近年來,LLM 已經一統所有文字任務,展現了基礎模型的強大潛力。一些視覺基礎模型如 CLIP 在多模態理解任務上同樣展現出了強大的泛化能力,其統一的視覺語言空間帶動了一系列多模態理解、生成、開放詞表等任務的發展。然而針對更細粒度的目標級別的感知任務,目前依然缺乏一個強大的基礎模型。
為了解決這個問題,來自華中科技大學和位元組跳動的研究團隊提出了一個針對視覺目標的基礎模型 GLEE,一次性解決影像和影片中的幾乎所有目標感知任務。GLEE 支援根據任意開放詞表、目標的外觀位置描述、和多種互動方式進行目標檢測、分割、跟蹤,並在實現全能性的同時保持 SOTA 效能。
此外,GLEE 還構建了統一最佳化目標的訓練框架,從超過一千萬的多源資料中汲取知識,實現對新資料和任務的零樣本遷移。並驗證了多種資料之間相互促進的能力。模型和訓練程式碼已全部開源。
論文標題:GLEE: General Object Foundation Model for Images and Videos at Scale
論文地址:https://arxiv.org/abs/2312.09158
程式碼地址:https://github.com/FoundationVision/GLEE
Demo 地址:https://huggingface.co/spaces/Junfeng5/GLEE_demo
影片地址:https://www.bilibili.com/video/BV16w4m1R7ne/
1. GLEE 可以解決哪些任務?
GLEE 可以同時接受語義和視覺上的 prompt 作為輸入,因此,任意長度的開放詞表、目標屬性描述、目標位置描述都、互動式的 point,box,mask 都可以被作為 prompt 來指引 GLEE 檢測分割出任意目標。具體來說,開放世界的目標檢測、例項分割、文字描述的指代檢測與分割(referring expression comprehension and segmentation)以及互動式分割都可以被輕鬆實現。
2. GLEE 統一了哪些資料用來訓練?
GLEE 使用了來自 16 個資料集的超過一千萬圖片資料進行訓練,充分利用了現有的標註資料和低成本的自動標註資料構建了多樣化的訓練集,是 GLEE 獲得強大泛化性的根本原因。
GLEE 使用的資料根據標註型別可以分為四大類:1)基於詞表的目標檢測資料集,如 COCO、Objects365。2)基於目標描述的 grounding 資料集,如 RefCOCO 系列、VisualGenome。3)無類語義資訊的 open-world 資料集,如 SA1B、UVO。4)影片資料,如 YouTubeVIS、OVIS。GLEE 所使用的圖片超過 1 千萬,其中標註目標數量超過一億五千萬。
3. GLEE 如何構成?
GLEE 包括影像編碼器、文字編碼器、視覺提示器和目標檢測器,如圖所示。文字編碼器處理與任務相關的任意描述,包括目標類別詞表、目標任何形式的名稱、關於目標的標題和指代表達。視覺提示器將使用者輸入(如互動式分割中的點、邊界框或塗鴉)編碼成目標物件的相應視覺表示。然後,這些資訊被整合到一個檢測器中,根據文字和視覺輸入從影像中提取物件。
4. 在目標感知任務上的全能性和泛化能力
該研究展示了 GLEE 模型作為一個目標感知基礎模型的普適性和有效性,它可以直接應用於各種以目標為中心的任務,同時確保最先進的效能,無需進行微調。
此外,該研究在一些開放詞彙表的影片任務中驗證了 GLEE 的零樣本泛化能力。在 TAO、BURST、LV-VIS 這三個開放詞彙表的跟蹤資料集上,GLEE 在未經過訓練和微調的情況下,取得了令人驚歎的最先進(SOTA)效能,這證明了 GLEE 在大規模聯合訓練中學習到的通用物件感知能力和強大的泛化能力。
5. 作為基礎模型的潛力
作為基礎模型,該研究用預訓練且凍結的 GLEE-Plus 替換了 LISA 的中使用的 SAM backbone,並將 GLEE 的 Object Query 輸入到 LLAVA 中,移除了 LISA 的解碼器。該研究直接將輸出的 SEG 標記與 GLEE 特徵圖進行點積運算以生成 Mask。在進行相同步數的訓練後,修改後的 LISA-GLEE 取得了與原版 LISA 使用 SAM 相媲美的結果,這證明了 GLEE 的表示具有多功能性,並且在為其他模型服務時的有效性。