[Paper Reading] KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models

fariver發表於2024-03-27

名稱

KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models
時間:23.05
機構:Microsoft

TL;DR

一種輸入多模型資訊的大語言模型,作者稱之為多模型大語言模型(MLLM),可以圖多連續問答。

Method

主要模型架構參考他們22年工作,Language Models are General-Purpose Interfaces,其中text, image的encoder都是pretrain好的,image encoder像是一個ViT。
資料: 三類資料成分,純文字語料庫(Text Corpora)來自Github/Arxiv等,圖文對(Image-Caption Pairs)比如Laion2B/Laion400M,交錯影像資料(Interleaved Image-Text Data)比如網頁資料。

Experiment

Perception-Language Tasks

作者主要使用了兩個task:

  • image-captioning: 對影像生成文字描述。
  • VQA: visual question answering: 針對影像回答問題。

OCR-Free語言理解

該任務考查模型,不依賴於OCR,直接從影像中理解詞句的能力。

Zero-Shot Image Classification

ImageNet上結果,看起來不如CLIP。

總結與發散

MLLM是以LLM為基礎架子,將其它模態特徵建模進來。

相關連結

https://www.zhihu.com/question/587008959

相關文章