名稱
KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models
時間:23.05
機構:Microsoft
TL;DR
一種輸入多模型資訊的大語言模型,作者稱之為多模型大語言模型(MLLM),可以圖多連續問答。
Method
主要模型架構參考他們22年工作,Language Models are General-Purpose Interfaces,其中text, image的encoder都是pretrain好的,image encoder像是一個ViT。
資料: 三類資料成分,純文字語料庫(Text Corpora)來自Github/Arxiv等,圖文對(Image-Caption Pairs)比如Laion2B/Laion400M,交錯影像資料(Interleaved Image-Text Data)比如網頁資料。
Experiment
Perception-Language Tasks
作者主要使用了兩個task:
- image-captioning: 對影像生成文字描述。
- VQA: visual question answering: 針對影像回答問題。
OCR-Free語言理解
該任務考查模型,不依賴於OCR,直接從影像中理解詞句的能力。
Zero-Shot Image Classification
ImageNet上結果,看起來不如CLIP。
總結與發散
MLLM是以LLM為基礎架子,將其它模態特徵建模進來。
相關連結
https://www.zhihu.com/question/587008959