激發創新,助力研究:CogVLM,強大且開源的視覺語言模型亮相

汀、人工智慧發表於2023-11-21

激發創新,助力研究:CogVLM,強大且開源的視覺語言模型亮相

  • CogVLM 是一個強大的開源視覺語言模型(VLM)。CogVLM-17B 擁有 100 億視覺引數和 70 億語言引數。

  • CogVLM-17B 在 10 個經典跨模態基準測試上取得了 SOTA 效能,包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC,而在 VQAv2、OKVQA、TextVQA、COCO captioning 等方面則排名第二,超越或與 PaLI-X 55B 持平。您可以透過線上 demo 體驗 CogVLM 多模態對話。

1.demo案例展示

  • CogVLM 能夠準確地描述影像,幾乎不會出現幻覺
    LLAVA-1.5 和 MiniGPT-4 的比較。

  • CogVLM 能理解和回答各種型別的問題,並有一個視覺定位版本。

  • CogVLM 有時比 GPT-4V(ision) 提取到更多的細節資訊。

2.快速使用

CogVLM 模型包括四個基本元件:視覺變換器(ViT)編碼器、MLP介面卡、預訓練的大型語言模型(GPT)和一個視覺專家模組。更多細節請參見論文

2.1入門指南

我們提供兩種圖形使用者介面(GUI)進行模型推斷,分別是網頁演示命令列介面(CLI)。如果您想在Python程式碼中使用它,很容易修改CLI指令碼以適應您的情況。

首先,需要安裝依賴項。

pip install -r requirements.txt
python -m spacy download en_core_web_sm
  • 硬體要求
    • 模型推斷:1 * A100(80G) 或 2 * RTX 3090(24G)。
    • 微調:4 * A100(80G) [推薦] 或 8 * RTX 3090(24G)。

2.2 網頁演示

我們還提供基於Gradio的本地網頁演示。首先,透過執行 pip install gradio 安裝Gradio。然後下載並進入此倉庫,執行 web_demo.py。具體使用方式如下:

python web_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python web_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16

網頁演示的 GUI 介面如下:

2.3 CLI

我們開源了不同下游任務的模型權重:

  • cogvlm-chat 用於對齊的模型,在此之後支援像 GPT-4V 一樣的聊天。
  • cogvlm-base-224 文字-影像預訓練後的原始權重。
  • cogvlm-base-490 從 cogvlm-base-224 微調得到的 490px 解析度版本。
  • cogvlm-grounding-generalist 這個權重支援不同的視覺定位任務,例如 REC、Grounding Captioning 等。

透過CLI演示,執行以下命令:

python cli_demo.py --from_pretrained cogvlm-base-224 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-base-490 --version base --english --bf16 --no_prompt
python cli_demo.py --from_pretrained cogvlm-chat --version chat --english --bf16
python cli_demo.py --from_pretrained cogvlm-grounding-generalist --version base --english --bf16

該程式會自動下載 sat 模型並在命令列中進行互動。您可以透過輸入指令並按 Enter 生成回覆。
輸入 clear 可清除對話歷史,輸入 stop 可停止程式。

  • 參考連結

https://github.com/THUDM/CogVLM/tree/main

在 CogVLM 的指令微調階段,使用了來自 MiniGPT-4LLAVALRV-InstructionLLaVARShikra 專案的一些英文影像-文字資料,

更多優質內容請關注公號:汀丶人工智慧;會提供一些相關的資源和優質文章,免費獲取閱讀。

相關文章