BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations

馒头and花卷發表於2024-07-05

目錄
  • BACON
  • 程式碼

[Yang Z., Feng R., et al. BACON: Supercharge your vlm with bag-of-concept graph to mitigate hallucinations. 2024.]

本文提出了一種新的資料格式: BACON (BAg-of-Concept graph).

BACON

  • BACON 希望將一個圖片轉換為 \(G = (D, O, R, B)\) 的資料格式:
    • \(D\) 為文字描述;
    • \(O\) 為圖片中的目標實體;
    • \(R\) 為實體的關係;
    • \(B\) 為實體的 bounding box.

  • 為了構建這個圖, 作者利用 GPT-4V 或者 (在本文收集的 BACON dataset 上微調後的) LLaVA-13B 上進行實體和關係的抽取. 透過 In-context learning, GPT-4V 能夠給出 \((D, O, R)\), 當然作者說這些是提供模板了的.

  • 接著, bounding box 透過 Grounding DINO 得到. 需要注意的時候, DINO 返回的是同一類實體的 bounding box, 所以可能會有多個, 所以再透過 LLaVA 和 CLIP 進行篩選和過濾 (下圖展示的就是 graph grounding 的過程)

程式碼

[official]

相關文章