目錄
- 概
- BACON
- 程式碼
[Yang Z., Feng R., et al. BACON: Supercharge your vlm with bag-of-concept graph to mitigate hallucinations. 2024.]
概
本文提出了一種新的資料格式: BACON (BAg-of-Concept graph).
BACON
- BACON 希望將一個圖片轉換為 \(G = (D, O, R, B)\) 的資料格式:
- \(D\) 為文字描述;
- \(O\) 為圖片中的目標實體;
- \(R\) 為實體的關係;
- \(B\) 為實體的 bounding box.
-
為了構建這個圖, 作者利用 GPT-4V 或者 (在本文收集的 BACON dataset 上微調後的) LLaVA-13B 上進行實體和關係的抽取. 透過 In-context learning, GPT-4V 能夠給出 \((D, O, R)\), 當然作者說這些是提供模板了的.
-
接著, bounding box 透過 Grounding DINO 得到. 需要注意的時候, DINO 返回的是同一類實體的 bounding box, 所以可能會有多個, 所以再透過 LLaVA 和 CLIP 進行篩選和過濾 (下圖展示的就是 graph grounding 的過程)
程式碼
[official]