MLLM_20241025

LittleHenry發表於2024-11-08

Paper 1

  • 題目: Yo’LLaVA: Your Personalized Language and Vision Assistant
  • 作者: Thao Nguyen, Haotian Liu, Yuheng Li, Mu Cai, Utkarsh Ojha, Yong Jae Lee
  • 團隊: University of Wisconsin–Madison(LLaVA原作者團隊)
  • 連結: https://thaoshibe.github.io/YoLLaVA/

1. 論文試圖解決什麼問題?是否是一個新問題?
個性化MLLM,讓MLLM實現對特定使用者個體的識別、圖文問答。
是新問題。

2. 有哪些相關研究?如何歸類?有哪些值得關注的研究員(大牛)?

  • 一個並行的工作是MyVLM,缺陷為依賴於外部模組。
  • 研究員: Haotian Liu,Yong Jae Lee(LLaVA原作者團隊)

3. 論文提到的解決方案的關鍵是什麼(創新點)?

  1. 用可學習prompt表示個性化物件: "<sks> is <token1><token2>. . . <tokenk>.",訓練時只需訓練這k+1個可學習tokens和LLM的分類頭。
  2. 在訓練中新增“難負樣本”(與個性化物件具有相似視覺特徵但不完全相同的圖片),以便模型更有效地學習個性化物件的細節特徵。
  3. 去掉影像直接用問答文字訓練模型,使其基於內嵌特徵回答問題,將個性化物件的概念資訊嵌入到learnable tokens中。

4. 論文中的實驗如何設計?

  • 基線模型: Vanilla LLaVA(不含個性化特徵的LLaVA模型)、LLaVA+個性化描述(基於人工或自動生成的個性化描述)以及MyVLM
  • 指標: 識別(圖中是否有這個物件)準確率、視覺問答和文字問答準確率
  • 消融實驗: 可學習tokens的數量、正樣本影像數量、“難負樣本”影響

5. 程式碼是否開源?
是。

6. 用於訓練和定量評估的資料集分別是什麼?

  • 訓練資料集: 自構資料集,包含40個個性化物件的影像,每個物件(人物、寵物、地標、物品及虛構角色)有5-10張圖片作為正樣本,100張隨機圖片和n*m張相似圖片作為負樣本。
  • 評估資料集: 自構資料集。識別部分包含333張正樣本和13,320張負樣本;問答部分有171個視覺問題和400個純文字問題(選擇題)。

7. 論文中的實驗和結果有沒有很好地支援待驗證的假設?
結果表明,Yo’LLaVA使用僅16個可學習token就能達到與GPT-4V+個性化描述(1000+tokens)相當的表現,在負樣本識別和個性化問答方面顯著優於其他基線模型。

8. 在你看來這篇論文還有哪些不足?
測試資料多為偏簡單的選擇題,難以驗證真正個性化的識別效果,如“區分金毛A和金毛B或普通金毛”。

9. 下一步有什麼工作可以深入?
可與使用者的後設資料整合以增強個性化功能。

Paper 2

  • 題目: SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
  • 作者: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
  • 團隊: Apple
  • 連結: https://arxiv.org/abs/2407.15841

1. 論文試圖解決什麼問題?是否是一個新問題?
在影片理解中有效提取空間和時間特徵,特別是在無需額外訓練的情況下。
而非全新問題。

2. 有哪些相關研究?如何歸類?有哪些值得關注的研究員(大牛)?

  • 影像MLLM: Flamingo、BLIP2、LLaVA系列
  • 影片MLLM: VideoChat、Video-LLaVA
  • Training-Free MLLMs: FreeVA、IG-VLM
  • 研究員: Zhe Gan(Apple AI/ML,1.6w引)

3. 論文提到的解決方案的關鍵是什麼(創新點)?
“SlowFast”雙路徑設計,將影片幀分為“慢速”路徑(高空間解析度,低幀率)和“快速”路徑(高幀率,低空間解析度),更好地捕捉影片中的細節和運動特徵,無需額外訓練,具有成本效益。

4. 論文中的實驗如何設計?
基於LLaVA-Next。在開放式影片問答、選擇題影片問答和文字生成三個任務上進行,使用8個不同的基準測試,透過準確度和生成質量(例如細節、上下文和一致性)評估模型。

5. 程式碼是否開源?
是。

6. 用於訓練和定量評估的資料集分別是什麼?

  • 訓練: 無訓練
  • 評估:
    • 開放式影片問答: MSVD-QA、MSRVTT-QA、TGIF-QA、ActivityNet-QA
    • 選擇題影片問答: NExTQA、EgoSchema、IntentQA
    • 文字生成: VCGBench

7. 論文中的實驗和結果有沒有很好地支援待驗證的假設?
是,實驗顯示SF-LLaVA在多個基準測試上優於現有的無訓練方法,並在一些基準上超越了經過微調的影片模型,驗證了雙路徑設計在影片理解中的有效性。

8. 在你看來這篇論文還有哪些不足?
缺乏對細粒度時間定位的支援,如準確捕捉影片片段的起止時間。均勻取樣策略可能會錯過關鍵幀,影響對快速事件的理解。

9. 下一步有什麼工作可以深入?
探索動態取樣策略,以確保關鍵影片片段的取樣覆蓋。