MLLM_20241101

LittleHenry發表於2024-11-08

Paper 1

  • 題目: LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
  • 作者團隊: Meta AI, KAUST, Korea University
  • 連結: https://arxiv.org/abs/2410.17434

1. 論文試圖解決什麼問題?是否是一個新問題?
MLLM長影片理解問題。是新問題。

2. 有哪些相關研究?如何歸類?有哪些值得關注的研究員(大牛)?

  • Video Token Compression的相關工作:Chat-UniVi, SlowFast-LLaVA, AVG-LLaVA

3. 論文提到的解決方案的關鍵是什麼(創新點)?

  1. 利用DINOv2特徵,基於幀間相似度過濾冗餘幀。
  2. 根據文字查詢,保留與任務相關幀的高解析度特徵,對其他幀進行空間池化。
  3. 在影片幀中劃分滑動視窗,僅保留視窗內第一個幀的全解析度,壓縮相似性高的spatial tokens。

4. 論文中的實驗如何設計?

  1. 基準測試:與現有影片LLM方法進行對比。
  2. 消融實驗:研究每個模組(時間壓縮、跨模態查詢、空間壓縮)對模型效能的影響。
  3. 透過token數統計和視覺對比展示LongVU的壓縮效率。

5. 程式碼是否開源?
是。

6. 用於訓練和定量評估的資料集分別是什麼?

  • 訓練資料集: 影像-語言預訓練採用LLaVA-OneVision的單影像資料,影片-語言微調使用VideoChat2-IT資料集中的多種影片-文字配對資料。
  • 評估基準測試: EgoSchema、MVBench、VideoMME、MLVU。

7. 論文中的實驗和結果有沒有很好地支援待驗證的假設?
實驗很充分,結果很好地支援了論文的假設。

8. 在你看來這篇論文還有哪些不足?
相比於SlowFast-LLaVA這種training-free的工作,對計算資源和資料量要求較高;本文專注於對video SFT,可能會導致對影像理解能力下降。

9. 下一步有什麼工作可以深入?
文中提到DINOv2特徵比SigLIP特徵更有效;SVA可能比較有用;spatial token compression消除畫素級冗餘的方式很簡潔,值得借鑑。

Paper 2

  • 題目: TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment (NeurIPS 2024 Spotlight)
  • 作者團隊: 浙大,新國大
  • 連結: https://arxiv.org/pdf/2405.13911

1. 論文試圖解決什麼問題?是否是一個新問題?
如何在沒有真實影片資料的情況下,將大語言模型(LLM)擴充套件用於影片理解的問題。該問題較新,屬於減少影片預訓練成本和跨模態對齊的探索。

2. 有哪些相關研究?如何歸類?有哪些值得關注的研究員(大牛)?

  • 影像-語言對齊(CLIP等)
  • 影片-語言模型預訓練(InternVideo、LongViViT)
  • 影片代理模型(Video Agents):包括GPT-4和LLaVA等

3. 論文提到的解決方案的關鍵是什麼(創新點)?
論文的創新在於提出了Text-Only Pre-Alignment(TOPA)框架,透過生成模擬影片的文字資料集(TextVid)和跨模態對齊,使LLM無需真實影片資料即可處理影片理解任務。

4. 論文中的實驗如何設計?

  • 零樣本推理、在部分資料集上微調
  • 將TOPA的效果與幾類主流的影片理解方法(如傳統影片預訓練、影像-影片對齊、影片指令調優和影片代理模型)進行比較

5. 程式碼是否開源?
是。

6. 用於訓練和定量評估的資料集分別是什麼?

  • 訓練資料集: 生成的TextVid文字影片資料集
  • 評估資料集: NeXT-QA、STAR、TVQA、EgoSchema和MVBench

7. 論文中的實驗和結果有沒有很好地支援待驗證的假設?
實驗結果很好地支援了論文的假設。

8. 在你看來這篇論文還有哪些不足?
模態差距問題、細粒度視覺理解的侷限性:由於採用文字影片的生成方法,在需要精確空間資訊(如物件移動方向和姿勢)的任務中表現較弱。TOPA主要關注關鍵幀,忽略了對高幀率影片的處理能力。

9. 下一步有什麼工作可以深入?
探索更好的跨模態對齊技術,如何對細粒度特徵建模。