Paper 1
- 題目: LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
- 作者團隊: Meta AI, KAUST, Korea University
- 連結: https://arxiv.org/abs/2410.17434
1. 論文試圖解決什麼問題?是否是一個新問題?
MLLM長影片理解問題。是新問題。
2. 有哪些相關研究?如何歸類?有哪些值得關注的研究員(大牛)?
- Video Token Compression的相關工作:Chat-UniVi, SlowFast-LLaVA, AVG-LLaVA
3. 論文提到的解決方案的關鍵是什麼(創新點)?
- 利用DINOv2特徵,基於幀間相似度過濾冗餘幀。
- 根據文字查詢,保留與任務相關幀的高解析度特徵,對其他幀進行空間池化。
- 在影片幀中劃分滑動視窗,僅保留視窗內第一個幀的全解析度,壓縮相似性高的spatial tokens。
4. 論文中的實驗如何設計?
- 基準測試:與現有影片LLM方法進行對比。
- 消融實驗:研究每個模組(時間壓縮、跨模態查詢、空間壓縮)對模型效能的影響。
- 透過token數統計和視覺對比展示LongVU的壓縮效率。
5. 程式碼是否開源?
是。
6. 用於訓練和定量評估的資料集分別是什麼?
- 訓練資料集: 影像-語言預訓練採用LLaVA-OneVision的單影像資料,影片-語言微調使用VideoChat2-IT資料集中的多種影片-文字配對資料。
- 評估基準測試: EgoSchema、MVBench、VideoMME、MLVU。
7. 論文中的實驗和結果有沒有很好地支援待驗證的假設?
實驗很充分,結果很好地支援了論文的假設。
8. 在你看來這篇論文還有哪些不足?
相比於SlowFast-LLaVA這種training-free的工作,對計算資源和資料量要求較高;本文專注於對video SFT,可能會導致對影像理解能力下降。
9. 下一步有什麼工作可以深入?
文中提到DINOv2特徵比SigLIP特徵更有效;SVA可能比較有用;spatial token compression消除畫素級冗餘的方式很簡潔,值得借鑑。
Paper 2
- 題目: TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment (NeurIPS 2024 Spotlight)
- 作者團隊: 浙大,新國大
- 連結: https://arxiv.org/pdf/2405.13911
1. 論文試圖解決什麼問題?是否是一個新問題?
如何在沒有真實影片資料的情況下,將大語言模型(LLM)擴充套件用於影片理解的問題。該問題較新,屬於減少影片預訓練成本和跨模態對齊的探索。
2. 有哪些相關研究?如何歸類?有哪些值得關注的研究員(大牛)?
- 影像-語言對齊(CLIP等)
- 影片-語言模型預訓練(InternVideo、LongViViT)
- 影片代理模型(Video Agents):包括GPT-4和LLaVA等
3. 論文提到的解決方案的關鍵是什麼(創新點)?
論文的創新在於提出了Text-Only Pre-Alignment(TOPA)框架,透過生成模擬影片的文字資料集(TextVid)和跨模態對齊,使LLM無需真實影片資料即可處理影片理解任務。
4. 論文中的實驗如何設計?
- 零樣本推理、在部分資料集上微調
- 將TOPA的效果與幾類主流的影片理解方法(如傳統影片預訓練、影像-影片對齊、影片指令調優和影片代理模型)進行比較
5. 程式碼是否開源?
是。
6. 用於訓練和定量評估的資料集分別是什麼?
- 訓練資料集: 生成的TextVid文字影片資料集
- 評估資料集: NeXT-QA、STAR、TVQA、EgoSchema和MVBench
7. 論文中的實驗和結果有沒有很好地支援待驗證的假設?
實驗結果很好地支援了論文的假設。
8. 在你看來這篇論文還有哪些不足?
模態差距問題、細粒度視覺理解的侷限性:由於採用文字影片的生成方法,在需要精確空間資訊(如物件移動方向和姿勢)的任務中表現較弱。TOPA主要關注關鍵幀,忽略了對高幀率影片的處理能力。
9. 下一步有什麼工作可以深入?
探索更好的跨模態對齊技術,如何對細粒度特徵建模。