Paper 1
- 題目: INFERENCE OPTIMAL VLMS NEED ONLY ONE VISUAL TOKEN BUT LARGER MODELS
- 作者團隊: Kevin Y. Li, Sachin Goyal, João D. Semedo, J. Zico Kolter (CMU)
- 連結: https://arxiv.org/abs/2411.03312
1. 論文試圖解決什麼問題?是否是一個新問題?
論文試圖解決VLMs推理階段的效能和計算成本之間的權衡問題,提出推理計算最優的scaling law。提出的極限視覺token壓縮和scaling optimization是全新的視角。
2. 有哪些相關研究?如何歸類?有哪些值得關注的研究員(大牛)?
- 相關研究分類:
- 視覺token壓縮:文中5.1提到了TokenPacker和Matryoshka等(孟帆學長的組會講得更全)。
- 推理最佳化:關注scaling law的研究,如Kaplan等人關於LLM的scaling law。
- 值得關注的研究員:
- J. Zico Kolter(本論文作者)
3. 論文提到的解決方案的關鍵是什麼(創新點)?
- 創新點:
- 提出推理最佳化的scaling law,量化視覺token數量和LLM規模的最佳組合。
- 首次揭示極限視覺token壓縮(如1或4個token)的推理最優配置。
- 提出基於使用者查詢的卷積交叉注意力方法(QueCC)(這個好像就是把TokenPacker的Query換成了text的),支援極限token壓縮。
4. 論文中的實驗如何設計?
- 實驗設計:
- scaling law驗證:使用不同大小的LLM(0.5B到14B)和不同視覺token數量(1到576),擬合標度曲線並預測效能。
- 演算法比較:QueCC與現有方法(如TokenPacker、Matryoshka等)在多個任務中的效能對比。
- 任務場景擴充套件:分析OCR任務和視覺推理任務中的推理最優配置。
5. 程式碼是否開源?
是,https://github.com/locuslab/llava-token-compression
6. 用於訓練和定量評估的資料集分別是什麼?
- 訓練資料集:LLaVA-Next的。
- 評估資料集:
- 視覺推理:GQA, MMBench, MME, ScienceQA等。
- OCR任務:TextVQA, DocVQA等。
7. 論文中的實驗和結果有沒有很好地支援待驗證的假設?
實驗很好地支援了假設:
- 標度定律的擬合誤差低於2%,證明推理最優配置的可預測性。
- QueCC在極限token壓縮(1或4個)下顯著優於其他方法,支援論文對極限壓縮的主張。
8. 在你看來這篇論文還有哪些不足?
- 對於OCR等text recognition任務覆蓋不足,沒有深入討論高資訊密度場景的最佳化策略。
- 提出的定律可能依賴特定模型和任務,泛化性需要進一步驗證。
9. 下一步有什麼工作可以深入?
- 針對OCR等高資訊密度任務的自適應壓縮演算法。
- 驗證該定律對其他多模態任務(如影片理解)的適用性。
- 如何結合更復雜的使用者查詢和多模態上下文,最佳化極限壓縮場景下的效能。
Paper 2
- 題目: LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression
- 作者團隊: Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi†, Alan Yuille†
- 連結: https://arxiv.org/abs/2406.20092
1. 論文試圖解決什麼問題?是否是一個新問題?
視覺token冗餘問題。現在看來貌似也沒那麼新了:(
2. 有哪些相關研究?如何歸類?有哪些值得關注的研究員(大牛)?
1. 視覺token冗餘最佳化:略~
2. 高效LLM訓練:動態token壓縮(如Pyramid Transformer)和逐步擴充套件模型訓練深度/寬度的方法。
3. 論文提到的解決方案的關鍵是什麼(創新點)?
- 視覺上下文壓縮器(VCC):
- 使用平均池化(average pooling)減少視覺token數量,在保證效能的同時降低計算成本。
- LLaVolta多階段訓練方案:
- 提出逐步減少壓縮率的三階段訓練方法,兼顧訓練效率和資訊保留。
- 新發現:
- 證明視覺token存在顯著冗餘,即使減少70%的視覺token,模型效能也僅略微下降。
4. 論文中的實驗如何設計?
- 冗餘驗證實驗:
- 在預訓練模型中,透過逐步減少視覺token數量(如70%),驗證對效能的影響。
- 多模態基準測試:
- 在13個資料集(如GQA、MM-Vet、TextVQA)上測試模型效能和訓練效率。
- 對比實驗:
- 與其他壓縮方法(如K均值聚類、注意力方法)比較。
- 擴充套件實驗:
- 在影片多模態任務中驗證LLaVolta的擴充套件性。
5. 程式碼是否開源?
是,GitHub Repository
6. 用於訓練和定量評估的資料集分別是什麼?
- 訓練資料集:LLaVA-1.5的
- 評估資料集:
- 影像任務:GQA、VQA-v2、MMBench
- 文字識別:TextVQA
- 影片任務:MSVD-QA、ActivityNet-QA等
7. 論文中的實驗和結果有沒有很好地支援待驗證的假設?
是。實驗充分驗證了視覺token的冗餘性,LLaVolta的多階段壓縮訓練顯著減少了訓練時間(16%)且效能提升,在9個基準測試中表現最佳,驗證了其理論假設的有效性。
8. 在你看來這篇論文還有哪些不足?
- 對於高資訊密度任務(如OCR)的壓縮方法探討不足。
- 多階段訓練方案可能在更大規模模型或超長序列上面臨擴充套件性問題?
- 缺乏對動態自適應壓縮機制的探索。
9. 下一步有什麼工作可以深入?
- 開發適應高資訊密度任務的壓縮演算法。
- 自適應視覺token壓縮率,根據影像內容動態調整。