Paper 1
- 題目: Classification Done Right for Vision-Language Pre-Training
- 作者團隊: 位元組豆包大模型團隊
- 連結: https://arxiv.org/abs/2411.03313
1. 論文試圖解決什麼問題?是否是一個新問題?
當前視覺-語言預訓練模型(如 CLIP)在訓練中計算成本高的問題,特別是大批次對比學習和對文字編碼器的依賴。這並不是一個全新的問題,但該研究提出了一個新穎的解決方案:用基於分類的方法替代對比學習。
2. 有哪些相關研究?如何歸類?有哪些值得關注的研究員(大牛)?
- 相關研究分類:
- 基於分類的視覺-語言模型:如 Image-to-Word, Tag2Text, CatLIP。
- 基於對比學習的模型:CLIP, ALIGN, OpenCLIP。
- 基於自迴歸目標的模型:SimVLM, CapPa。
- 值得關注的研究員:
- Alec Radford(CLIP 的核心研究者)
- Jiashi Feng(參與多個視覺-語言模型的研究)
3. 論文提到的解決方案的關鍵是什麼(創新點)?
- 提出了一種名為 SuperClass 的預訓練方法:
- 直接將子詞(subword)作為分類標籤,無需文字編碼器和額外預處理。
- 透過簡單的分類損失(Softmax)進行最佳化,並引入逆文件頻率(IDF)作為類別權重。
- 方法實現了與 CLIP 類似甚至更好的效能,同時顯著降低計算成本。
4. 論文中的實驗如何設計?
- 資料規模實驗:比較模型在不同見樣本數量(128M、512M、1.28B)下的效能。
- 模型規模實驗:評估 ViT-Small、ViT-Base 和 ViT-Large 在分類與視覺-語言任務中的表現。
- 對比實驗:與 CLIP、DINOv2 等當前主流方法在 ImageNet-1K、COCO Caption 等多個基準上的效能對比。
- 消融實驗:研究分詞器型別、損失函式、是否使用 IDF 等對效能的影響。
5. 程式碼是否開源?
是。程式碼和模型在 https://github.com/x-cls/superclass 。
6. 用於訓練和定量評估的資料集分別是什麼?
- 訓練資料集:Datacomp-1B(包含 13 億圖文配對樣本)
- 評估資料集:
- 分類任務:ImageNet-1K、Pets、Cars
- 視覺-語言任務:COCO Captions、VQAv2、VizWiz 等
7. 論文中的實驗和結果有沒有很好地支援待驗證的假設?
實驗結果表明,SuperClass 方法在分類和視覺-語言任務上均超過或接近對比學習的效能,尤其是在資源受限的設定下表現更優。這支援了其關鍵假設:分類方法可以替代對比學習,並具有良好的擴充套件性和高效性。
8. 在你看來這篇論文還有哪些不足?
- 無法捕捉文字的詞序和物件關係,限制了監督訊號的豐富性。
- 缺乏訓練時間的具體比較,無法直觀瞭解效率提升的實際情況。
9. 下一步有什麼工作可以深入?
- 研究如何結合詞序和物件關係以增強監督訊號。
- 結合大規模語言模型以更深入地挖掘視覺-語言表示的潛力。
Paper 2
- 題目: LLaVA-o1: Let Vision Language Models Reason Step-by-Step
- 作者團隊: 北大、清華、阿里
- 連結: https://arxiv.org/abs/2411.10440
1. 論文試圖解決什麼問題?是否是一個新問題?
論文試圖解決現有視覺語言模型在複雜推理任務中缺乏結構化推理能力的問題。
-
推理過程不夠系統化,容易發生邏輯錯誤。
-
無法充分利用視覺資訊和語言推理能力的結合。
這是一個相對新問題。
2. 有哪些相關研究?如何歸類?有哪些值得關注的研究員(大牛)?
視覺問答(VQA)模型、鏈式推理(Chain-of-Thought, CoT)、推理擴充套件方法(Inference Scaling)Best-of-N 搜尋、句子級 Beam Search。
3. 論文提到的解決方案的關鍵是什麼(創新點)?
- 多階段推理框架: 將推理過程分為四階段:Summary、Caption、Reasoning、Conclusion,明確結構化推理過程。
- 資料集構建: 用gpt-4o構建 LLaVA-o1-100k 資料集,整合多種資料來源並加入多階段推理註釋。
- 推理擴充套件方法: 設計 Stage-Level Beam Search 方法,在推理過程中動態篩選最優候選答案,提升推理穩定性和準確性。
4. 論文中的實驗如何設計?
-
實驗目標:驗證 LLaVA-o1 在複雜推理任務中的效能。
-
基準測試:六個多模態基準,包括 MMStar、MathVista、AI2D 等。
-
對比實驗: 1. 與基礎模型(Llama-3.2-11B-Vision-Instruct)比較。 2. 消融實驗驗證多階段標記的作用。 3. 與 Best-of-N 搜尋和句子級 Beam Search 方法對比。
5. 程式碼是否開源?
即將開源。
6. 用於訓練和定量評估的資料集分別是什麼?
- 訓練資料集:LLaVA-o1-100k 資料集,包括ShareGPT4V、ChartQA、AI2D、CLEVR 等。
- 評估資料集:MMStar、MMBench、MathVista、AI2D、Hallusion-Bench
7. 論文中的實驗和結果有沒有很好地支援待驗證的假設?
論文實驗和結果有效支援假設:
- LLaVA-o1 在所有基準測試中相較於基礎模型和傳統方法表現更優。
- 消融實驗驗證了多階段標記和 Stage-Level Beam Search 的重要性。
8. 在你看來這篇論文還有哪些不足?
-
名字起的不好,噱頭太大了,既不包含llava也不包含o1。其實跟真正o1的技術路線差的挺遠,已經被噴的改名了 -
多階段推理和 Stage-Level Beam Search 對計算資源的影響?
9. 下一步有什麼工作可以深入?
比如引入post-training和reflective error correction mechanism