![圖片](https://mmbiz.qpic.cn/sz_mmbiz_png/KmXPKA19gW9OnnzCX2HjxlUqj24Vnns9NNNzu0PPwaOst5iciaSdlMlBvia0nHGUtk9XQhXRqPP6P8KXz8wUyXicmg/640?wx_fmt=other&from=appmsg&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
近年來,隨著多模態大模型的崛起,影片理解技術取得了顯著進展。但是目前主流的全開源影片理解多模態模型普遍具有 7B 以上的引數量,這些模型往往採用複雜的架構設計,並依賴於大規模訓練資料集。受限於高昂的計算資源成本,模型訓練與定製化開發對於資源有限的科研人員而言仍存在顯著的門檻。
近日,北京航空航天大學的研究團隊基於 TinyLLaVA_Factory 的原專案,推出小尺寸簡易影片理解框架 TinyLLaVA-Video,其模型,程式碼以及訓練資料全部開源。在計算資源需求顯著降低的前提下,訓練出的整體引數量不超過 4B 的模型在多個影片理解 benchmark 上優於現有的 7B + 模型。同時,由於 TinyLLaVA-Video 衍生自 Tinyllava_Factory 程式碼庫,因此專案仍然具有元件化與可擴充套件性等優點,使用者可以根據自身需求進行定製與擴充研究。
- 論文地址:https://arxiv.org/abs/2501.15513
- Github 專案:https://github.com/ZhangXJ199/TinyLLaVA-Video
區別於眾多僅開源模型權重的專案,TinyLLaVA-Video 秉承了 TinyLLaVA_Factory 全面開源的理念。該專案不僅公開了完整的模型權重、訓練程式碼和訓練資料集,也延續了原有的模組化設計架構,研究人員可根據具體實驗需求,靈活替換語言模型、視覺編碼器等核心元件,並可自定義訓練策略。這種開放性設計不僅降低了小規模研究團隊進入影片理解研究領域的門檻,還為未來的輕量級影片理解模型的訓練正規化與架構創新探索提供了實驗平臺。在模型架構方面,TinyLLaVA-Video 沿用 LLaVA 類多模態模型常見的 Vision Tower+Connector+LLM 框架,並同樣保持預訓練對齊與監督微調的兩階段訓練策略。專案中採用的所有預訓練模型元件均遵循開源協議,包括如 Qwen2.5-3B 等語言模型和 SigLIP 等視覺編碼器此類核心模組,確保了實驗的可復現性,為研究者提供了可靠的基準參考。同時,研究人員可以方便地替換模型元件,更改訓練策略,定製符合自身需求的影片理解模型。在訓練資料方面,TinyLLaVA-Video 基於開源的 LLaVA-Video-178K 和 Valley 資料集進行實驗。同時,為進一步精簡資料集,提高訓練資料的質量並控制計算資源成本,專案對訓練資料進行了多步篩選與過濾,最終得到 397k 的預訓練資料與 491k 的監督微調資料。這使得研究者即便僅具備有限的計算資源,也能在合理的訓練時間內復現實驗結果並開展進一步研究。經過處理的資料標註資訊(annotation)也已經完整公開於 HuggingFace 平臺,這也為後續研究提供了高質量的資料基礎。以往的影片理解方法受限於語言模型的輸入長度限制,往往面臨兩難選擇:要麼透過設計複雜的模型架構來處理長序列資訊,要麼犧牲影片資訊的完整性而限制取樣幀數。因此,如何處理長時序視覺序列,並平衡計算資源與效能之間的矛盾,成為輕量級影片理解模型亟待解決的問題。為在保持模型結構輕量化的同時解決長序列資訊處理的問題,TinyLLaVA-Video 對於經過 Vision Tower 處理後的整體影片序列,使用簡單的影片級 Resampler 作為 Connector 來對齊視覺和語言,從而能極大地減少輸入至語言模型的 Visual Token 的數量。這種處理方式可以使得模型支援靈活的影片取樣策略,研究者可以根據影片型別與使用需求進行 fps 取樣或均勻幀取樣,設定不同的影片取樣幀數。雖然簡化模型架構並控制訓練資料的規模,但是 TinyLLaVA-Video 的表現依然非常可觀。實驗結果表明,整體引數不超過 4B 的模型在包含 MLVU、Video-MME 在內的多個影片理解基準測試集上的表現優於同等訓練資料量級下的 7B + 模型,充分驗證了該框架的有效性。此外,該研究也進行了大量實驗,系統性地探索了不同配置下的模型效能,包括選擇不同的語言模型、視覺編碼器以及取樣不同的幀數等設定的影響(實驗設定與結果詳見技術報告)。這些實驗結果揭示了在不同引數設定下,模型在影片理解任務中的表現,為研究者提供了最佳化模型結構的實證資料。這些探索不僅提升了 TinyLLaVA-Video 的適用性,也為後續研究提供了重要的參考依據。TinyLLaVA-Video 的研究表明,小尺寸影片理解模型在計算成本有限的環境下仍具有廣闊的發展空間。未來,計算資源有限的研究者們可以基於該工作,進一步最佳化模型結構和訓練策略,以推動小尺寸影片理解模型的持續發展,為資源受限環境下的多模態研究提供更多可能性。TinyLLaVA 系列專案始終致力於在有限計算資源下研究小尺寸模型的訓練與設計空間,堅持完全開源原則,完整公開模型引數、原始碼及訓練資料。同時,專案採用模組化設計理念,確保專案的可擴充性,方便資源有限的研究者們透過實踐來理解與探索多模態大模型。