ECCV 2024 | 比基準高30%,媲美Gemini 1.5 Pro,基於記憶的影片理解智慧體來了

机器之心發表於2024-09-05
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


影片理解仍然是計算機視覺和人工智慧領域的一個主要挑戰。最近在影片理解上的許多進展都是透過端到端地訓練多模態大語言模型實現的[1,2,3]。然而,當這些模型處理較長的影片時,記憶體消耗可能會顯著增加,甚至變得難以承受,並且自注意力機制有時可能難以捕捉長程關係 [4]。這些問題阻礙了將端到端模型進一步應用於影片理解。

為解決這一問題,北京通用人工智慧研究院聯合北京大學的研究人員提出了首個基於記憶和工具使用的影片理解智慧體VideoAgent,在影片理解任務上媲美Gemini 1.5 Pro。該論文已被ECCV 2024接收。

圖片

  • 論文連結:https://arxiv.org/abs/2403.11481
  • 專案主頁:https://videoagent.github.io/
  • 程式碼連結:https://github.com/YueFan1014/VideoAgent

模型介紹

VideoAgent 的主要思想是將影片表示為結構化的記憶,並運用大語言模型的強大推理能力和工具使用能力從記憶中抽取關鍵資訊,實現對影片的理解以及對影片問題的回答。

圖片

圖 1:VideoAgent 流程圖。

VideoAgent 的記憶設計遵循簡約原則:作者發現影片中發生的事件以及影片中出現的人和物體能夠涵蓋最常見的影片問題。因此,作者設計瞭如圖 1 所示的兩個記憶元件:1)時間記憶,用於儲存每2秒影片片段所發生的事件;2)物體記憶,用於儲存影片中出現的人和物體的資訊。給定一個影片,VideoAgent會首先構建該影片的時間記憶和物體記憶。在推理階段,對於該影片的一個問題,VideoAgent會呼叫一系列工具,從記憶中抽取與問題有關的資訊來回答該問題。ECCV 2024 | 比基準高30%,媲美Gemini 1.5 Pro,基於記憶的影片理解智慧體來了
影片 1:VideoAgent 運用思維鏈和工具回答影片問題。

記憶構建

對於時間記憶,作者使用預訓練的影片文字模型 LaViLa [7] 為每 2 秒的影片片段生成描述文字,反映了影片片段中發生的事件。除了描述片段的文字外,時間記憶還儲存了每個影片片段的特徵,片段特徵包括:1)文字特徵,透過使用文字編碼器 text-embedding-3-large [8] 得到片段的描述文字的嵌入向量;2)視覺特徵,透過使用影片語言模型 ViCLIP [9]對影片片段進行視覺編碼獲得的嵌入向量。這些片段特徵在推理階段時可被 VideoAgent 用於定位關鍵片段。

物體記憶的核心是跟蹤 (tracking) 並且重識別 (re-identification) 影片中的所有物體和人物。作者首先使用 RT-DETR [10] 和 Byte-track [11] 對影片進行物體檢測和跟蹤。然而,僅僅使用物體跟蹤演算法無法解決同一物體由於在影片中多次出現而被識別成多個物體的情況。因此,作者提出一種基於 CLIP 特徵 [12] 和 DINO-v2 特徵 [13] 的物體重識別演算法,將物體跟蹤結果中相同的物體賦予同一物體 ID。ECCV 2024 | 比基準高30%,媲美Gemini 1.5 Pro,基於記憶的影片理解智慧體來了
影片2:物體重識別效果展示。杯子和牛奶瓶能夠在不同位姿下被重識別。

值得一提的是,記憶構建階段所涉及的所有模型都滿足實時性的要求,這使得VideoAgent也能夠接受影片流輸入,並且實時地構建記憶。最後,物體記憶中儲存的內容有:1)包括物體 ID、物體類別和物體所出現的影片片段三個欄位的物體資料庫;2)物體ID所對應的 CLIP 特徵,用以支援在推理階段的開放詞表物體檢索。

影片問答

為了回答一個影片問題,大型語言模型(LLM)會將其分解為多個子任務,並呼叫工具來解決。這些工具圍繞統一的記憶庫運作,主要包括以下幾個工具:

1. 片段描述召回:給定兩個時刻,返回兩個查詢時刻之間所有片段的文字描述。
2. 片段定位:給定一個文字描述,透過將該文字特徵與所有片段特徵進行比較,檢索與之最相關的 5 個片段。
3. 視覺問答:給定一個影片片段和問題,利用 VideoLLaVA [1] 工具,根據影片片段回答該問題。
4. 物體記憶查詢:給定一個有關影片中物體的問題,結合 SQL 查詢功能和基於 CLIP 特徵的開放詞表物體檢索,從物體記憶中進行復雜的物體資訊查詢。

最後,LLM 會整合這些工具的使用結果,生成對影片問題的回答。

圖 2 展示了 VideoAgent 的一個推理示例。VideoAgent 首先透過片段定位得到了影片中小男孩與成年人同時出現的 5 個時刻;接著在其中兩個時刻上呼叫視覺問答工具,得到了小男孩與成年人之間的關係,並最終準確回答出了影片中的成年人是小男孩的監護者。

圖片

圖 2:VideoAgent 回答影片問題的示例。

在關於影片中有幾艘船的問題上,端到端的多模態大語言模型由於其視覺特徵的缺陷,無法準確回答出影片中船的數量。但 VideoAgent 能借助視覺基礎模型的能力以及物體重識別演算法得到精確的物體細節並存放到物體記憶中,因此能夠準確回答出影片中有 6 艘船。

圖片

圖 3:VideoAgent 與多模態大語言模型的對比。

實驗分析

作者在 EgoSchema [14], WorldQA [15], NExT-QA [16] 三個長影片理解資料集上測試了 VideoAgent 的效能。實驗表明 VideoAgent 能夠取得比目前開源的多模態大語言模型更好的表現,並且能夠與目前最好的閉源模型相媲美。

在 EgoSchema 長影片多選題資料集上(見表1),VideoAgent 的 60.2% 的準確率相比基準的多模態大語言模型高出了近 30 個百分點,接近 Gemini 1.5 Pro 的 63.2% 的準確率。在 WorldQA 資料集上(見表2),VideoAgent 在選擇題和開放問題上都取得了不錯的效能,這歸功於 VideoAgent 能夠結合大語言模型中的常識知識、推理能力以及影片記憶共同實現對於長影片的理解。

圖片

表1:在EgoSchema資料集上的實驗結果。

圖片

表2: 在WorldQA資料集上的實驗結果。

在 NExT-QA 資料集上(見表3),VideoAgent 在時序、因果、描述三類問題上相比基線模型都有顯著提升,其在因果類問題上的提升最大。

圖片

表3: 在NExT-QA上的實驗結果。

在 NExT-QA 上,作者對於 VideoAgent 中的 4 種不同工具進行了消融實驗(見表4)。實驗表明片段描述召回對於 VideoAgent 理解影片是十分必要的。物體記憶對於 VideoAgent 在時序、因果、描述三類問題的回答準確率都有提升。片段定位和視覺問答這兩個工具對於 VideoAgent 正確回答問題的貢獻最大。

圖片

表4: 在NExT-QA上對不同工具的消融實驗。

總結

本文提出的 VideoAgent 是一種多模態智慧體,透過一種新穎的記憶機制結合了多個基礎模型,用於影片理解。與端到端的多模態大語言模型(LLM)和其他工具使用智慧體相比,VideoAgent 採用了極簡的工具使用流程,不需要昂貴的訓練,同時在 EgoSchema、WorldQA 和 NExT-QA 等具有挑戰性的長影片理解基準上,產生了相當或更好的表現。未來的研究方向可能包括在具身智慧、製造業和擴增實境領域的實際應用。

團隊介紹

論文核心團隊來自北京通用人工智慧研究院機器學習實驗室,團隊負責人李慶博士長期從事關於多模態理解、AI Agents、具身智慧等方向的相關工作,主頁:https://liqing.io。該團隊擁有包括全職研究員、工程師、以及實習生在內的二十餘人團隊,也在持續招聘全職人員和實習生中,團隊的長期目標是打造集互動、推理、學習於一體的通用智慧體。

圖片

參考文獻:
[1] Lin, B., Zhu, B., Ye, Y., Ning, M., Jin, P., Yuan, L.: Video-llava: Learning united visual representation by alignment before projection. arXiv preprint arXiv:2311.10122 (2023)
[2] Song, E., Chai, W., Wang, G., Zhang, Y., Zhou, H., Wu, F., Chi, H., Guo, X., Ye, T., Zhang, Y., et al.: Moviechat: From dense token to sparse memory for long video understanding. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2024)
[3] Wang, Y., Wang, Y., Wu, P., Liang, J., Zhao, D., Zheng, Z.: Lstp: Language-guided spatial-temporal prompt learning for long-form video-text understanding. arXiv preprint arXiv:2402.16050 (2024)
[4] Tay, Y., Dehghani, M., Abnar, S., Shen, Y., Bahri, D., Pham, P., Rao, J., Yang, L., Ruder, S., Metzler, D.: Long range arena: A benchmark for efficient transformers. arXiv preprint arXiv:2011.04006 (2020)
[5] Surís, D., Menon, S., Vondrick, C.: Vipergpt: Visual inference via python execution for reasoning. In: International Conference on Computer Vision (ICCV) (2023)
[6] Wu, C., Yin, S., Qi, W., Wang, X., Tang, Z., Duan, N.: Visual chatgpt: Talking, drawing and editing with visual foundation models. arXiv preprint arXiv:2303.04671 (2023)
[7] Zhao, Y., Misra, I., Krähenbühl, P., Girdhar, R.: Learning video representations from large language models. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
[8] https://platform.openai.com/docs/guides/embeddings
[9] Wang, Y., He, Y., Li, Y., Li, K., Yu, J., Ma, X., Li, X., Chen, G., Chen, X., Wang, Y., et al.: Internvid: A large-scale video-text dataset for multimodal understanding and generation. arXiv preprint arXiv:2307.06942 (2023)
[10] Zhao, Y., Lv, W., Xu, S., Wei, J., Wang, G., Dang, Q., Liu, Y., Chen, J.: Detrs beat yolos on real-time object detection. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2024)
[11] Zhang, Y., Sun, P., Jiang, Y., Yu, D., Weng, F., Yuan, Z., Luo, P., Liu, W., Wang, X.: Bytetrack: Multi-object tracking by associating every detection box. In: European Conference on Computer Vision (ECCV) (2022)
[12] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning (ICML) (2021)
[13] Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., et al.: Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193 (2023)
[14] Mangalam, K., Akshulakov, R., Malik, J.: Egoschema: A diagnostic benchmark for very long-form video language understanding. Advances in Neural Information Processing Systems (NeurIPS) (2024)
[15] Zhang, Y., Zhang, K., Li, B., Pu, F., Setiadharma, C.A., Yang, J., Liu, Z.: Worldqa: Multimodal world knowledge in videos through long-chain reasoning. arXiv preprint arXiv:2405.03272 (2024)
[16] Xiao, J., Shang, X., Yao, A., Chua, T.S.: Next-qa: Next phase of question-answering to explaining temporal actions. In: Conference on Computer Vision and Pattern Recognition (CVPR) (2021)

相關文章