NeurIPS 2024 | 消除多對多問題,清華提出大規模細粒度影片片段標註新正規化VERIFIED

机器之心發表於2024-10-28
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

陳厚倫,清華大學計算機系媒體所的二年級博士生,主要研究方向是多模態大模型與影片理解 ,在 NeurIPS 、ACM Multimedia 等頂級會議發表多篇論文,曾獲國家獎學金、北京市優秀本科畢業生等。

影片內容的快速增長給影片檢索技術,特別是細粒度影片片段檢索(VCMR),帶來了巨大挑戰。VCMR 要求系統根據文字查詢從影片庫中精準定位影片中的匹配片段,需具備跨模態理解和細粒度影片理解能力。

然而,現有研究多侷限於粗粒度理解,難以應對細粒度查詢。為此,來自清華大學的研究者提出自動化影片 - 文字細粒度標註系統 VERIFIED,並基於此係統構建新的細粒度 VCMR 基準資料集(Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG),以推動細粒度影片理解的發展。
圖片
  • 論文題目:VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding (NeurIPS 2024 Track on Datasets and Benchmarks)

  • 論文連結:https://arxiv.org/pdf/2410.08593

  • 主頁連結:https://verified-neurips.github.io/

一、介紹

影片語料庫時刻檢索(VCMR)旨在根據文字查詢從大量影片中精確定位特定片段。傳統 VCMR 基準的影片標註多為粗粒度標註,影片與文字間存在多對多問題,無法支援細粒度影片檢索的訓練與評估(圖 1 (a)),因此有必要為細粒度 VCMR 建立一個合適的 benchmark。為解決此問題,該研究提出了細粒度 VCMR 場景,使用更精細的文字查詢消除資料集中的多對多現象(圖 1 (b))。然而建立此類細粒度的 benchmark 有如下的挑戰:

(1)人工標註細粒度資訊成本高昂,是否可以利用大模型技術實現這一過程?
(2)研究證明大模型存在幻覺問題,如果利用大模型進行標註,如何設計一種方法保證標註資料的質量?

為此,該研究設計了自動細粒度影片標註系統 VERIFIED(圖 1 (c)),透過大模型生成富含靜態和動態資訊的標註,並且基於微調 video foundation model 設計了一個高效的標註質量評估模組,基於此構建了 Charades-FIG、DiDeMo-FIG 和 ActivityNet-FIG 高質量細粒度 VCMR 基準,以推動細粒度 VCMR 研究發展。
圖片
圖 1:a) 粗粒度 VCMR 中,因查詢文字簡單,存在許多潛在正匹配(綠色),但這些時刻未被標註,導致真實標註不合理。b) 該研究提出的具有挑戰性的細粒度 VCMR 中,查詢更細粒度,方法需要從部分匹配的候選項(粉色)中檢索出最匹配的一個(綠色)。c) 該研究的 VERIFIED 生成了可靠細粒度標註,包括豐富靜態(綠色)和動態細節(藍色)。

二、VERIFIED 影片細粒度標註系統
圖片
圖 2:VERIFIED 流程圖。Statics Enhanced Captioning(A)和 Dynamics Enhanced Captioning(B),它們生成帶有靜態和動態細節的多個細粒度描述候選。此外,該研究設計了一個 Fine-Granularity Aware Noise Evaluator(C),該模組生成並選擇被擾動的正負樣本,透過難負樣本增強的對比損失和匹配損失來微調 UMT。這個評估器對描述進行評分,以識別不準確描述。

圖 2 展示了該研究的 VERIFIED 標註流程圖。為了讓大模型像人類那樣對影片中的細粒度資訊進行標註,該研究設計了 Statics Enhanced Captioning 和 Dynamics Enhanced Captioning 模組,分別對靜態與動態細節進行描述。靜態資訊增強模組透過提取影片關鍵幀,分析前景和背景屬性,生成多個靜態細粒度描述,豐富影片的靜態視覺資訊。動態資訊增強模組則根據影片的一個粗粒度標註,首先由 LLM 生成與影片動態內容相關的問題,使用影片問答系統(VQA)獲取動態細節,進而生成多個動態細粒度標註,幫助模型更好地理解影片中的動作和變化。

為了保證資料標註的質量,該研究設計了一個細粒度感知的噪聲評估模組,其目的在於從前面模組標註的資料中,篩選出可靠的細粒度標註,主要透過以下步驟進行:

(1)擾動文字生成:評估器首先從原始粗粒度標註中生成正向和負向的擾動文字。這些文字透過引入難例(挑戰樣本)與原始標註進行對比,以提高模型對細粒度差異的敏感度。

(2)篩選最優擾動:透過使用預訓練模型(如 SentenceBERT),評估器從生成的擾動文字中挑選最合適的正向改寫和最具挑戰性的負向改寫,保證生成的文字與原始標註的語義距離合理。

(3)損失函式:引入上述正向和負向的擾動文字,計算文字和影片間的對比損失和匹配損失。引入正向擾動文字是為了防止 LLM 生成文字的潛在的 bias,引入負向擾動文字作為困難負樣本增強模型對細粒度資訊的感知能力。

最後該研究用這個模組對標註資料進行打分,用來作為資料篩選的標準。該研究將 VERIFIED 系統應用於 Charades-STA、DiDeMo、ActivityNet Captions 資料集,對每個影片片段篩選分數最高的標註,得到新的 Charades-FIG、DiDeMo-FIG、ActivityNet-FIG 資料集,作為細粒度 VCMR 的 benchmark。

圖 3 圖 4 展示了該研究的標註中具有代表性的視覺化樣本。
圖片
圖 3:(1-3)分別節選自 ActivityNet-FIG、Charades-FIG、DiDeMo-FIG 資料集,靜態和動態的細粒度內容分別用綠色和藍色標出,不準確的內容用紅色標出。
圖片
圖 4:(1) 本文構建的標註捕捉到了狗與訓犬師之間的互動以及狗的運動軌跡。(2) 捕捉到了人物拋擲物體的細節,並傳達了這個人多次拋擲的資訊。(3) 讀取了視覺內容中的文字資訊,並正確表達了使用原料的順序。

統計資料和使用者實驗還表明影片片段與標註文字之間的多對多現象得到了顯著減少,標註細粒度和質量得到了使用者的認可。

三、VCMR 實驗

本文評估了 HERO、XML、ReLoCLNet、CONQUER、SQuiDNet 方法,分別在 Charades-FIG、DiDeMo-FIG、ActivityNet-FIG 上,對 VCMR(影片庫片段檢索)、VR(影片檢索)、SVMR(單影片片段檢索)任務進行了測評,對於片段檢索指標,以 0.5/r10 為例,0.5/r10 表示召回的 top-10 個片段中與 ground truth 的 IoU 大於 0.5 的比例,結果如圖 5、6 所示。不同模型在影片檢索任務中的表現各異,兩階段方法(如 CONQUER、SQuiDNet)通常優於單階段的方法,所以訓練過程中應當避免將影片級別和片段級別的學習糾纏在一起,因為這可能會干擾模型對精確時刻定位的能力,進而影響整體效能,未來研究應該關注如何有效分離影片級別和片段級別的學習,併合理引入細粒度資訊。
圖片
圖 5:細粒度 VCMR、VR 實驗結果
圖片
圖 6:細粒度 SVMR 實驗結果

為了說明該研究的細粒度訓練資料對於提升模型的細粒度影片檢索能力的意義,圖 7 展示了 XML 在 Charades-FIG 上訓練時,使用不同細粒度訓練資料的預測結果視覺化。當使用粗粒度資料進行訓練時,真實值影片不在時刻排名列表的前 100 名內。排名靠前的預測主要集中在膝上型電腦上,而忽略了其他細節。使用該研究細粒度資料時,效能大大提升。它在排名第 5 位找到了目標時刻,後面的其他候選也與查詢高度相關。這展示了細粒度 VCMR 場景中的挑戰以及該研究的 VERIFIED 系統生成的標註資料在訓練中的有效性。
圖片
圖 7:XML 在 Charades-FIG 上使用不同細粒度訓練資料的部分預測結果

四、結論

現有 VCMR 基準資料集以粗粒度為主,限制了模型對細粒度影片特徵的學習。為此,該研究提出了 VERIFIED 自動標註系統,結合大語言模型和多模態大模型生成細粒度的靜態和動態標註,並透過微調 UMT 作為資料評估模組提高標註可靠性。基於 VERIFIED 系統,該研究構建了新的細粒度 VCMR 資料集(Charades-FIG、DiDeMo-FIG、ActivityNet-FIG),評估了現有 VCMR 模型在細粒度場景上的表現,實驗發現現有檢索模型在處理細粒度資訊時仍與現實需求存在較大差距。

參考工作
[1] Unmasked teacher: Towards training-efficient video foundation models
[2] Tall: Temporal activity localization via language query
[3] Localizing moments in video with natural language
[4] Dense-captioning events in videos

相關文章