ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

机器之心發表於2021-10-12
以人為中心的影片是關注人類執行和表達活動、任務和情感的影片。這種型別的影片極大地促進了離線和線上個人和共享媒體的快速增長。這些影片來自多個領域,如業餘體育和表演、講座、教程、影片部落格(vlog),以及個人或團體活動,如野餐、假日旅行。然而,未經編輯的以人為中心的影片也往往包含大量無關和無趣的內容,需要對它們進行編輯和標記,以便高效瀏覽。

為了解決這個問題,許多方法探索了自動檢測高亮片段或摘錄和總結影片的技術。對於未經編輯的鏡頭,高亮檢測的目的是獲取預先定義的興趣時刻,而提取概要的目的是計算最相關和最有代表性的摘錄。檢測有效的高亮內容不僅可以加快瀏覽速度,還可以提高高亮內容被分享和推薦的機率。現有方法透過有監督學習來實現這樣的高亮檢測,但必須依賴於:人工標記的高亮片段,或不同高亮類別的示例。另外,這些方法並沒有明確地模擬人類活動或人際互動,而實際生活中大部分影片的主要焦點都與此密切相關。

能否在無需人工註釋的前提下,生成對以人為中心的影片的高亮集錦?近日,我們提出了一種針對以人為主體的影片的自動高亮集錦生成的方法,在無需任何人工註釋和使用者偏好資訊來完成訓練的前提下,該方法比現有最優方法在匹配人工註釋的準確度上提升了 4%~12%。該工作已被 ICCV 2021 接收。

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

論文連結:https://arxiv.org/pdf/2110.01774.pdf

如希望進一步交流,歡迎聯絡作者:

Gang Wu (gawu@adobe.com), 

https://wugangwu.github.io

在這篇論文中,我們提出了一種領域和使用者偏好無關的方法來檢測以人為中心的影片中的高亮片段。我們使用基於圖表達的方法作為影片中多個可觀察到的以人為中心的模式,如姿勢和麵孔。我們使用一個配備了時空圖卷積的自動編碼器網路來檢測基於這些模式的人類活動和互動。我們基於幀的代表性訓練我們的網路,從而將不同模式的基於活動和互動的潛在結構表示對映到每幀的高亮得分。我們使用這些分數來計算突出哪些幀,並結合相鄰幀來產生摘錄。我們在大規模動作資料集 AVA-Kinetics 上訓練我們的網路,並在 DSH、TVSum、PHD 和 SumMe 四個基準影片高亮資料集上評估網路。在這些資料集中,與最先進的方法相比,我們在不需要任何使用者偏好資訊或對新資料集調參的情況下在匹配人工標註的高亮上的平均精度上提高了 4%-12%。

1. 引言

以人為中心的影片是關注人類執行和表達活動、任務和情感的影片 [62,50]。這種型別的影片極大地促進了離線和線上個人和共享媒體[8] 的快速增長。這些影片來自多個領域,如業餘體育和表演、講座、教程、影片部落格(vlog),以及個人或團體活動,如野餐、假日旅行。然而,未經編輯的以人為中心的影片也往往包含大量無關和無趣的內容,需要對它們進行編輯和標記,以便高效瀏覽[47]。

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

圖 1:使用以人為中心的模式檢測高亮摘錄。我們的方法利用了多種以人為中心的模式以檢測亮點,例如,可以在關注人類活動的影片中觀察到的身體姿勢和麵部。我們使用每個模態的二維或三維互聯點表示來構建一個時空圖表示來計算高亮分數。

為了解決這個問題,許多方法探索了自動檢測高亮片段或摘錄和總結影片的技術 [11,53,42,63,44,67]。對於未經編輯的鏡頭,高亮檢測的目的是獲取預先定義的興趣時刻,而提取概要的目的是計算最相關和最有代表性的摘錄。檢測有效的高亮內容不僅可以加快瀏覽速度,還可以提高高亮內容被分享和推薦的機率[53]。現有方法透過有監督學習來實現這樣的高亮檢測,但必須依賴於:人工標記的高亮片段[47,11],或不同高亮類別的示例,例如,從滑雪影像學習來檢測影片中的滑雪高亮片段[23,25]。其他方法透過學習每一幀或拍攝相對於原始影片[36] 的代表性,並利用影片後設資料,如持續時間 [53] 和拍攝 [67,64] 的相關性,從而消除了監督的需要。所有這些方法要麼假設或符合未編輯片段的一些特定領域的知識,例如,跑步和跳躍可能在跑酷影片中更相關,而滑動動作可能在滑雪影片中可能更相關。其他方法不考慮特定領域的知識,不用檢測個性化的亮點[42],而是考慮多個使用者預先記錄的偏好。

無論它們是假定特定領域的知識還是使用者偏好,現有的方法都可以在構成影片的幀或鏡頭的二維影像空間中工作。最先進的基於影像的網路可以學習豐富的語義特徵,捕獲影像中各種檢測物件之間的相互關係,從而實現有效的高光檢測。然而,這些方法並沒有明確地模擬人類活動或人際互動,而這些都是以人為中心的影片的主要焦點。與此同時,開發以人為中心的影片的方法對於各種任務至關重要,包括表達和情緒識別 [34,2,38]、活動識別[56]、場景理解[50,32]、人群分析[51]、影片超分重建[32] 和基於文字的影片捕捉[48]。這些方法表明,以人為中心的影片需要與普通影片分開處理,透過利用以人為中心的模式,如姿勢和麵孔。因此,這表明了將以人為中心的影片理解機制帶到高亮檢測任務中的餘地和必要性。

我們開發了一個端到端學習系統,它可以檢測以人類為中心的影片中的高亮顯示,而不需要特定領域的知識、高亮顯示註釋或示例。我們的方法利用透過多種感覺通道或方式表達的人類活動和互動,包括面孔、眼睛、聲音、身體姿勢,手勢[1,38]。我們對所有以人為中心的模式使用基於圖的表達方式,來充分表示每個模式的固有結構包括各種活動和互動是如何隨著時間的推移而演變的。我們的網路使用時空圖卷積從這些基於圖的表示中學習,並使用自動編碼器架構對映每幀模式到高亮分數。我們的高亮分數是基於影片中所有幀的代表性,將連續的幀拼接在一起,透過產生最終的摘錄來得到的。我們的新貢獻包括:
  • 使用以人為中心的模式的高亮檢測。我們的方法在每個輸入影片中識別可觀察到的模式,如姿態和麵孔,並將它們在時間和不同人的相互關係編碼為高亮分數,用於高亮檢測。

  • 高亮分數的無註釋訓練。我們不需要突出顯示註釋、示例、使用者偏好或特定於領域的知識。相反,我們只需要使用現成的模式檢測技術來檢測一個或多個以人為中心的模式來訓練我們的高亮分數。

  • 與域和使用者無關的效能。我們訓練過的網路在由以人為中心的影片組成的多個基準資料集上進行評估,並在不同領域和使用者偏好上的高亮檢測方面實現了最先進的效能。

我們的方法在基準特定領域的影片高亮 (DSH) 資料集 [47] 和個人高亮檢測資料集 (PHD2)[11] 資料集上匹配的人工註釋高亮片段的平均精度分別為 0.64 和 0.20,比相應的現有方法高出 7% 和 4%(絕對值)。我們還在 TVSum[46]和 SuMMe[15]較小基準資料集上實現了最先進的效能,在平均精度和平均 F 得分上分別比目前最先進的基線方法高出 12% 和 4%(絕對值)。即使對於不完全以人為中心的領域(例如,狗展)或未檢測到足夠以人為中心的模式的影片,我們方法的效能也可與當前最先進方法相媲美。

2. 相關工作

影片摘要的突出檢測和密切相關問題已經在計算機視覺、多媒體和相關領域得到了廣泛的研究。早期的方法使用了包括基於視覺化內容的聚類、場景轉換圖、幀 [59,6,49] 的時間方差和表示語義資訊的手工特徵,如面部活動 [20] 的各種技術。另一方面,最近的方法利用了一系列令人印象深刻的深度學習工具和技術來實現高亮檢測和影片總結。

高亮檢測。高亮檢測的目標是檢測影片感興趣時刻或未經編輯影片的摘錄 [49,47]。大量方法將此視為監督排名問題,因此高亮摘錄的排名高於所有其他摘錄[47,17,58,18,11,60,19,52]。這些方法假設了高可讀摘錄的人類註釋標籤的可用性,並訓練網路學習與這些標籤相關的通用或特定領域的排名指標。另一方面,弱監督和無監督的高光檢測方法透過利用示例或影片後設資料,消除了標籤依賴性。這些樣本包括描繪了特定領域的動作的網路影像,如體操和滑雪[25]。影片後設資料包括關於影片類別[57] 的資訊,或有助於區分未編輯影片和編輯影片的屬性,例如持續時間[53]。一些方法還考慮到使用者的偏好來生成個性化的亮點[42]。所有這些方法都在每一影片幀的二維影像空間中執行計算,並且不使用以人人為中心的模式。

影片摘要影片摘要的主要目標是提供各種格式的簡潔的影片合成,包括故事線圖 [24,54]、關鍵幀序列[30]、剪輯[15,64],以及基於使用者需求[14] 的混合物。影片摘要通常被認為是一個滿足一致性 [35]、多樣性,和代表性[40,67] 的無監督子序列估計任務。無監督摘要方法建立在多個概念之上,如視覺共現 [7]、影片幀和鏡頭之間的時間相關性[23,36,44,64]、學習類別感知分類器[41] 和類別感知特徵學習 [66,46]。其他方法採用弱監督的方法,使用範例網路影像和影片[24,22,4,43],以及類別描述[41,40] 作為先驗。然而,另一些方法使用監督學習與人類註釋的摘要,使用子集選擇 [13]、視覺重要性評分[30,15]、子模組混合[16,55] 和時間相互關係[63,64,65]。雖然我們的目標是高光檢測,但我們的方法受到這些影片摘要方法的啟發。特別是,我們確保我們的亮點分數捕捉到了影片中的代表性並能夠進行穩健的特徵重建。

多模態學習大量工作都集中在多模態動作識別 [5,45,33,10] 和情緒識別 [3,26,61,38,39] 上。這些方法觀察並結合了來自多種人類表達方式的線索,包括面部、姿勢、聲調、眼球運動、手和身體手勢和步態。現有方法通常使用點和圖 [33,3,38] 對觀察模式進行建模,使它們適合學習動作和情緒的特徵。在我們的工作中,我們利用了這樣一個事實,即以人類為中心的影片的高摘錄可以根據這些模式來確定。根據多模態動作和情緒識別 [33,38] 的最新趨勢,我們還將影片中各幀中觀察到的模式建模為時空圖,並利用它們來學習我們的高亮分數。

3. 多模式高亮檢測

對於以人為中心的影片,我們的目標是從影片中檢測出感興趣的時刻或亮點。本節詳細介紹了我們如何透過利用從影片中觀察到的以人為中心的模式來檢測這些亮點。

3.1. 人類中心模式

在我們的工作中,我們使用術語 “模式” 來暗示對人類活動和互動作用敏感的人類表達通道,例如,面孔、眼睛、身體姿勢、手、步態 [5,38,39]。活動由個體的表達和互動構成,包括與他人、其他生命和無生命的物體的互動,並與各種行動[56,10] 和情緒 [2,39] 有關。我們認為人類更喜歡以人類為中心的影片,來關注這些活動和互動。因此,我們的目標是從我們的網路中觀察到以人類為中心的模式進行學習。對於檢測到的每個人的模態,我們的網路利用不同時間例項的相互關係以及不同人之間的相互關係來檢測最具代表性的摘錄。

當我們從影片幀的 RGB 影像空間表示中提取這些模式時,我們注意到這些模式比一般的影像空間表示更能捕獲到豐富的影片幀語義資訊。影像空間表示建立在影像不同部分之間強度差異的變化基礎上,而沒有對不同部分如何相互作用進行理解。另一方面,模式提供了基於其結構的互動洞察,例如,利用手臂和腿的相對動作來表示某些動作,以及各種面部標誌的相對運動來表示某些表情和情緒。我們建立我們的網路來明確地考慮每個模態的結構,以及這些結構包括活動和相互作用隨著時間的演變。

我們考慮從輸入影片中可觀察到的 M≥1 的以人類為中心的模式。我們假設這些模態是使用標準的模態檢測和跟蹤技術 [29,12] 提取的,並使用一組二維或三維的互聯點來表示,例如一組二維面部地標或一組三維身體關節的姿勢。

為了表示每個模態 m=1,…,我們構建了一個時空圖表示 Gm={Vm,Em}。Vm 中的節點表示相應模態的點,Em 中的邊表示模態的結構以及該結構如何隨時間的演化。為了充分捕捉到這一點,我們考慮了三種邊型別:
  • 人內邊捕捉單個人節點之間的空間關係,例如,姿勢關節之間的骨骼和麵部地標之間的聯結器。這些邊代表了在每個影片幀上模態的基線結構。

  • 人際邊連線每個影片幀中不同人的相同節點,例如,根到根、頭對頭。這些邊捕捉了不同人的節點相互互動關係。它們為每一對人形成一個二部圖,表示每個影片幀上的人際互動。

  • 同時邊是一個人在多個影片幀上連線的相同節點,例如,根到根、頭對頭。這些邊捕捉了每個人的節點是如何隨著時間而演變的。它們為每一對影片幀形成一個二部圖,表示活動和互動隨時間的演變。

這些節點的空間位置和所有這些邊的組合使我們的網路能夠學習影片中所有人類的活動和互動,並相應地學習高亮分數,而不需要任何關於影片領域或使用者提供的偏好的先驗知識

3.2. 影片幀的代表性

由於我們的目標是在不需要註釋或示例的情況下檢測影片中的亮點,因此我們的方法與檢測影片中的代表幀一致,類似於影片摘要中已完成的工作 [36, 14]。雖然檢測影像空間中的代表幀有可能或沒可能有利於檢測影片的感興趣時刻[47],但我們觀察到,事實上檢測以人為中心的模式空間中的代表幀,是有利於在以人為中心的影片中檢測感興趣時刻。

我們將影片幀的代表性定義為在某個度量空間中,影片和沒有該幀的影片之間的差異。差異越大,該框架的代表性就越高。直觀地說,幀的代表性衡量它包含的與整個影片相關的資訊的比例。我們在高亮檢測方面的目標是從具有最大代表性的影片中檢測到最小的幀集。

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

圖 2:代表性。我們展示了不同影片幀在姿態(左)和地標(右)計算的不同代表性值。我們根據代表性來學習高亮分數。

在我們的工作中,我們測量了可觀測模式的度量空間中的代表性。圖 2 顯示了姿態和地標空間中不同代表性值的影片幀示例。我們認為每個影片都由一個總的 T 幀和 P 人組成(具有較少的幀和人的影片是適當的用零填充的。因此,對於每個模態 m,Vm 總共由 N×T×P 節點組成,其中 N 為每人的節點數。我們將這些節點整理成一個張量ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%,其中ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%是指每幀 t,D 是每個節點的空間維數,最常見的是 2 或 3。接著,我們可以將高亮分數ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%置為 0 或 1 以反映每幀 t 的代表性。因此,我們可以將淨差值 D 作為將高亮值寫為,

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%(1)

其中ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%表示Hadamard的結果。我們現在可以將我們的目標重寫為公式 1 中的最小化D。同時對於每個模態m也最小化ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%。我們注意到方程的一個平凡的解。1 是選擇一個閾值 0≤τ≤T,然後從 Xm 中最具代表性的頂級 τ 的高亮分數為 1,對所有其他幀的高亮分數為 0。然而,選擇 τ 並不簡單,在實踐中需要從資料中學習。因此,我們訓練了一個基於自動編碼器深度神經網路來學習廣泛資料的高亮分數。我們還允許高亮分數在[0,1]中是連續的,以保持我們的網路的可微性。此外,使高亮分數連續也有助於我們理解每一幀的相對代表性,這是現代高亮檢測系統[53,42]的一個內建元件。

3.3.  網路架構

圖3顯示了我們用於預測從輸入影片中得到高亮影片片段的整體網路架構。我們網路的目標是學習每一幀高亮的分數,以最小化一個類似公式1的形式。我們的網路透過採用可觀察的每幀基於圖的表示來實現這一點。它試圖使用盡可能少的輸入模式的幀來重建影片中的所有活動,即加權重建,其中權重是高亮的分數。在訓練過程中,我們的網路學會了為具有更高代表性的幀分配更高的高亮分數。我們將詳細描述我們的網路架構。

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

圖3:使用以人為中心的模式的高亮檢測:我們的學習網路概述,突出顯示來自多種以人為中心的模式的分數。我們使用標準技術[29,12]來檢測以人為中心的模式。我們將這些模式表示為二維或三維中的連線點集合。我們並行地訓練所有模式的網路。網路之間唯一的互動點是他們預測的高亮分數,我們將其合併到我們的加權高亮分數中進行訓練。

我們的自動編碼器架構由一個編碼器、一個得分器和一個解碼器組成。我們的編碼器從一個輸入影片中獲取每個可觀察模態m的時空圖表示ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%。它使用一個單獨的時空圖卷積網路(STGCN)[56,28,9]將每個模態m的ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%轉換為基於潛在活動的特徵ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%,Dl是潛在特徵中每個節點的維數。因此,我們有了如下操作,

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

其中,ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%表示由ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%得到的鄰接矩陣,ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%由編碼器中的一組可訓練的STGCN引數組成。我們在這裡注意到資料ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%形成了一個全秩張量,因此STGCN避免了將0的退化解分配給所有ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

我們基於活動的潛在特徵ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%連線到我們的得分器,它由一層時空圖卷積組成,然後是每個模態的s型操作。我們的得分器將每個ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%轉換為每個節點的標準化高亮分數ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%,即,

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%(3)

其中ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%表示s型函式,ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%由可訓練STGCN引數組成。

我們的解碼器採用基於潛在活動的特徵ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%和每個模態m的亮點得分ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%,並透過與每個節點形成ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%的 Hadamard 積來產生加權潛在特徵ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%的維數,即

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%(4)

換句話說,我們的目標是選擇ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%中對應於ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%中最具代表性的幀的潛在特徵。在訓練過程中,我們的得分器成功地學會了將更高的ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%值分配給代表更具代表性幀的ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%特徵,並在重建過程中有利於它們。

從加權潛在特徵ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%中,我們的解碼器使用另一個STGCN生成輸入圖節點的重建ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%,即

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%(5)

其中由解碼器中的一組可訓練的STGCN引數組成。

3.4.  訓練損失函式

類似於公式1,我們訓練我們的網路架構,以最大限度地重構所有模式下的輸入圖節點,同時最小化考慮用於重構的幀數。我們的方法是基於這樣一個假設,即具有更高代表性的影片幀,構成了更清晰的影片摘錄。因此,實際上我們的目標是在輸入影片的重建中抑制儘可能多的幀,同時只強調具有高代表性的幀。

給定每個模態的突出分數ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%,我們執行所有維度的最大的分數池,但獲得ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%,該模態影片的每幀的最大突出分數,即

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%(6)

我們還考慮了每個模態m的ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%加權貢獻,這樣權重就與輸入影片中模態可見的幀數成正比。如果該模態的一半以上的組成點在幀中可見,那麼我們定義一個模態在幀中是可觀察到的。根據這個定義,我們為每個模態m構造一個權值ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%(7)

注意ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%,因為每一幀可以包含無和所有模式之間。

緊接著,我們為影片的所有幀構造加權突出顯示分數ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%作為

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%(8)

最後,給定解碼器重建ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%和每個模態的權重ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%,我們構建我們的損失函式 L來訓練我們的網路

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%(9)

其中合併所有可訓練引數ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%正則化因子。

4. 實施和測試

我們在大規模的AVA-Kinetics資料集[31]上訓練我們的網路。該資料集由235個訓練影片和64個驗證影片組成,每個15分鐘,並在1秒的剪輯中標註動作標籤。我們忽略了動作標籤,並使用原始影片來訓練和驗證我們的高亮檢測網路。該資料集由各種各樣的人類活動組成,但沒有監督一些精彩的摘錄。因此,它適合於我們的學習任務,以檢測人類特有的突出顯示摘錄。由於記憶體限制,我們以30秒不重疊的節錄處理每個影片,總共有7050個訓練節錄和1920個驗證節錄。

4.1.  實施

我們使用M = 2的模式、姿態和人臉,這是我們在所有資料集中測試我們方法最容易觀察到的兩種模式。其他模式,如手勢和眼球運動,要麼很少可見,要麼有噪聲檢測。我們根據CMU泛視模型[21,37]建立姿態圖,並根據Geitgey[12]的面部地標模型建立面部地標圖。

我們使用最先進的多人跟蹤器[29]來跟蹤所有影片幀中的人,並用最先進的姿態探測器[37]和麵部地標探測器[12],來分別檢測他們的姿勢和麵部地標。

為了給每個模態構建圖,我們考慮了每一幀中最多P = 20的人,並考慮了結合過去和未來的時間邊到30f的時間相鄰幀,f是處理影片的幀率。當可用時,我們在過去和未來使用相同數量的幀來進行時間鄰接。我們已經觀察到了在2到5幀率的準確性和記憶體需求方面的有效效能,在我們的實驗中使用幀率f=5。

我們使用Adam最佳化器[27]訓練200輪,批處理尺寸大小為2,初始學習率為10-3,動量為0.9,權重衰減為10^-4。在每輪訓練之後,我們的學習率都會降低0.999倍。在英偉達GeForce GTX 1080Ti GPU上大約需要40分鐘,總訓練時間約為4.6個GPU天數。

4.2.  測試

在測試時,我們根據公式8得到輸入影片所有幀的加權突出顯示分數。我們將高於某個分數閾值的所有連續幀組合起來,以生成影片精彩片段。我們還可以使用類似於[44]的方法連線摘錄來建立基線影片摘要。根據我們的實驗結果,我們觀察到當≥0.5能夠檢測到基準資料集中具有代表性的高光片段。

在實踐中,我們將透過提供一種機制來對摘錄進行排序,將給定影片的最終選擇留給使用者。我們為每個高亮片段分配一個分數,即其每個組成幀的加權高亮分數的平均值。我們根據這些分數對摘錄進行排序,這樣使用者就可以選擇自己的閾值來獲得超過這些閾值的摘錄。他們選擇的閾值越高,在閾值下存活下來的摘錄就越少,從而減少了他們篩選較不具代表性摘錄的人工工作量。

5. 實驗

我們在兩個大規模的公共基準資料集上評估了我們的方法和目前最先進的影片高亮檢測方法的效能:領域特定重點(DSH)資料集[47]和個人重點檢測資料集(PHD2)[11]。我們還在較小公共資料集TVSum[46]和SumMe[15]上進行了評估。然而與當前任何方法不同的是,我們都沒有在這些資料集上訓練或微調我們的方法。我們還透過從訓練和評估中刪除單個模式來測試我們網路消融版本的效能。

5.1.  資料集

DSH資料集[47]由YouTube上橫跨六個特定領域類別的影片組成:狗的表演、體操、跑酷、滑冰、滑雪和衝浪。每個域中大約有 100個影片,總時長約為 1,430 分鐘,大約有 600個影片。PHD2資料集[11]的測試集由總共約10萬個YouTube影片組成,總計約55800分鐘,由850名使用者根據其偏好標註的高光片段組成。更小一些的TVSum資料集[46]有50個YouTube影片,總計約210分鐘,橫跨10個領域:養蜂(BK)、腳踏車技巧(BT)、狗展(DS)、閃耀(FM)、梳理動物(GA)、製作三明治(MS)、遊行(PR)、跑酷(PK)、車輛輪胎(VT)和車輛鬆開(VU)。SumMe資料集[15]只有25個個人影片,總計約66分鐘。

5.2.  評估指標

我們使用與相應影片中註釋高光匹配的檢測高光的平均精度(mAP)來評估所有方法。平均精度是評價高光檢測[47,17,11,53,42]的常用度量。我們注意到,在評估高亮的情況下,每個影片的精度需要單獨考慮,而不是跨影片考慮。這是因為從一個影片中檢測到的高亮片段不一定比另一個影片[47]的非高亮片段有更高的高亮分數。我們還報告了我們的方法在所有資料集和基線方法在SumMe資料集[15]上的平均F分數(精度和召回率的諧波平均值,透過計算所有影片上資料的平均值得到)。

5.3.  基線方法

我們與DSH資料集[47]上的4個基線、PHD2資料集[11]上的4個基線、TVSum資料集[46]和SumMe資料集[15]上的7個基線進行了比較。我們報告瞭如文獻中所述的基線方法的效能。

在DSH資料集上,我們與Sun等人的潛在基於SVM的高亮排序方法(LSVM) [47]、使用具有完全連線層學習的C3D特徵進行高亮排序的Video2GIF方法[17]、Yang等人基於無監督魯棒迴圈自動編碼器的方法(RRAE) [57]和Xiong等人的方法(越少越多)[53]進行了比較。Xiong等人的方法透過使用影片的持續時間作為弱監督標籤來學習對高光進行排序,並認為較短的影片更有可能被編輯,從而更容易曝光。

在資料集PHD2上,我們再次與方法Video2GIF [17]進行比較,使用GoogLeNet的完全卷積序列網路(FCSN)來學習基於影像的特徵來高亮檢測[44],以及自適應FCSN方法(ADFCSN)[42],它還包括一個歷史編碼器來適應使用者的歷史重點偏好來檢測個性化的亮點。我們還依據[42]使用一個完全隨機的高亮檢測器作為最低基線方法。

在TVSum資料集上,我們再次與基於持續時間的高光檢測方法(LessisMore)[53]、Chu等人基於視覺相關的使用最大雙峰發現(MBF)來獲得與原始影片相關併發鏡頭的方法[7]、Potapov等人基於核心在語義一致的片段上訓練SVM的影片總結方法(KVS)[41]、Panda等人的使用共識正則化器來檢測滿足稀疏性、多樣性和代表性的突出顯示片段的協作影片總結方法(CVS) [40] 以及馬哈塞尼等人的使用具有對抗性損失的LSTM(Adv-LSTM)無監督影片總結方法[36]進行比較。

在SumMe資料集上,我們再次比較了Gygli等人[15] 基於興趣度總結的(Int.)自適應FCSN(Ad-FCSN)[42]、Gygli等人[16]基於子模組化的總結方法(Sub.)、Zhang等人[63]採用行列式點過程(DPP-LSTM)的LSTM網路、基於 GAN 和額外監督 (GAN-S)的方法[35],Zhou 等人基於深度強化學習的具有額外監督的方法(DRL-S) [67]以及使用編碼器-解碼器體系結構從序列資料中檢測具有高度相關性片段的檢測方法(S2N)[52]。

5.4. 結果

DSH[47]和TVSum[46]。我們分別在表1和表3中報告了DSH和TVSum資料集中所有域的mAP。除在少數領域之外,我們的方法都優於基線方法。這些非最優的領域要麼不是完全以人類為中心(養蜂、狗展、梳理動物和製作三明治),要麼由於在影片中沒有檢測到足夠的姿勢和臉而使我們的方法受到阻礙(DSH中的衝浪影片)。然而在這些非最優表現的領域上,我們的方法僅次於表現最好的基線方法。平均而言,在所有領域中,我們的方法比效能最好的基線方法高出4%-12%的絕對值。

PHD2[11]。我們在表2中報告了跨資料集的mAP。考慮到在這個資料集的影片中檢測到大量的人類數量,我們的方法比表現最好的基線方法高出4%。

SumMe[15]。我們在表4中報告了整個資料集的平均F分數。按照之前的方法[52,42],我們隨機選擇20%的資料集來計算平均F分數,重複這個實驗5次,並報告平均效能。基於這些實驗,我們比表現最好的基線方法高出4%的絕對值。這些結果表明,我們使用以人為中心的模式來檢測高亮的方法在所有基準資料集上表現出了最先進的效能。

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

表1:在DSH資料集[47]上的平均精度。粗體:最好,下劃線:第二好。我們方法在衝浪領域表現第二好,因為沒有檢測到足夠的姿勢和麵孔,而在所有其他領域表現最好。

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

表2:PHD2[11]的平均精度。粗體:最好,下劃線:第二好。

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

表3:TVSum資料集[46]上的平均平均精度。域名的完整形式見第5.1節。粗體:最好,下劃線:第二好。我們的方法在不完全以人類為中心的領域(BK、DS、GA、MS)表現第二,在所有其他領域表現最好。

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

表4:SumMe資料集[15]上的F分數。粗體:最好,下劃線:第二好。

5.5. 消融研究

在我們的工作中,我們考慮了兩種模式,姿勢和麵孔。我們依次廢除這兩種模態,並透過在剩餘的模態上訓練網路來測試我們方法的效能。我們在表5中報告了我們方法的消融版本在所有四個基準資料集的影片中的平均mAP和平均F分數。

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

表5:在基準資料集上,我們的方法的不同消融版本的平均mAP和平均f分數的比較。粗體:最好,下劃線:第二好。

我們觀察到與使用這兩種模式相比,僅使用姿勢而不使用人臉的方法在資料集中平均 mAP 的絕對值下降了 5%-7%,平均 F 得分下降了 3%-8%。然而,我們觀察到只使用面孔而不使用姿勢的方法,造成更嚴重的下降,平均mAP的絕對值下降4%-13%,平均F分數下降2%-13%。這是因為姿勢在以人為中心的影片中更為豐富,而且比面部地標更容易被檢測到。例如,即使人類被部分遮擋,在黑暗環境中或被不清晰聚焦時,姿勢也可以被檢測到,而檢測到面部標誌需要面部有良好的光線和聚焦。因此,不檢測姿勢造成大量的摘錄損失。這一趨勢只在PHD2中發生逆轉,因為在那裡面孔比姿勢更容易被檢測到。

我們還在圖5中展示了我們的方法及其所有消融版本在DSH、PHD2、TVSum和SuMMe四個資料集中的一個樣本影片的定性效能結果。我們可以看到,當只觀察姿勢而不是面孔時,我們的方法無法檢測到主要有面部表情和情緒的代表性摘錄。相反,當只觀察面孔而不是姿勢時,我們的方法只能檢測面孔突出的摘錄,而忽略面孔太小、太遮擋或在黑暗中的摘錄。使用這兩種模式,我們的方法可以檢測到所有有代表性的摘錄。

ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

圖5:透過我們的方法檢測到的高亮顯示示例幀。我們展示了使用我們方法不同消融版本檢測到的高亮分數範圍內的樣本影片幀。我們展示了來自資料集SumMe[15](左上)、PHD2[11](右上)、DSH[47](左下)和TVSum[46](右下)的一個示例影片。當只使用面孔或姿勢時,我們的方法只基於面部或姿勢的代表性來學習高亮分數。結合這兩種模式,我們的方法學習基於代表性的突出分數。

5.6.  突出顯示分數閾值的效果

在我們的方法中,我們使用高亮分數的閾值來檢測高於該閾值的高光摘錄。我們在圖4中顯示了我們的閾值對DSH資料集中[47]中每個域的平均精度(mAP)的影響。我們觀察到,隨著我們對閾值的增加,mAP的總體趨勢逐漸下降,因為我們的方法返回的高光點越來越少。但是,對於某些領域(例如衝浪)而言,情況並非如此,因為其中代表性摘錄的高亮分數已經足夠高。在實踐中,我們考慮閾值的選擇取決於使用者的偏好,因此我們建議將它作為可供使用者為每個影片配置的引數


ICCV 2021 | Adobe提出短影片集錦自動生成新方法,準確度提升4%~12%

圖4:不同高亮閾值下的的平均AP得分。在DSH資料集中[47]中的域上。

6. 結論、侷限性及未來的工作

我們提出了一種新的基於神經網路的方法來檢測以人為中心的影片中的高亮點。我們的方法可以利用影片中可觀察到的以人為中心的模式,如面部和姿勢,並自動使用這些模式來檢測影片中最具代表性的亮點。在特定領域的高光(DSH)資料集[47]、個人高光檢測資料集(PHD2)[11]、TVSum資料集[46]和SumMe資料集[15]上的廣泛實驗結果表明,與幾個最先進的基線方法相比,我們提出的方法擁有更好的效能。

不過我們的方法也有一定的侷限性。雖然我們的網路設計為可以容納任意數量的模式,但我們只在基準測試中使用了具有最好平均效能的人臉和姿態兩種模式。然而,許多影片(例如,關於梳理動物的影片,製作三明治的影片TVSum)展示了其他模式,如手和手指。因此,我們計劃在未來將更多以人類為中心的模式納入我們的實驗中。我們的方法可能不會為以非人類為中心的影片提供太多的效能提升,如通常關注其他類別的生命或無生命物體或自然場景的影片。我們計劃在未來使用適當的模式來探索這些領域。我們的方法還可以與特定領域的特性相結合,或與使用者偏好相適應,透過微調以檢測出更多的高亮點。

參考文獻

[1] Hillel Aviezer, Yaacov Trope, and Alexander Todorov. Body cues, not facial expressions, discriminate between intense positive and negative emotions. Science, 338(6111):1225–1229, 2012. 2

[2] Uttaran Bhattacharya, Trisha Mittal, Rohan Chandra, Tanmay Randhavane, Aniket Bera, and Dinesh Manocha. Step: Spatial temporal graph convolutional networks for emotion perception from gaits. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20), page 1342–1350. AAAI Press, 2020. 2, 3

[3] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee, and Shrikanth S Narayanan. Iemocap: Interactive emotional dyadic motion capture database. Language resources and evaluation, 42(4):335, 2008. 3

[4] Sijia Cai, Wangmeng Zuo, Larry S. Davis, and Lei Zhang. Weakly-supervised video summarization using variational encoder-decoder and web prior. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2

[5] C. Chen, R. Jafari, and N. Kehtarnavaz. Utd-mhad: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In 2015 IEEE International Conference on Image Processing (ICIP), pages 168–172, 2015. 3

[6] Chong-Wah Ngo, Yu-Fei Ma, and Hong-Jiang Zhang. Automatic video summarization by graph modeling. In Proceedings Ninth IEEE International Conference on Computer Vision, pages 104–109 vol.1, 2003. 2

[7] Wen-Sheng Chu, Yale Song, and Alejandro Jaimes. Video co-summarization: Video summarization by visual cooccurrence. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7

[8] Cisco. Annual internet report (2018–2023): https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/complete-white-paper-c11-481360.html# toc484813989. CISCO White paper, 2020. 1

[9] Micha¨el Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29, pages 3844–3852. Curran Associates, Inc., 2016. 4

[10] Annalisa Franco, Antonio Magnani, and Dario Maio. A multimodal approach for human activity recognition based on skeleton and rgb data. Pattern Recognition Letters, 131:293–299, 2020. 3

[11] Ana Garcia del Molino and Michael Gygli. Phd-gifs: Personalized highlight detection for automatic gif creation. In Proceedings of the 26th ACM International Conference on Multimedia, MM ’18, page 600–608, New York, NY, USA, 2018. Association for Computing Machinery. 1, 2, 6, 7, 8

[12] Adam Geitgey. Face Recognition, 2020. 3, 4, 5

[13] Boqing Gong, Wei-Lun Chao, Kristen Grauman, and Fei Sha. Diverse sequential subset selection for supervised video summarization. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems, volume 27, pages 2069–2077. Curran Associates, Inc., 2014. 2

[14] Hongxiang Gu and Viswanathan Swaminathan. From thumbnails to summaries-a single deep neural network to rule them all. In 2018 IEEE International Conference on Multimedia and Expo (ICME), pages 1–6. IEEE, 2018. 2, 4

[15] Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. Creating summaries from user videos. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 505–520, Cham, 2014. Springer International Publishing. 2, 6, 7, 8

[16] Michael Gygli, Helmut Grabner, and Luc Van Gool. Video summarization by learning submodular mixtures of objectives. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7

[17] Michael Gygli, Yale Song, and Liangliang Cao. Video2gif: Automatic generation of animated gifs from video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. 2, 6, 7

[18] Yifan Jiao, Zhetao Li, Shucheng Huang, Xiaoshan Yang, Bin Liu, and Tianzhu Zhang. Three-dimensional attention-based deep ranking model for video highlight detection. IEEE Transactions on Multimedia, 20(10):2693–2705, 2018. 2

[19] Yifan Jiao, Tianzhu Zhang, Shucheng Huang, Bin Liu, and Changsheng Xu. Video highlight detection via region-based deep ranking model. International Journal of Pattern Recognition and Artificial Intelligence, 33(07):1940001, 2019. 2

[20] Hideo Joho, Jacopo Staiano, Nicu Sebe, and Joemon M Jose. Looking at the viewer: analysing facial activity to detect personal highlights of multimedia contents. Multimedia Tools and Applications, 51(2):505–523, 2011. 2

[21] Hanbyul Joo, Tomas Simon, Xulong Li, Hao Liu, Lei Tan, Lin Gui, Sean Banerjee, Timothy Scott Godisart, Bart Nabbe, Iain Matthews, Takeo Kanade, Shohei Nobuhara, and Yaser Sheikh. Panoptic studio: A massively multiview system for social interaction capture. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. 5

[22] Aditya Khosla, Raffay Hamid, Chih-Jen Lin, and Neel Sundaresan. Large-scale video summarization using web-image priors. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2

[23] Gunhee Kim, Leonid Sigal, and Eric P. Xing. Joint summarization of large-scale collections of web images and videos for storyline reconstruction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 1, 2

[24] Gunhee Kim and Eric P. Xing. Reconstructing storyline graphs for image recommendation from web community photos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2

[25] Hoseong Kim, Tao Mei, Hyeran Byun, and Ting Yao. Exploiting web images for video highlight detection with triplet deep ranking. IEEE Transactions on Multimedia,

20(9):2415–2426, 2018. 1, 2

[26] Yelin Kim, Honglak Lee, and Emily Mower Provost. Deep learning for robust feature generation in audiovisual emotion recognition. ICASSP, pages 3687–3691, 2013. 3

[27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 5

[28] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016. 4

[29] Muhammed Kocabas. Simple Multi Person Tracker, 2019. 3, 4, 5

[30] Y. J. Lee, J. Ghosh, and K. Grauman. Discovering important people and objects for egocentric video summarization. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1346–1353, 2012. 2

[31] Ang Li, Meghana Thotakuri, David A Ross, Jo˜ao Carreira, Alexander Vostrikov, and Andrew Zisserman. The ava-kinetics localized human actions video dataset. arXiv preprint arXiv:2005.00214, 2020. 5

[32] G. Li, Y. Zhao, M. Ji, X. Yuan, and L. Fang. Zoom in to the details of human-centric videos. In 2020 IEEE International Conference on Image Processing (ICIP), pages 3089–3093, 2020. 2

[33] Jianan Li, Xuemei Xie, Qingzhe Pan, Yuhan Cao, Zhifu Zhao, and Guangming Shi. Sgm-net: Skeleton-guided multimodal network for action recognition. Pattern Recognition, 104:107356, 2020. 3

[34] S. Li and W. Deng. Deep facial expression recognition: A survey. IEEE Transactions on Affective Computing, pages 1–1, 2020. 2

[35] Zheng Lu and Kristen Grauman. Story-driven summarization for egocentric video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2, 7

[36] Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages 202–211, 2017. 1, 2, 4, 6, 7

[37] D. Mehta, O. Sotnychenko, F. Mueller, W. Xu, S. Sridhar, G. Pons-Moll, and C. Theobalt. Single-shot multi-person 3d pose estimation from monocular rgb. In 2018 International Conference on 3D Vision (3DV), pages 120–130, 2018. 5

[38] Trisha Mittal, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. M3er: Multiplicative multimodal emotion recognition using facial, textual, and speech cues. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI’20, pages 1359–1367. AAAI Press, 2020. 2, 3

[39] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. Emoticon: Context-aware multimodal emotion recognition using frege’s principle. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 3

[40] Rameswar Panda and Amit K. Roy-Chowdhury. Collaborative summarization of topic-related videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. 2, 6, 7

[41] Danila Potapov, Matthijs Douze, Zaid Harchaoui, and Cordelia Schmid. Category-specific video summarization. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 540–555, Cham, 2014. Springer International Publishing. 2, 6, 7

[42] Mrigank Rochan, Mahesh Kumar Krishna Reddy, Linwei Ye, and Yang Wang. Adaptive video highlight detection by learning from user history. In Proceedings of the European Conference on Computer Vision (ECCV), August 2020. 1, 2, 4, 6, 7

[43] Mrigank Rochan and Yang Wang. Video summarization by learning from unpaired data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition (CVPR), June 2019. 2

[44] Mrigank Rochan, Linwei Ye, and Yang Wang. Video summarization using fully convolutional sequence networks. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2, 6, 7

[45] A. Shahroudy, T. Ng, Y. Gong, and G. Wang. Deep multimodal feature analysis for action recognition in rgb+d videos. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(5):1045–1058, 2018. 3

[46] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7, 8

[47] Min Sun, Ali Farhadi, and Steve Seitz. Ranking domain specific highlights by analyzing edited videos. In European conference on computer vision, pages 787–802. Springer, 2014. 1, 2, 4, 6, 7, 8

[48] Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin, Hongxu Jiang, Qian Yu, and Dong Xu. Human-centric spatio-temporal video grounding with visual transformers. arXiv preprint arXiv:2011.05049, 2020. 2

[49] Ba Tu Truong and Svetha Venkatesh. Video abstraction: A systematic review and classification. ACM Trans. Multimedia Comput. Commun. Appl., 3(1):3–es, Feb. 2007. 2

[50] Paul Vicol, Makarand Tapaswi, Llu´ıs Castrej´on, and Sanja Fidler. Moviegraphs: Towards understanding human-centric situations from videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 1, 2

[51] Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu Xiang, Zerun Wang, Guiguang Ding, David Brady, Qionghai Dai, and Lu Fang. Panda: A gigapixel-level human-centric video dataset. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 2

[52] Zijun Wei, Boyu Wang, Minh Hoai Nguyen, Jianming Zhang, Zhe Lin, Xiaohui Shen, Radomir Mech, and Dimitris Samaras. Sequence-to-segment networks for segment detection. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 31, pages 3507–3516. Curran Associates, Inc., 2018. 2, 6, 7

[53] Bo Xiong, Yannis Kalantidis, Deepti Ghadiyaram, and Kristen Grauman. Less is more: Learning highlight detection from video duration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1258–1267, 2019. 1, 2, 4, 6, 7

[54] Bo Xiong, Gunhee Kim, and Leonid Sigal. Storyline representation of egocentric videos with an applications to story-based search. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2

[55] Jia Xu, Lopamudra Mukherjee, Yin Li, Jamieson Warner, James M. Rehg, and Vikas Singh. Gaze-enabled egocentric video summarization via constrained submodular maximization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2

[56] Sijie Yan, Yuanjun Xiong, and Dahua Lin. Spatial temporal graph convolutional networks for skeleton-based action recognition. In Sheila A. McIlraith and Kilian Q. Weinberger, editors, Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), pages 7444–7452. AAAI Press, 2018. 2, 3, 4

[57] Huan Yang, Baoyuan Wang, Stephen Lin, David Wipf, Minyi Guo, and Baining Guo. Unsupervised extraction of video highlights via robust recurrent auto-encoders. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2, 6, 7

[58] Ting Yao, Tao Mei, and Yong Rui. Highlight detection with pairwise deep ranking for first-person video summarization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 982–990, 2016. 2

[59] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94 – 109, 1998. 2

[60] Youngjae Yu, Sangho Lee, Joonil Na, Jaeyun Kang, and Gunhee Kim. A deep ranking model for spatio-temporal highlight detection from a 360 video. pages 7525–7533, 2018. 2

[61] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In ACL (Volume 1: Long Papers), pages 2236–2246, 2018. 3

[62] Wenjun Zeng. Toward human-centric deep video understanding. APSIPA Transactions on Signal and Information Processing, 9:e1, 2020. 1

[63] Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 766–782, Cham, 2016. Springer International Publishing. 1, 2, 6, 7

[64] Ke Zhang, Kristen Grauman, and Fei Sha. Retrospective encoders for video summarization. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2

[65] Bin Zhao, Xuelong Li, and Xiaoqiang Lu. Hierarchical recurrent neural network for video summarization. In Proceedings of the 25th ACM International Conference on Multimedia, MM ’17, page 863–871, New York, NY, USA, 2017. Association for Computing Machinery. 2

[66] Bin Zhao and Eric P. Xing. Quasi real-time summarization for consumer videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2

[67] Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. pages 7582–7589, 2018. 1, 2, 6, 7

相關文章