如希望進一步交流,歡迎聯絡作者:
Gang Wu (gawu@adobe.com),
https://wugangwu.github.io
使用以人為中心的模式的高亮檢測。我們的方法在每個輸入影片中識別可觀察到的模式,如姿態和麵孔,並將它們在時間和不同人的相互關係編碼為高亮分數,用於高亮檢測。
高亮分數的無註釋訓練。我們不需要突出顯示註釋、示例、使用者偏好或特定於領域的知識。相反,我們只需要使用現成的模式檢測技術來檢測一個或多個以人為中心的模式來訓練我們的高亮分數。
與域和使用者無關的效能。我們訓練過的網路在由以人為中心的影片組成的多個基準資料集上進行評估,並在不同領域和使用者偏好上的高亮檢測方面實現了最先進的效能。
人內邊捕捉單個人節點之間的空間關係,例如,姿勢關節之間的骨骼和麵部地標之間的聯結器。這些邊代表了在每個影片幀上模態的基線結構。
人際邊連線每個影片幀中不同人的相同節點,例如,根到根、頭對頭。這些邊捕捉了不同人的節點相互互動關係。它們為每一對人形成一個二部圖,表示每個影片幀上的人際互動。
同時邊是一個人在多個影片幀上連線的相同節點,例如,根到根、頭對頭。這些邊捕捉了每個人的節點是如何隨著時間而演變的。它們為每一對影片幀形成一個二部圖,表示活動和互動隨時間的演變。
(1)
其中表示Hadamard的結果。我們現在可以將我們的目標重寫為公式 1 中的最小化D。同時對於每個模態m也最小化。我們注意到方程的一個平凡的解。1 是選擇一個閾值 0≤τ≤T,然後從 Xm 中最具代表性的頂級 τ 的高亮分數為 1,對所有其他幀的高亮分數為 0。然而,選擇 τ 並不簡單,在實踐中需要從資料中學習。因此,我們訓練了一個基於自動編碼器的深度神經網路來學習廣泛資料的高亮分數。我們還允許高亮分數在[0,1]中是連續的,以保持我們的網路的可微性。此外,使高亮分數連續也有助於我們理解每一幀的相對代表性,這是現代高亮檢測系統[53,42]的一個內建元件。
3.3. 網路架構
圖3顯示了我們用於預測從輸入影片中得到高亮影片片段的整體網路架構。我們網路的目標是學習每一幀高亮的分數,以最小化一個類似公式1的形式。我們的網路透過採用可觀察的每幀基於圖的表示來實現這一點。它試圖使用盡可能少的輸入模式的幀來重建影片中的所有活動,即加權重建,其中權重是高亮的分數。在訓練過程中,我們的網路學會了為具有更高代表性的幀分配更高的高亮分數。我們將詳細描述我們的網路架構。
圖3:使用以人為中心的模式的高亮檢測:我們的學習網路概述,突出顯示來自多種以人為中心的模式的分數。我們使用標準技術[29,12]來檢測以人為中心的模式。我們將這些模式表示為二維或三維中的連線點集合。我們並行地訓練所有模式的網路。網路之間唯一的互動點是他們預測的高亮分數,我們將其合併到我們的加權高亮分數中進行訓練。
我們的自動編碼器架構由一個編碼器、一個得分器和一個解碼器組成。我們的編碼器從一個輸入影片中獲取每個可觀察模態m的時空圖表示。它使用一個單獨的時空圖卷積網路(STGCN)[56,28,9]將每個模態m的轉換為基於潛在活動的特徵,Dl是潛在特徵中每個節點的維數。因此,我們有了如下操作,
其中,表示由得到的鄰接矩陣,由編碼器中的一組可訓練的STGCN引數組成。我們在這裡注意到資料形成了一個全秩張量,因此STGCN避免了將0的退化解分配給所有。
我們基於活動的潛在特徵連線到我們的得分器,它由一層時空圖卷積組成,然後是每個模態的s型操作。我們的得分器將每個轉換為每個節點的標準化高亮分數,即,
(3)
其中表示s型函式,由可訓練STGCN引數組成。
我們的解碼器採用基於潛在活動的特徵和每個模態m的亮點得分,並透過與每個節點形成的 Hadamard 積來產生加權潛在特徵的維數,即
(4)
換句話說,我們的目標是選擇中對應於中最具代表性的幀的潛在特徵。在訓練過程中,我們的得分器成功地學會了將更高的值分配給代表更具代表性幀的特徵,並在重建過程中有利於它們。
從加權潛在特徵中,我們的解碼器使用另一個STGCN生成輸入圖節點的重建,即
(5)
其中由解碼器中的一組可訓練的STGCN引數組成。
3.4. 訓練損失函式
類似於公式1,我們訓練我們的網路架構,以最大限度地重構所有模式下的輸入圖節點,同時最小化考慮用於重構的幀數。我們的方法是基於這樣一個假設,即具有更高代表性的影片幀,構成了更清晰的影片摘錄。因此,實際上我們的目標是在輸入影片的重建中抑制儘可能多的幀,同時只強調具有高代表性的幀。
給定每個模態的突出分數,我們執行所有維度的最大的分數池,但獲得,該模態影片的每幀的最大突出分數,即
(6)
我們還考慮了每個模態m的加權貢獻,這樣權重就與輸入影片中模態可見的幀數成正比。如果該模態的一半以上的組成點在幀中可見,那麼我們定義一個模態在幀中是可觀察到的。根據這個定義,我們為每個模態m構造一個權值為
(7)
注意,因為每一幀可以包含無和所有模式之間。
緊接著,我們為影片的所有幀構造加權突出顯示分數作為
(8)
最後,給定解碼器重建和每個模態的權重,我們構建我們的損失函式 L來訓練我們的網路
(9)
其中合併所有可訓練引數、和,為正則化因子。
4. 實施和測試
我們在大規模的AVA-Kinetics資料集[31]上訓練我們的網路。該資料集由235個訓練影片和64個驗證影片組成,每個15分鐘,並在1秒的剪輯中標註動作標籤。我們忽略了動作標籤,並使用原始影片來訓練和驗證我們的高亮檢測網路。該資料集由各種各樣的人類活動組成,但沒有監督一些精彩的摘錄。因此,它適合於我們的學習任務,以檢測人類特有的突出顯示摘錄。由於記憶體限制,我們以30秒不重疊的節錄處理每個影片,總共有7050個訓練節錄和1920個驗證節錄。
4.1. 實施
我們使用M = 2的模式、姿態和人臉,這是我們在所有資料集中測試我們方法最容易觀察到的兩種模式。其他模式,如手勢和眼球運動,要麼很少可見,要麼有噪聲檢測。我們根據CMU泛視模型[21,37]建立姿態圖,並根據Geitgey[12]的面部地標模型建立面部地標圖。
我們使用最先進的多人跟蹤器[29]來跟蹤所有影片幀中的人,並用最先進的姿態探測器[37]和麵部地標探測器[12],來分別檢測他們的姿勢和麵部地標。
為了給每個模態構建圖,我們考慮了每一幀中最多P = 20的人,並考慮了結合過去和未來的時間邊到30f的時間相鄰幀,f是處理影片的幀率。當可用時,我們在過去和未來使用相同數量的幀來進行時間鄰接。我們已經觀察到了在2到5幀率的準確性和記憶體需求方面的有效效能,在我們的實驗中使用幀率f=5。
我們使用Adam最佳化器[27]訓練200輪,批處理尺寸大小為2,初始學習率為10-3,動量為0.9,權重衰減為10^-4。在每輪訓練之後,我們的學習率都會降低0.999倍。在英偉達GeForce GTX 1080Ti GPU上大約需要40分鐘,總訓練時間約為4.6個GPU天數。
4.2. 測試
在測試時,我們根據公式8得到輸入影片所有幀的加權突出顯示分數。我們將高於某個分數閾值的所有連續幀組合起來,以生成影片精彩片段。我們還可以使用類似於[44]的方法連線摘錄來建立基線影片摘要。根據我們的實驗結果,我們觀察到當≥0.5能夠檢測到基準資料集中具有代表性的高光片段。
在實踐中,我們將透過提供一種機制來對摘錄進行排序,將給定影片的最終選擇留給使用者。我們為每個高亮片段分配一個分數,即其每個組成幀的加權高亮分數的平均值。我們根據這些分數對摘錄進行排序,這樣使用者就可以選擇自己的閾值來獲得超過這些閾值的摘錄。他們選擇的閾值越高,在閾值下存活下來的摘錄就越少,從而減少了他們篩選較不具代表性摘錄的人工工作量。
5. 實驗
我們在兩個大規模的公共基準資料集上評估了我們的方法和目前最先進的影片高亮檢測方法的效能:領域特定重點(DSH)資料集[47]和個人重點檢測資料集(PHD2)[11]。我們還在較小公共資料集TVSum[46]和SumMe[15]上進行了評估。然而與當前任何方法不同的是,我們都沒有在這些資料集上訓練或微調我們的方法。我們還透過從訓練和評估中刪除單個模式來測試我們網路消融版本的效能。
5.1. 資料集
DSH資料集[47]由YouTube上橫跨六個特定領域類別的影片組成:狗的表演、體操、跑酷、滑冰、滑雪和衝浪。每個域中大約有 100個影片,總時長約為 1,430 分鐘,大約有 600個影片。PHD2資料集[11]的測試集由總共約10萬個YouTube影片組成,總計約55800分鐘,由850名使用者根據其偏好標註的高光片段組成。更小一些的TVSum資料集[46]有50個YouTube影片,總計約210分鐘,橫跨10個領域:養蜂(BK)、腳踏車技巧(BT)、狗展(DS)、閃耀(FM)、梳理動物(GA)、製作三明治(MS)、遊行(PR)、跑酷(PK)、車輛輪胎(VT)和車輛鬆開(VU)。SumMe資料集[15]只有25個個人影片,總計約66分鐘。
5.2. 評估指標
我們使用與相應影片中註釋高光匹配的檢測高光的平均精度(mAP)來評估所有方法。平均精度是評價高光檢測[47,17,11,53,42]的常用度量。我們注意到,在評估高亮的情況下,每個影片的精度需要單獨考慮,而不是跨影片考慮。這是因為從一個影片中檢測到的高亮片段不一定比另一個影片[47]的非高亮片段有更高的高亮分數。我們還報告了我們的方法在所有資料集和基線方法在SumMe資料集[15]上的平均F分數(精度和召回率的諧波平均值,透過計算所有影片上資料的平均值得到)。
5.3. 基線方法
我們與DSH資料集[47]上的4個基線、PHD2資料集[11]上的4個基線、TVSum資料集[46]和SumMe資料集[15]上的7個基線進行了比較。我們報告瞭如文獻中所述的基線方法的效能。
在DSH資料集上,我們與Sun等人的潛在基於SVM的高亮排序方法(LSVM) [47]、使用具有完全連線層學習的C3D特徵進行高亮排序的Video2GIF方法[17]、Yang等人基於無監督魯棒迴圈自動編碼器的方法(RRAE) [57]和Xiong等人的方法(越少越多)[53]進行了比較。Xiong等人的方法透過使用影片的持續時間作為弱監督標籤來學習對高光進行排序,並認為較短的影片更有可能被編輯,從而更容易曝光。
在資料集PHD2上,我們再次與方法Video2GIF [17]進行比較,使用GoogLeNet的完全卷積序列網路(FCSN)來學習基於影像的特徵來高亮檢測[44],以及自適應FCSN方法(ADFCSN)[42],它還包括一個歷史編碼器來適應使用者的歷史重點偏好來檢測個性化的亮點。我們還依據[42]使用一個完全隨機的高亮檢測器作為最低基線方法。
在TVSum資料集上,我們再次與基於持續時間的高光檢測方法(LessisMore)[53]、Chu等人基於視覺相關的使用最大雙峰發現(MBF)來獲得與原始影片相關併發鏡頭的方法[7]、Potapov等人基於核心在語義一致的片段上訓練SVM的影片總結方法(KVS)[41]、Panda等人的使用共識正則化器來檢測滿足稀疏性、多樣性和代表性的突出顯示片段的協作影片總結方法(CVS) [40] 以及馬哈塞尼等人的使用具有對抗性損失的LSTM(Adv-LSTM)無監督影片總結方法[36]進行比較。
在SumMe資料集上,我們再次比較了Gygli等人[15] 基於興趣度總結的(Int.)自適應FCSN(Ad-FCSN)[42]、Gygli等人[16]基於子模組化的總結方法(Sub.)、Zhang等人[63]採用行列式點過程(DPP-LSTM)的LSTM網路、基於 GAN 和額外監督 (GAN-S)的方法[35],Zhou 等人基於深度強化學習的具有額外監督的方法(DRL-S) [67]以及使用編碼器-解碼器體系結構從序列資料中檢測具有高度相關性片段的檢測方法(S2N)[52]。
5.4. 結果
DSH[47]和TVSum[46]。我們分別在表1和表3中報告了DSH和TVSum資料集中所有域的mAP。除在少數領域之外,我們的方法都優於基線方法。這些非最優的領域要麼不是完全以人類為中心(養蜂、狗展、梳理動物和製作三明治),要麼由於在影片中沒有檢測到足夠的姿勢和臉而使我們的方法受到阻礙(DSH中的衝浪影片)。然而在這些非最優表現的領域上,我們的方法僅次於表現最好的基線方法。平均而言,在所有領域中,我們的方法比效能最好的基線方法高出4%-12%的絕對值。
PHD2[11]。我們在表2中報告了跨資料集的mAP。考慮到在這個資料集的影片中檢測到大量的人類數量,我們的方法比表現最好的基線方法高出4%。
SumMe[15]。我們在表4中報告了整個資料集的平均F分數。按照之前的方法[52,42],我們隨機選擇20%的資料集來計算平均F分數,重複這個實驗5次,並報告平均效能。基於這些實驗,我們比表現最好的基線方法高出4%的絕對值。這些結果表明,我們使用以人為中心的模式來檢測高亮的方法在所有基準資料集上表現出了最先進的效能。
表1:在DSH資料集[47]上的平均精度。粗體:最好,下劃線:第二好。我們方法在衝浪領域表現第二好,因為沒有檢測到足夠的姿勢和麵孔,而在所有其他領域表現最好。
表2:PHD2[11]的平均精度。粗體:最好,下劃線:第二好。
表3:TVSum資料集[46]上的平均平均精度。域名的完整形式見第5.1節。粗體:最好,下劃線:第二好。我們的方法在不完全以人類為中心的領域(BK、DS、GA、MS)表現第二,在所有其他領域表現最好。
表4:SumMe資料集[15]上的F分數。粗體:最好,下劃線:第二好。
5.5. 消融研究
在我們的工作中,我們考慮了兩種模式,姿勢和麵孔。我們依次廢除這兩種模態,並透過在剩餘的模態上訓練網路來測試我們方法的效能。我們在表5中報告了我們方法的消融版本在所有四個基準資料集的影片中的平均mAP和平均F分數。
表5:在基準資料集上,我們的方法的不同消融版本的平均mAP和平均f分數的比較。粗體:最好,下劃線:第二好。
我們觀察到與使用這兩種模式相比,僅使用姿勢而不使用人臉的方法在資料集中平均 mAP 的絕對值下降了 5%-7%,平均 F 得分下降了 3%-8%。然而,我們觀察到只使用面孔而不使用姿勢的方法,造成更嚴重的下降,平均mAP的絕對值下降4%-13%,平均F分數下降2%-13%。這是因為姿勢在以人為中心的影片中更為豐富,而且比面部地標更容易被檢測到。例如,即使人類被部分遮擋,在黑暗環境中或被不清晰聚焦時,姿勢也可以被檢測到,而檢測到面部標誌需要面部有良好的光線和聚焦。因此,不檢測姿勢造成大量的摘錄損失。這一趨勢只在PHD2中發生逆轉,因為在那裡面孔比姿勢更容易被檢測到。
我們還在圖5中展示了我們的方法及其所有消融版本在DSH、PHD2、TVSum和SuMMe四個資料集中的一個樣本影片的定性效能結果。我們可以看到,當只觀察姿勢而不是面孔時,我們的方法無法檢測到主要有面部表情和情緒的代表性摘錄。相反,當只觀察面孔而不是姿勢時,我們的方法只能檢測面孔突出的摘錄,而忽略面孔太小、太遮擋或在黑暗中的摘錄。使用這兩種模式,我們的方法可以檢測到所有有代表性的摘錄。
圖5:透過我們的方法檢測到的高亮顯示示例幀。我們展示了使用我們方法不同消融版本檢測到的高亮分數範圍內的樣本影片幀。我們展示了來自資料集SumMe[15](左上)、PHD2[11](右上)、DSH[47](左下)和TVSum[46](右下)的一個示例影片。當只使用面孔或姿勢時,我們的方法只基於面部或姿勢的代表性來學習高亮分數。結合這兩種模式,我們的方法學習基於代表性的突出分數。
5.6. 突出顯示分數閾值的效果
在我們的方法中,我們使用高亮分數的閾值來檢測高於該閾值的高光摘錄。我們在圖4中顯示了我們的閾值對DSH資料集中[47]中每個域的平均精度(mAP)的影響。我們觀察到,隨著我們對閾值的增加,mAP的總體趨勢逐漸下降,因為我們的方法返回的高光點越來越少。但是,對於某些領域(例如衝浪)而言,情況並非如此,因為其中代表性摘錄的高亮分數已經足夠高。在實踐中,我們考慮閾值的選擇取決於使用者的偏好,因此我們建議將它作為可供使用者為每個影片配置的引數。
圖4:不同高亮閾值下的的平均AP得分。在DSH資料集中[47]中的域上。
6. 結論、侷限性及未來的工作
我們提出了一種新的基於神經網路的方法來檢測以人為中心的影片中的高亮點。我們的方法可以利用影片中可觀察到的以人為中心的模式,如面部和姿勢,並自動使用這些模式來檢測影片中最具代表性的亮點。在特定領域的高光(DSH)資料集[47]、個人高光檢測資料集(PHD2)[11]、TVSum資料集[46]和SumMe資料集[15]上的廣泛實驗結果表明,與幾個最先進的基線方法相比,我們提出的方法擁有更好的效能。
不過我們的方法也有一定的侷限性。雖然我們的網路設計為可以容納任意數量的模式,但我們只在基準測試中使用了具有最好平均效能的人臉和姿態兩種模式。然而,許多影片(例如,關於梳理動物的影片,製作三明治的影片TVSum)展示了其他模式,如手和手指。因此,我們計劃在未來將更多以人類為中心的模式納入我們的實驗中。我們的方法可能不會為以非人類為中心的影片提供太多的效能提升,如通常關注其他類別的生命或無生命物體或自然場景的影片。我們計劃在未來使用適當的模式來探索這些領域。我們的方法還可以與特定領域的特性相結合,或與使用者偏好相適應,透過微調以檢測出更多的高亮點。
參考文獻
[1] Hillel Aviezer, Yaacov Trope, and Alexander Todorov. Body cues, not facial expressions, discriminate between intense positive and negative emotions. Science, 338(6111):1225–1229, 2012. 2
[2] Uttaran Bhattacharya, Trisha Mittal, Rohan Chandra, Tanmay Randhavane, Aniket Bera, and Dinesh Manocha. Step: Spatial temporal graph convolutional networks for emotion perception from gaits. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20), page 1342–1350. AAAI Press, 2020. 2, 3
[3] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee, and Shrikanth S Narayanan. Iemocap: Interactive emotional dyadic motion capture database. Language resources and evaluation, 42(4):335, 2008. 3
[4] Sijia Cai, Wangmeng Zuo, Larry S. Davis, and Lei Zhang. Weakly-supervised video summarization using variational encoder-decoder and web prior. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2
[5] C. Chen, R. Jafari, and N. Kehtarnavaz. Utd-mhad: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In 2015 IEEE International Conference on Image Processing (ICIP), pages 168–172, 2015. 3
[6] Chong-Wah Ngo, Yu-Fei Ma, and Hong-Jiang Zhang. Automatic video summarization by graph modeling. In Proceedings Ninth IEEE International Conference on Computer Vision, pages 104–109 vol.1, 2003. 2
[7] Wen-Sheng Chu, Yale Song, and Alejandro Jaimes. Video co-summarization: Video summarization by visual cooccurrence. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7
[8] Cisco. Annual internet report (2018–2023): https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/complete-white-paper-c11-481360.html# toc484813989. CISCO White paper, 2020. 1
[9] Micha¨el Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29, pages 3844–3852. Curran Associates, Inc., 2016. 4
[10] Annalisa Franco, Antonio Magnani, and Dario Maio. A multimodal approach for human activity recognition based on skeleton and rgb data. Pattern Recognition Letters, 131:293–299, 2020. 3
[11] Ana Garcia del Molino and Michael Gygli. Phd-gifs: Personalized highlight detection for automatic gif creation. In Proceedings of the 26th ACM International Conference on Multimedia, MM ’18, page 600–608, New York, NY, USA, 2018. Association for Computing Machinery. 1, 2, 6, 7, 8
[12] Adam Geitgey. Face Recognition, 2020. 3, 4, 5
[13] Boqing Gong, Wei-Lun Chao, Kristen Grauman, and Fei Sha. Diverse sequential subset selection for supervised video summarization. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems, volume 27, pages 2069–2077. Curran Associates, Inc., 2014. 2
[14] Hongxiang Gu and Viswanathan Swaminathan. From thumbnails to summaries-a single deep neural network to rule them all. In 2018 IEEE International Conference on Multimedia and Expo (ICME), pages 1–6. IEEE, 2018. 2, 4
[15] Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. Creating summaries from user videos. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 505–520, Cham, 2014. Springer International Publishing. 2, 6, 7, 8
[16] Michael Gygli, Helmut Grabner, and Luc Van Gool. Video summarization by learning submodular mixtures of objectives. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7
[17] Michael Gygli, Yale Song, and Liangliang Cao. Video2gif: Automatic generation of animated gifs from video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. 2, 6, 7
[18] Yifan Jiao, Zhetao Li, Shucheng Huang, Xiaoshan Yang, Bin Liu, and Tianzhu Zhang. Three-dimensional attention-based deep ranking model for video highlight detection. IEEE Transactions on Multimedia, 20(10):2693–2705, 2018. 2
[19] Yifan Jiao, Tianzhu Zhang, Shucheng Huang, Bin Liu, and Changsheng Xu. Video highlight detection via region-based deep ranking model. International Journal of Pattern Recognition and Artificial Intelligence, 33(07):1940001, 2019. 2
[20] Hideo Joho, Jacopo Staiano, Nicu Sebe, and Joemon M Jose. Looking at the viewer: analysing facial activity to detect personal highlights of multimedia contents. Multimedia Tools and Applications, 51(2):505–523, 2011. 2
[21] Hanbyul Joo, Tomas Simon, Xulong Li, Hao Liu, Lei Tan, Lin Gui, Sean Banerjee, Timothy Scott Godisart, Bart Nabbe, Iain Matthews, Takeo Kanade, Shohei Nobuhara, and Yaser Sheikh. Panoptic studio: A massively multiview system for social interaction capture. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. 5
[22] Aditya Khosla, Raffay Hamid, Chih-Jen Lin, and Neel Sundaresan. Large-scale video summarization using web-image priors. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2
[23] Gunhee Kim, Leonid Sigal, and Eric P. Xing. Joint summarization of large-scale collections of web images and videos for storyline reconstruction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 1, 2
[24] Gunhee Kim and Eric P. Xing. Reconstructing storyline graphs for image recommendation from web community photos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2
[25] Hoseong Kim, Tao Mei, Hyeran Byun, and Ting Yao. Exploiting web images for video highlight detection with triplet deep ranking. IEEE Transactions on Multimedia,
20(9):2415–2426, 2018. 1, 2
[26] Yelin Kim, Honglak Lee, and Emily Mower Provost. Deep learning for robust feature generation in audiovisual emotion recognition. ICASSP, pages 3687–3691, 2013. 3
[27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 5
[28] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016. 4
[29] Muhammed Kocabas. Simple Multi Person Tracker, 2019. 3, 4, 5
[30] Y. J. Lee, J. Ghosh, and K. Grauman. Discovering important people and objects for egocentric video summarization. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1346–1353, 2012. 2
[31] Ang Li, Meghana Thotakuri, David A Ross, Jo˜ao Carreira, Alexander Vostrikov, and Andrew Zisserman. The ava-kinetics localized human actions video dataset. arXiv preprint arXiv:2005.00214, 2020. 5
[32] G. Li, Y. Zhao, M. Ji, X. Yuan, and L. Fang. Zoom in to the details of human-centric videos. In 2020 IEEE International Conference on Image Processing (ICIP), pages 3089–3093, 2020. 2
[33] Jianan Li, Xuemei Xie, Qingzhe Pan, Yuhan Cao, Zhifu Zhao, and Guangming Shi. Sgm-net: Skeleton-guided multimodal network for action recognition. Pattern Recognition, 104:107356, 2020. 3
[34] S. Li and W. Deng. Deep facial expression recognition: A survey. IEEE Transactions on Affective Computing, pages 1–1, 2020. 2
[35] Zheng Lu and Kristen Grauman. Story-driven summarization for egocentric video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2, 7
[36] Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages 202–211, 2017. 1, 2, 4, 6, 7
[37] D. Mehta, O. Sotnychenko, F. Mueller, W. Xu, S. Sridhar, G. Pons-Moll, and C. Theobalt. Single-shot multi-person 3d pose estimation from monocular rgb. In 2018 International Conference on 3D Vision (3DV), pages 120–130, 2018. 5
[38] Trisha Mittal, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. M3er: Multiplicative multimodal emotion recognition using facial, textual, and speech cues. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI’20, pages 1359–1367. AAAI Press, 2020. 2, 3
[39] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. Emoticon: Context-aware multimodal emotion recognition using frege’s principle. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 3
[40] Rameswar Panda and Amit K. Roy-Chowdhury. Collaborative summarization of topic-related videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. 2, 6, 7
[41] Danila Potapov, Matthijs Douze, Zaid Harchaoui, and Cordelia Schmid. Category-specific video summarization. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 540–555, Cham, 2014. Springer International Publishing. 2, 6, 7
[42] Mrigank Rochan, Mahesh Kumar Krishna Reddy, Linwei Ye, and Yang Wang. Adaptive video highlight detection by learning from user history. In Proceedings of the European Conference on Computer Vision (ECCV), August 2020. 1, 2, 4, 6, 7
[43] Mrigank Rochan and Yang Wang. Video summarization by learning from unpaired data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition (CVPR), June 2019. 2
[44] Mrigank Rochan, Linwei Ye, and Yang Wang. Video summarization using fully convolutional sequence networks. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2, 6, 7
[45] A. Shahroudy, T. Ng, Y. Gong, and G. Wang. Deep multimodal feature analysis for action recognition in rgb+d videos. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(5):1045–1058, 2018. 3
[46] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7, 8
[47] Min Sun, Ali Farhadi, and Steve Seitz. Ranking domain specific highlights by analyzing edited videos. In European conference on computer vision, pages 787–802. Springer, 2014. 1, 2, 4, 6, 7, 8
[48] Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin, Hongxu Jiang, Qian Yu, and Dong Xu. Human-centric spatio-temporal video grounding with visual transformers. arXiv preprint arXiv:2011.05049, 2020. 2
[49] Ba Tu Truong and Svetha Venkatesh. Video abstraction: A systematic review and classification. ACM Trans. Multimedia Comput. Commun. Appl., 3(1):3–es, Feb. 2007. 2
[50] Paul Vicol, Makarand Tapaswi, Llu´ıs Castrej´on, and Sanja Fidler. Moviegraphs: Towards understanding human-centric situations from videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 1, 2
[51] Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu Xiang, Zerun Wang, Guiguang Ding, David Brady, Qionghai Dai, and Lu Fang. Panda: A gigapixel-level human-centric video dataset. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 2
[52] Zijun Wei, Boyu Wang, Minh Hoai Nguyen, Jianming Zhang, Zhe Lin, Xiaohui Shen, Radomir Mech, and Dimitris Samaras. Sequence-to-segment networks for segment detection. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 31, pages 3507–3516. Curran Associates, Inc., 2018. 2, 6, 7
[53] Bo Xiong, Yannis Kalantidis, Deepti Ghadiyaram, and Kristen Grauman. Less is more: Learning highlight detection from video duration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1258–1267, 2019. 1, 2, 4, 6, 7
[54] Bo Xiong, Gunhee Kim, and Leonid Sigal. Storyline representation of egocentric videos with an applications to story-based search. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2
[55] Jia Xu, Lopamudra Mukherjee, Yin Li, Jamieson Warner, James M. Rehg, and Vikas Singh. Gaze-enabled egocentric video summarization via constrained submodular maximization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2
[56] Sijie Yan, Yuanjun Xiong, and Dahua Lin. Spatial temporal graph convolutional networks for skeleton-based action recognition. In Sheila A. McIlraith and Kilian Q. Weinberger, editors, Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), pages 7444–7452. AAAI Press, 2018. 2, 3, 4
[57] Huan Yang, Baoyuan Wang, Stephen Lin, David Wipf, Minyi Guo, and Baining Guo. Unsupervised extraction of video highlights via robust recurrent auto-encoders. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2, 6, 7
[58] Ting Yao, Tao Mei, and Yong Rui. Highlight detection with pairwise deep ranking for first-person video summarization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 982–990, 2016. 2
[59] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94 – 109, 1998. 2
[60] Youngjae Yu, Sangho Lee, Joonil Na, Jaeyun Kang, and Gunhee Kim. A deep ranking model for spatio-temporal highlight detection from a 360 video. pages 7525–7533, 2018. 2
[61] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In ACL (Volume 1: Long Papers), pages 2236–2246, 2018. 3
[62] Wenjun Zeng. Toward human-centric deep video understanding. APSIPA Transactions on Signal and Information Processing, 9:e1, 2020. 1
[63] Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 766–782, Cham, 2016. Springer International Publishing. 1, 2, 6, 7
[64] Ke Zhang, Kristen Grauman, and Fei Sha. Retrospective encoders for video summarization. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2
[65] Bin Zhao, Xuelong Li, and Xiaoqiang Lu. Hierarchical recurrent neural network for video summarization. In Proceedings of the 25th ACM International Conference on Multimedia, MM ’17, page 863–871, New York, NY, USA, 2017. Association for Computing Machinery. 2
[66] Bin Zhao and Eric P. Xing. Quasi real-time summarization for consumer videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2
[67] Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with diversity-representativeness reward. pages 7582–7589, 2018. 1, 2, 6, 7