準確估計第一人稱視訊中人的注視點能夠幫助計算機更好地預測人的關注區域,對於計算機自動理解人的動作和人與人之間的互動行為具有重要意義。近日,來自東京大學和湖南大學的研究者們提出了一個全新的視角和方法對這一問題進行建模,新的方法在第一人稱視訊的注視點估計任務上大大超出了已有方法的效能。目前這項研究工作已被全球計算機視覺三大頂會之一的歐洲計算機視覺大會 (ECCV 2018) 收錄,並被邀請赴會進行口頭報告 (Oral Presentation)。
論文:Predicting gaze in egocentric videos by learning task-dependent attention transition
背景
近年來,隨著行動式相機在記錄人們日常生活體驗(lifelogging)等方面的普及,基於第一人稱視角拍攝的視訊開始大量出現,而以自動分析理解第一人稱視訊為主要任務的第一人稱視覺逐漸得到研究者們的關注,成為計算機視覺領域的熱點方向之一。在第一人稱視訊中,注視點(gaze)被定義為人眼視線聚焦的區域,注視點及其周邊區域包含了與相機穿戴者相互動的物體或該穿戴者的意圖相關的重要資訊,因此,對第一人稱視訊注視點的自動預測(gaze prediction)能夠讓計算機重點關注視訊中與分析理解人的動作和意圖最相關的重要區域,減少第一人稱視覺的各種學習和推斷任務所需的計算量,提高視覺模型的建模效率。本文致力於提出一個有效的方法來實現對第一人稱視訊注視點的準確估計。
傳統方法通常將這一問題構建成一個視覺顯著性(visual saliency)的估計問題,通過自下而上(bottom-up)的方法框架從輸入影像或視訊中提取自定義的(例如手的位置)或可學習的視覺特徵(例如卷積神經網路),並進而訓練一個視覺模型來預測顯著性最高的區域作為肯能的注視點。但是,基於視覺顯著性的方法並不能有效地預測第一人稱視訊的注視點,尤其是在包含複雜的日常動作的視訊中,任務相關的高層知識對於人的注視點轉移有重要的影響,而基於視覺顯著性的模型並不能對來自頂端的任務知識進行建模。
核心思想
在日常生活場景中,為了完成某個複雜的物體互動任務,例如泡茶,人們會通過一系列的視線聚焦來注視與任務相關的多個物體並導引互動動作的完成。論文的作者們發現,在完成任務的過程中,人們的注視點並不會一直停留在視野中顯著的區域,而是會根據自己正在進行的任務來改變所注視的物體,且注視點的轉移與正在執行的任務密切相關。論文第一作者來自東京大學的博士生黃逸飛這樣介紹說「正在進行的任務資訊對人的注視點的轉移有著很重要的影響,舉例來說,在將水從瓶子倒入杯子的過程中,人們通常會先注視即將抓取的瓶子,然後在抓起瓶子後將注視點轉移到杯口來導引接下來的倒水動作。」
基於對人在完成物體互動任務過程中的視線聚焦行為的觀察和發現,此論文提出了一個遞迴神經網路來對注視點在時間上的轉移過程進行建模。值得注意的是,論文所建模的注視點轉移並不是單純的二維影像位置的轉移,而是注視點所對應區域的語義資訊的轉移。考慮到基於影像/視訊的視覺顯著性模型和基於任務的注視點轉移模型在建模方法上具有互補性,論文最後提出了一個混合型的網路架構(細節如下一節所述)將互補的兩個模型統一起來,注視點預測效能相比現有的方法取得了顯著的提升。
方法架構
圖 1:論文提出的注視點預測模型的網路架構
論文提出的注視點預測模型融合了自下而上的基於影像/視訊的視覺資訊和自上而下的基於任務的高層資訊,方法架構如圖 1 所示。首先,由於人的注視點通常是向著視野中的顯著區域,本文提出的模型首先基於一個自下而上的顯著性預測模組(Saliency Prediction Module,SP)。以第一人稱視訊作為輸入,作者採取了 Two stream encoder decoder 的全卷積網路結構,兩個 stream 的輸入分別為 rgb 影像和光流影像,輸出是包含各個影像位置的顯著性的熱圖(heatmap),並使用基於眼部跟蹤裝置的測量值生成的 heatmap 作為網路訓練時的真值(ground truth)。
在人與物體的日常互動活動中,人們並不會一直關注視野中顯著的區域,而是會根據自己正在進行的任務來調整關注的物體。因此,作為 SP 模組的補充,作者提出了注意轉移模組(Attention Transition Module,AT)來對關注物體在時間上的轉移過程進行建模,訓練時使用一系列視線聚焦時刻(gaze fixation)的注視點作為訓練資料。
最後,作者使用了一個 Late Fusion(LF)模組來融合 SP 和 AT 的結果。LF 模組由一個小型的卷積網路組成,它的輸出將作為整個注視點預測模型的最終結果。
注意轉移模組(AT)架構
圖 2:注意轉移模組的網路架構
論文的核心部分-AT 模組如圖 2 所示。為了表示注視點所關注的物體的語義資訊,一種直接的方式就是找到物體的分類,並學習不同物體分類之間的時間轉移關係。但是這種方式需要一個可靠的物體檢測和定位方法,由於有限的資料量,目前在第一人稱視訊的資料集中並沒有這樣可靠的物體檢測和定位方法。為了解決這個問題,作者利用了在深層卷積網路中比較深的卷積層中每一個 channel 都包含了高階語義資訊(比如物體分類)這樣的一個現象,利用給各個 channel 不同的權重來表示注視點所包含的語義資訊。具體而言,AT 模組首先從 SP 模組的 encoder 中提取最後一個卷積層的特徵圖(feature map),然後根據注視點所在影像的位置擷取特徵圖中的 RoI 區域(Region of Interest),並進行池化(Pooling)操作,得到一個表示卷積層不同 channel 權重的向量用於表示當前的注視點。根據一系列注視點的表示向量,論文訓練了一個 LSTM 網路,用於根據當前注視點的表示向量預測下一個時刻的注視點的表示向量。使用 LSTM 的預測向量和下一時刻的特徵圖進行加權平均,即可得到與所進行的任務相關的下一時刻注視點的預測位置。
實驗
實驗資料集:
本文使用了兩個公開的第一人稱視覺資料集:GTEA Gaze 和 GTEA Gaze Plus,來評價所提出的注視點預測模型的效能,並使用 AAE (Average Angle Error) 和 AUC (Area under Curve) 兩種評價標準。同時,為了檢驗模型的注意轉移學習能力,本文從 GTEA Gaze Plus 中選取並標註了部分資料(簡記為 GTEA-sub)來測試模型是否能夠正確的預測注意力的轉移。
不同方法的效能比較:
表 1 與不同參照方法在兩個公開資料集上的定量比較。本文所採用的方法得到了最高的 AAE 和最小的 AUC,也即意味著最好的注視點預測結果。
不同模組的有效性檢驗:
表 2 模型的不同模組在資料集上的表現比較。S-CNN bce 和 T-CNN bce:二元交叉熵(bce)損失函式訓練得到的單一 Stream 顯著性預測模組;S-CNN 和 T-CNN:作者改進的 bce 損失函式訓練得到的單一 Stream 顯著性預測模組;SP bce:bce 損失函式訓練得到的雙 Stream 顯著性預測模組;SP:作者改進的 bce 損失函式訓練得到的雙 Stream 顯著性預測模組;AT:注意轉移模組。
注視點預測結果的視覺化:
本文提出模型預測得到的注視點的視覺化。作者分別展示了顯著性預測模組、注意轉移模組和完整模型的四組輸出 heatmap。每組包含的兩張圖片分別來自兩次連續的注視,其中 a 發生在 b 之前。Ground truth 的 heatmap 通過在注視點座標周圍卷積高斯濾波器得到。由這一視覺化結果可以觀察到,本文提出的完整模型擁有最接近 ground truth 的預測結果。
交叉任務檢驗:
交叉任務檢驗的定量結果比較。為了檢驗模型在同一場景的不同任務下的泛化性,本文在 GTEA Gaze Plus 中 7 種不同的食材準備任務下進行了交叉檢驗,並測試了幾種不同實驗設定下的注視點轉移結果。SP:顯著性預測模組的結果,由於注視點轉移模組在不同任務下不具有差別,所以被視為一個通用模組,並在一個單獨的子集下進行訓練,其結果被視作交叉任務檢驗結果的基準。AT_d:在不同任務下進行訓練和測試的注意轉移模組的結果。AT_s:在同一任務的兩個不同劃分下進行訓練和測試的注意轉移模組的結果。SP+AT_d 和 SP+AT_s:SP 和 AT_d 以及 AT_s 通過 Late Fusion 進行合併之後的結果。
注意轉移模組預測效能的視覺化:
注意轉移模組在 GTEA-sub 中部分幀下的定性結果視覺化。每張圖中都包含了當前幀的注視點(紅色十字表示)、基於當前幀模型預測的注視點的 heatmap、注視的基準區域/物體(由黃色矩形框出)。
結論
本文提出了一個能夠準確預測第一人稱視訊中的注視點的新方法。作者創新性地提出了一個注意轉移模型,該模型通過挖掘視訊中注視點的上下文時序資訊,來對人在完成特定任務時所關注的物體的時序關係進行建模。通過將這一注意轉移模型與一個自下而上的視覺顯著性模型進行結合,論文新提出的方法在兩個公開的資料集上都取得了最佳的預測效能。值得一提的是,本文提出的注意轉移模型不但顯著提高了注視點預測的效能,背後的思想對於未來研究如何提高計算機對於複雜任務中人類行為的理解能力具有重要的啟示意義。
參考文獻
Li, Y., Fathi, A., Rehg, J.M.: Learning to predict gaze in egocentric video. In:ICCV (2013)
Zhang, M., Teck Ma, K., Hwee Lim, J., Zhao, Q., Feng, J.: Deep future gaze: Gaze anticipation on egocentric videos using adversarial networks. In: CVPR (2017)
Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A.: Learning deep features for discriminative localization. In: CVPR (2016)