快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

機器之心發表於2018-12-12

在影象識別中對稱地處理影象 I(x, y) 中的空間維度 x、y 是約定俗成的做法,自然影象的統計資料證明了其合理性。自然影象在第一次近似時具備各向同性(所有方向具有相同的可能性)和平移不變性 [38, 23]。那麼視訊訊號 I(x, y, t) 呢?動作是方向的時空對應 [1],但並非所有的時空方向都擁有相同的可能性。慢動作比快動作的可能性大(確實,我們所看到的世界在給定的時刻大多是靜止的),這已經在使用貝葉斯模型描述人類如何感知運動刺激中得到利用 [51]。例如,如果我們看到一個孤立的移動邊緣,我們認為它垂直於自身移動,儘管原則上它也可能有一個與自身相切的任意移動元件(光流中的孔徑問題)。如果前者傾向於慢動作,這種感知就是合理的。

如果並非所有的時空方向都擁有相同的可能性,那麼我們就沒有理由像基於時空卷積的視訊識別方法 [44, 3] 那樣,對稱地看待空間和時間。相反,我們需要「分解」該架構,分開處理空間結構和時間事件。將這一想法放到識別的語境中。視覺內容的類別空間語義變化通常非常緩慢。例如,揮手並不會在這個動作進行期間改變「手」的識別結果,某個人始終在「人」這一類別下,即使他/她從走路切換到跑步。因此類別語義(及其色彩、紋理和光線等)的識別可以以比較慢的速度進行重新整理。另一方面,執行動作可以比其主體識別變化速度快得多,如鼓掌、揮手、搖頭、走路或跳躍。需要使用快速重新整理幀(高時間解析度)來有效建模可能快速變化的運動。

基於這種直覺,本研究展示了一種用於視訊識別的雙路徑 SlowFast 模型(見圖 1)。其中一個路徑旨在捕獲影象或幾個稀疏幀提供的語義資訊,它以低幀率執行,重新整理速度緩慢。而另一個路徑用於捕獲快速變化的動作,它的重新整理速度快、時間解析度高。儘管如此,該路徑的體量卻非常輕,例如,只佔總計算開銷的 20% 左右。這是因為第二個路徑通道較少,處理空間資訊的能力較差,但這些資訊可以由第一個路徑以一種不那麼冗餘的方式來提供。根據二者不同的時間速度,研究者將其分別命名為 Slow 路徑和 Fast 路徑。二者通過側連線(lateral connection)進行融合。

這一概念為視訊模型帶來了靈活、高效的設計。由於自身較輕,Fast 路徑不需要執行任何時間池化——它能以高幀率在所有中間層執行,並保持時間保真度。同時,由於時間速率較低,Slow 路徑可以更加關注空間域和語義。通過以不同的時間速率處理原始視訊,該方法允許兩種路徑以其特有的方式對視訊建模。研究者在 Kinetics [27, 2] 和 AVA [17] 資料集上對該方法進行了全面評估。在 Kinetics 動作分類資料集上,該方法在沒有任何預訓練(如 ImageNet)的情況下達到了 79% 的準確率,大大超過了文獻中的最佳水平(超出 5.1%)。控制變數實驗證明了 SlowFast 概念帶來的改進。在 AVA 動作檢測資料集上,SlowFast 模型達到了新的當前最佳水平,即 28.3% mAP。

該方法部分受到靈長類視覺系統中視網膜神經節細胞的生物學研究啟發 [24, 34, 6, 11, 46],儘管這種類比有些粗糙、不成熟。研究發現,在這些細胞中,~80% 是小細胞(P-cell),~15-20% 是大細胞(M-cell)。M-cell 以較高的時間頻率工作,對時間變化更加敏感,但對空間細節和顏色不敏感。P-cell 提供良好的空間細節和顏色,但時間解析度較低。SlowFast 框架與此類似:i)該模型有兩條路徑,分別以低時間解析度和高時間解析度工作;ii)Fast 路徑用來捕捉快速變化的運動,但空間細節較少,類似於 M-cell;iii)Fast 路徑很輕,類似於較小比例的 M-cell。研究者希望這些關係能夠啟發更多用於視訊識別的計算機視覺模型。

論文:SlowFast Networks for Video Recognition

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

論文連結:https://arxiv.org/pdf/1812.03982.pdf

摘要:本文提出了用於視訊識別的 SlowFast 網路。該模型包含:1)一個以低幀率執行、用來捕捉空間語義的 Slow 路徑;2)一個以高幀率執行、以較好的時間解析度來捕捉運動的 Fast 路徑。我們可以減少 Fast 路徑的通道容量,使其變得非常輕,但依然可以學習有用的時間資訊用於視訊識別。我們的模型在視訊動作分類及檢測方面效能強大,而且我們的 SlowFast 概念實現的巨大改進是對這一領域的重要貢獻。我們在沒有使用任何預訓練的情況下在 Kinetics 資料集上實現了 79.0% 的準確率,遠遠超過此類問題的之前最佳水平。在 AVA 動作檢測資料集上,我們實現了 28.3 mAP 的當前最佳水準。程式碼將會公開。

SlowFast 網路

這一通用架構包含一個 Slow 路徑、一個 Fast 路徑,二者由側連線聯絡起來。詳見圖 1。

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

圖 1:SlowFast 網路包括低幀率、低時間解析度的 Slow 路徑和高幀率、高時間解析度(Slow 路徑時間解析度的 α 倍)的 Fast 路徑。使用通道數的一部分(β,如 β = 1/8)來輕量化 Fast 路徑。Slow 路徑和 Fast 路徑通過側連線來連線。該樣本來自 AVA 資料集 [17](樣本標註是:hand wave)。

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

表 1:SlowFast 網路的例項化示例。核心的維度由 {T×S^2 , C} 表示,T 表示時間解析度、S 表示空間語義、C 表示通道數。步長由 {temporal stride, spatial stride^2} 表示。此處 速度比例是α = 8,通道比例是 β = 1/8。τ = 16。綠色表示 Fast 路徑較高的時間解析度,橙色表示 Fast 路徑較少的通道數。下劃線為非退化時間濾波器(non-degenerate temporal filter)。方括號內是殘差塊。骨幹網路是 ResNet-50。

實驗:Kinetics 動作分類

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

表 2:在 Kinetics-400 動作分類任務上進行的控制變數實驗。上表展示了 top-1 和 top-5 分類準確率 (%),以及空間大小為 2242 的單 clip 輸入的計算複雜度(單位為 GFLOPs)。

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

圖 2:Slow-only(藍色)vs. SlowFast(綠色)網路在 Kinetics 資料集上的訓練過程。上圖展示了 top-1 訓練誤差(虛線)和驗證誤差(實線)。這些曲線均為 single-crop 誤差,視訊準確率為 72.6% vs. 75.6%(見表 2c)。

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

表 3:SlowFast 網路與當前最優模型在 Kinetics-400 資料集上的對比結果。

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

表 4:SlowFast 網路與當前最優模型在 Kinetics-600 資料集上的對比結果。

實驗:AVA 動作檢測

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

圖 3:在 AVA 資料集上的 Per-category AP:Slow-only 基線模型 (19.0 mAP) vs. 對應的 SlowFast 網路 (24.2 mAP)。黑色加粗類別是淨增長最高的 5 個類別,橙色類別是和 Slow-only AP > 1.0 對比相對增長最高的 5 個類別。類別按照樣本數來排序。注意,該控制變數實驗中的 SlowFast 例項並非我們的效能最優模型。

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

表 5:AVA 動作檢測基線:Slow-only vs. SlowFast。

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

表 6:SlowFast 模型在 AVA 資料集上的更多例項。

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

表 7:SlowFast 與當前最優模型在 AVA 資料集上的對比。++ 表示使用多尺度和水平翻轉增強進行測試的 SlowFast 網路版本。

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

快慢結合效果好:FAIR何愷明等人提出視訊識別SlowFast網路

圖 4:SlowFast 網路在 AVA 資料集上表現的視覺化結果。SlowFast 網路在 AVA 驗證集上的預測結果(綠色,置信度 > 0.5)vs. 真值標籤(紅色)。此處僅展示了中間幀的預測/標籤。上圖展示的是 T ×τ = 8×8 的 SlowFast 模型,獲得了 26.8 mAP。

相關文章