將圖卷積應用於關係推理

泰羅熬特曼發表於2020-11-08

【論文筆記】Learning Actor Relation Graphs for Group Activity Recognition

論文連結:https://arxiv.org/pdf/1904.10117.pdf

程式碼連結:https://github.com/wjchaoGit/Group-Activity-Recognition

一、論文的目的

1.1 提出問題

群體行為識別是行為識別領域中的一個子任務,需要將多個目標作為一個群體來分析他們的活動。對於複雜場景中的群體活動識別,建模活動參與者之間的相互關係至關重要。然而現存資料集大多隻有個體的標籤和整個群體活動的標籤,缺少參與者之間的互動資訊。因此,人們提出了很多方法來進行人物間的關係推理,比較典型的是利用外觀特徵位置資訊來進行計算。

在深度神經網路出現之後,現在的大多數的方法都遵循一種二階段的識別框架:

1.利用CNN來提取人物的特徵(人級特徵);

2.設計一個全域性的模組來聚合(進行關係推理)1產生的特徵,生成場景級特徵送入分類器,得到分類結果。

現在的問題在第二階段:很多方法由於自身採用的網路結構特性導致關係推理的計算成本過高或者缺乏普適性,所以效果都不好。

1.2 本文解決方案

本文提出了一種基於ARG(Actor Relation Graph)和圖卷積的關係推理方法,能夠快速高效的建模參與者的相互關係。

1.構造活動關係圖(ARG),它可以捕獲活動參與者的外觀和位置相關性,,,後面會解釋ARG的定義;
2.應用圖卷積(稀疏的取樣策略)對ARG中的節點進行關係推理以實現群體活動檢測;

二、主要方法(主要講空間圖和圖卷積的部分)

2.1 構造ARG

2.1.1 空間圖的定義

假設一幀影像裡有N個活動參與者,那麼建立的空間圖G的大小為NxN的鄰接矩陣,那麼Gij儲存的就第j個人對第i個人關係的重要性,下圖展示了四張圖片和他們對應的ARG
在這裡插入圖片描述

這裡的Gij需要通過公式計算:

在這裡插入圖片描述

其中xis代表第i個人的邊界框中心座標,xia代表他的外觀特徵,這些都是經過第一階段之後可以得到的。而fs和fa分別代表兩個人位置關係和外觀特徵關係,下面將詳細解釋。

觀察上式,可以看出這個很類似於sigmoid函式,所以最終的Gij是大小都在0-1之間的標量,而ARG的則為一個NxN的矩陣。

2.1.2 建模節點間的關係

從上節可以看出本文提出的ARG能夠同時捕獲活動參與者位置座標和外觀特徵的關係。那麼如何建模這些關係?

外觀的關係:論文討論了計算外觀關係值的兩種方法:

(1)點積:直接對兩個特徵向量求內積,然後除以特徵維度以標準化
在這裡插入圖片描述

(2) 嵌入點積:計算嵌入空間中兩個特徵的相似度
在這裡插入圖片描述

其中 在這裡插入圖片描述
,分別代表對兩個特徵向量的嵌入操作,實質上類似兩個全連線層,裡面的引數是可學習的。本文實驗中採取這一方法。。

(3)關係網路:將兩個特徵連線後再經過一個全連線層和ReLU啟用函式得到關係值:
在這裡插入圖片描述
其中[·,·]是連線操作,W和b是可學習的權重,它們將連線的向量投影到一個標量,緊接著進行ReLU非線性啟用

位置關係:為了在行動者圖中新增空間結構資訊,需要考慮行動者之間的位置關係。為此,文章研究了使用空間特徵的兩種方法。

(1)Distance Mask:一般來說,來自區域性實體的訊號比來自遠方實體的訊號更重要。因此,當兩個人的距離超過一定閾值的時候,可以認為他們沒有關係;基於這一假設,文章提出了一種距離關係的判斷方法:
在這裡插入圖片描述
其中I(·)為指標函式,d(xi^s, xj^s)為兩個行動者邊界框中心點之間的歐氏距離,u為距離閾值,是超引數。

這個方法的意義是,將ARG裡距離過遠的元素對的關係值直接設為零,可以節省大量的計算成本。

(2)Distance Encoding:這個辦法也採用將向量嵌入到高維空間的方式:
在這裡插入圖片描述
其中,E表示嵌入操作,然後,通過權重向量Ws和 bs將嵌入的特徵轉換為標量,然後進行ReLU啟用。

多圖融合以及時序建模

1、多圖融合:為了更充分的挖掘人物間的相互資訊,可以對同一個活動者集合(用A={(xia,xis)|i=1,2…,n}來表示)建立多個ARG,它們都是通過第一節的基本公式計算得來的,只不過採用了不同的權重。

2、時序建模方面:為了更高效的建立ARG,在取樣幀的時候,採取稀疏取樣策略(這部分和TSN的基本一致)。

2.2 利用圖卷積進行推理和訓練

一旦ARG構建好了,我們就可以對它們執行關係推理來識別單個動作和群體活動。這需要用到圖卷積,圖卷積的基本模型如下:
在這裡插入圖片描述
其中Z(l)為l層的輸入,Z(0)就是輸入的外觀特徵X(大小為Nxd);而G就是ARG的矩陣表示,大小為NxN;W(l)是層特有的可學習權值矩陣,大小為dxd;以第一層為例,卷積操作的圖示如下:
在這裡插入圖片描述

由於之前說過,文章構造了多個ARG,所以最終會得到多個這樣的Nxd的結果,需要對他們進行融合:
在這裡插入圖片描述

其中,Ng表示圖的個數,σ表示元素級別求總和,圖示如下:
在這裡插入圖片描述

所以最終輸出結果可以認為是進行過關係推理後每一個人的關係特徵。最後將GCN輸出的關係特徵與原始特徵進行求和,形成場景表示。再將場景表示提供給兩個分類器來生成單個動作和組活動預測。

2.3 整體框架圖

在這裡插入圖片描述

上圖為概述文章用於群體活動識別的網路框架。首先從取樣的視訊幀中提取出活動參與者的特徵向量。我們使用一個d維向量來表示一個人物的邊界框。建立多個活動關係圖,獲取每個人之間的關係資訊。然後,利用圖卷積網路對圖進行關係推理。然後將所有圖的輸出融合,生成參與者的關係特徵向量。最後,將原始特徵和關係特徵聚合並輸入組活動和單個動作的分類器。

三、思考

讀完這篇文章,有三點認識:

一、目前的群體行為檢測的基本框架都是二階段的,分為:1.特徵提取和2.關係推理,並且第一階段的方法基本已經穩定了,而且可以借鑑行為識別方面的最新方法,接下來只需要沿用就好。所以目前我們的研究方向應該著眼於第二階段的關係推理,想辦法弄出更好的關係特徵,或者更高效的建模關係特徵。

二、圖卷積神經網路在處理多個物件之間的相互關係方面有很大的優勢,用作關係推理方法很合適。

三、行為識別和群體行為識別有共通之處,但由於資料集的限制(目前只有兩個專門用於群體檢測的資料集),不能進行遷移學習。

一點疑惑:
在這裡插入圖片描述
這一部分擷取自2.2節的第一張圖,我們知道Nxd張量已經儲存了每個人的關係特徵,為什麼這裡還需要乘上一個權重,作用是什麼,這在文章裡沒有說明。

一點設想:

群組行為的資料集和行為識別的資料集最大的區別是有box(每個人的邊界框),能不能用普通資料集,然後用目標檢測之類的方法框出每一個人的位置,再來做群組行為識別,也有可能導致效率和準確率更低,但好處是可以用更多不同的資料集。

相關文章