近日,香港中文大學提出一種時空圖卷積網路,並利用它們進行人類行為識別。這種演算法基於人類關節位置的時間序列表示而對動態骨骼建模,並將圖卷積擴充套件為時空圖卷積網路而捕捉這種時空的變化關係。
近年來,人類行為識別已經成為一個活躍的研究領域,它在視訊理解中起著重要的作用。一般而言,人類行為識別有著多種模態(Simonyan and Zisserman 2014; Tran et al. 2015; Wang, Qiao, and Tang 2015; Wang et al. 2016; Zhao et al. 2017),例如外觀、深度、光流和身體骨骼(Du, Wang, and Wang 2015; Liu et al. 2016)等。在這些模態當中,動態人類骨骼通常能與其他模態相輔相成,傳達重要資訊。然而,比起外觀和光流建模,動態骨骼建模受到的關注較少。在這項工作中,我們系統地研究這種模態,旨在開發一種原則性且有效的方法模擬動態骨骼,並利用它們進行人類行為識別。
在 2D 或 3D 座標形式下,動態骨骼模態可以自然地由人類關節位置的時間序列表示。然後,通過分析其動作模式可以做到人類行為識別。早期基於骨骼進行動作識別的方法只是在各個時間步驟使用關節座標形成特徵向量,並對其進行時序分析 (Wang et al. 2012; Fernando et al. 2015)。但這些方法能力有限,因為它們沒有明確利用人類關節的空間關係,而這種空間關係對理解人類行為而言至關重要。最近,研究者開發了試圖利用關節間自然連線的新方法 (Shahroudy et al. 2016; Du, Wang, and Wang 2015)。這些方法的改進令人鼓舞,表明了骨骼連通性的重要性。然而,現有的大多數方法依賴手動劃分的部分或手動設定的規則來分析空間模式。因此,為特定應用設計的模型難以在其他任務中推廣。
圖 1:以上是本文所提出的骨骼序列的時空圖,其中用到了所提出的 ST-GCN 操作。藍點代表身體關節。身體關節之間的體內邊(intra-body edge)根據人體自然連線定義。幀間邊(inter-frame)連線相鄰幀之間的相同關節。ST-GCN 中輸入的是聯合座標。
為了跨越上述限制,我們需要一種新方法自動捕捉關節的空間構型、時間動態中所嵌入的模式。這就是深度神經網路的力量。然而,如前所述,骨骼並未以 2D 或 3D 網格的方式展現,而是以影像的形式展現。這就使得使用諸如卷積網路等已證實的模型變得困難。最近,將卷積神經網路(CNN)泛化到任意結構圖形的圖卷積網路(GCN)得到了越來越多的關注,而且被成功應用於影像分類 (Bruna et al. 2014)、文獻分類 (Defferrard, Bresson, and Vandergheynst 2016)、半監督學習 (Kipf and Welling 2017) 等領域。但是,順著這條思路,大部分前人的工作都把輸入假定為一個固定的圖形。GCN 在大規模資料集上的動態圖模型應用,例如人類骨骼序列,還有待探索。
在本文中,我們通過將圖卷積網路擴充套件到時空圖模型,設計用於行為識別的骨骼序列通用表示,稱為時空圖卷積網路(ST-GCN)。如圖 1 所示,該模型是在骨骼圖序列上制定的,其中每個節點對應於人體的一個關節。圖中存在兩種型別的邊,即符合關節的自然連線的空間邊(spatial edge)和在連續的時間步驟中連線相同關節的時間邊(temporal edge)。在此基礎上構建多層的時空圖卷積,它允許資訊沿著空間和時間兩個維度進行整合。
ST-GCN 的層次性消除了手動劃分部分或遍歷規則的需要。這不僅能獲得更強的表達能力和更高的效能(如我們的實驗所示),而且還使其易於在不同的環境中推廣。在通用 GCN 公式化的基礎上,我們還基於影像模型的靈感研究設計了圖卷積核的新策略。
這項工作的主要貢獻在於三個方面:1)我們提出 ST-GCN,一個基於圖的動態骨骼建模方法,這是首個用以完成本任務的基於圖形的神經網路的應用。2)我們提出了在 ST-GCN 中設計卷積核的幾個原則,旨在滿足骨骼建模的具體要求。3)在基於骨骼動作識別的兩個大規模資料集上,我們的模型與先前使用的手動分配部分或遍歷規則的方法相比,需要相當少的手動設計,實現了更優越的效能。ST-GCN 的程式碼和模型已公開發布 1。
流程概覽
基於骨骼的資料可以從運動捕捉裝置或視訊的姿態估計演算法中獲得。通常來說,資料是一系列的幀,每一幀都有一組聯合座標。給定 2D 或 3D 座標系下的身體關節序列,我們就能構造一個時空圖。其中,人體關節對應圖的節點,人體身體結構的連通性和時間上的連通性對應圖的兩類邊。因此,ST-GCN 的輸入是圖節點的聯合座標向量。這可以被認為是一個基於影像的 CNN 模擬,其中輸入由 2D 影像網格上的畫素強度向量形成。對輸入資料應用多層的時空圖卷積操作,可以生成更高階別的特徵圖。然後,它將被標準的 SoftMax 分類器分類到相應的動作類別。整個模型用反向傳播進行端對端方式的訓練。現在,我們將介紹 ST-GCN 模型的各個部分。
圖 2:我們對視訊進行姿態估計,並在骨骼序列上構建時空圖。此後,對其應用多層時空圖卷積操作(ST-GCN),並逐漸在影像上生成更高階的特徵圖。然後,利用標準的 Softmax 分類器,能將其分類到相應的操作類別中。
圖 3:本文提出的用於構建卷積操作的分割策略。從左到右:(a)輸入骨骼的框架示例。身體關節以藍點表示。D=1 的卷積核感受野由紅色的虛線畫出。(b)單標籤劃分策略。其中近鄰的所有節點標籤相同(綠色)。(c)距離劃分。這兩個子集是距離為 0 的根節點本身,和距離為 1 的根節點相鄰節點(藍色)。(d)空間構型劃分。根據節點到骨架重心(圖中黑色十字)的距離和到根節點(綠色)的距離的比較進行標記。向心節點(藍色)到骨架重心的距離比根節點到骨架重心的距離短,而離心節點(黃色)到骨架重心的距離比根節點長。
表 2:基於骨骼的模型在動力學資料集(Kinetics dataset)中的動作識別效能。在表格頂部,我們列出了基於幀的方法的效能。
表 3:基於骨骼的模型在 NTU-RGB+D 資料集上的動作識別效能。本文根據交叉主題(X-Sub)和交叉檢視(X-View)的基準進行準確率計算。
論文:Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition
論文連結:https://arxiv.org/abs/1801.07455
人體骨骼動力學為人類行為識別提供了重要資訊。傳統的骨骼建模方法通常依賴手動劃分部分或遍歷規則,導致模型表達能力有限、泛化困難。在這項工作當中,我們提出了一個名為時空圖卷積網路(ST-GCN)的新型動態骨骼模型,它通過自主學習資料中的時間、空間模式,超越了以往方法的侷限性,具有更強的表現力和泛化能力。在 Kinetics 和 NTU-RGBD 兩大資料集中,本模型與主流方法相比有了很大的提高。