ASQuery:基於Query的時序動作分割新架構

新闻助手發表於2024-06-03

ASQuery:基於Query的時序動作分割新架構

1. 前言

北京郵電大學與EVOL創新團隊和ACG工業演算法組針對時序動作分割任務共同提出了基於query新架構的模型ASQuery。ASQuery包含了動作及邊界兩種query,利用動作query將原先的幀維度分類過程轉化為query與影片幀的相似度計算過程,提高了分類精度;利用邊界query預測動作的邊界,進一步平滑了原先的預測結果,大大緩解了過分割現象。論文ASQuery: A Query-based Model for Action Segmentation 已被ICME2024接收。論文地址:https://github.com/zlngan/ASQuery/blob/main/paper.pdf

2. 背景和動機

現有的時序動作分割模型通常將該任務建模為幀維度的分類問題,通用正規化為先建模影片的時序資訊,提取到具有較強表徵能力的影片幀特徵,然後使用分類器對每幀類別進行判斷。在這種正規化中,每個影片幀的最後預測結果嚴重依賴於分類器,但其權重在訓練完畢即固定不變,因此在推理的時候缺乏靈活性。其次,當前方法通常存在過分割現象,為了緩解該現象,MS-TCN,ASFormer使用多層最佳化網路來平滑網路的預測結果,但是大大增加了模型的引數量與計算量;BCN,ASRF提出使用邊界分支來最佳化模型預測,但是這些邊界分支與分類分支是獨立訓練的,難以實現聯合最佳化。這些問題導致模型的預測結果準確率低且平滑性差,嚴重影響了演算法的實際應用。

ASQuery:基於Query的時序動作分割新架構

圖1 ASQuery與其它演算法的框架對比

為了解決上述問題,我們提出了一種基於query的時序動作分割演算法,稱為ASQuery。相較於之前的演算法,我們的演算法將幀維度的分類問題轉化為動作query與影片幀特徵的相似度計算問題。每類動作的語義中心由一個query表徵,並透過Transformer解碼器模組進行動態更新,因此它們能夠更加靈活且綜合地感知整個影片的特徵。對於過分割問題,我們提出邊界query的概念,它與動作query一起訓練進行聯合最佳化。邊界query透過與幀特徵求相似度得到動作邊界的分佈,利用該邊界可以進一步調整動作類別預測的結果,從而得到更加平滑的預測。

2. 方法

ASQuery的模型結構如圖所示,它主要包含三個模組。首先是特徵提取模組,它由一個backbone和neck組成,主要用於聚合與增強多層級影片特徵;其次是Transformer解碼器模組,用於更新動作及邊界query;最後是分割模組,用於得到動作及邊界分數,以及獲得最終的預測結果。

ASQuery:基於Query的時序動作分割新架構

特徵提取模組的輸入為經過預處理的影片特徵,輸出為多尺度增強的特徵。構建Backbone時,ASQuery首先使用了幾層淺層的卷積網路,起到聚合區域性資訊並穩定後續Transformer網路訓練的作用。隨後ASQuery使用了加窗形式的Transformer網路,每次自注意力計算僅對視窗內部的影片幀進行建模,並透過滑動視窗的方式覆蓋所有的影片幀,以此實現時間感受野與計算效率的平衡。對於Neck網路,ASQuery採用最簡單的1D特徵金字塔網路來進一步增強特徵。

Transformer解碼器模組輸入為隨機初始化的動作、邊界query以及多尺度影片特徵,輸出為更新後的動作與邊界query。ASQuery使用標準的Transformer解碼器,其包含若干層Transformer解碼層,每層包含多個Transformer解碼塊。這些解碼塊與Neck的輸出特徵一一對應,解碼塊將動作和邊界query作為Query,將影片特徵作為Key和Value。每個解碼塊內部,包含了一層自注意力層與一層互注意力層。在自注意力層中,動作query與邊界query進行互動,使得每個query都感知了所有動作類別及動作邊界的語義資訊,因此可以提升其表徵能力。在互注意力層中,動作與邊界query與所有影片幀特徵進行互動,幫助其對整個影片的特徵進行綜合感知。訓練後,解碼器輸出的動作及邊界query能夠有效表徵動作類別及邊界資訊。

分割模組使用包含兩層隱藏層的MLP將動作及邊界query對映為對應embedding,隨後透過將embedding與影片特徵進行點積,並透過sigmoid函式將其變換至0-1區間,由此得到動作及邊界分數。最後結合類別預測與邊界預測結果得到最終分割結果。

損失函式分為兩部分,第一部分為動作類別損失,包含了影片幀分類的focal loss以及動作mask的dice loss。第二部分為邊界預測損失,使用的是二進位制交叉熵損失。邊界的標籤ASQuery:基於Query的時序動作分割新架構為以動作邊界幀為中心,呈高斯分佈。

ASQuery:基於Query的時序動作分割新架構

3. 實驗結果

ASQuery在時序動作分割任務的常用資料集Breakfast和Assembly101上取得了SO他的結果。ASQuery還透過消融實驗驗證了動作及邊界query的有效性。

ASQuery:基於Query的時序動作分割新架構

ASQuery:基於Query的時序動作分割新架構

透過下圖的視覺化結果可以看到預測的邊界對於平滑預測的有效性。

ASQuery:基於Query的時序動作分割新架構

3. 總結

ASQuery提出基於Query架構的時序動作分割新架構,其提出的動作query可以實現更高精度的分類效果,邊界query可以達到更好的預測平滑度。如何將query架構中的其它技術如匈牙利匹配等引入時序動作分割任務,進一步提升模型效果,是我們後面的探索方向。

作者介紹:

淦子良: 北京郵電大學博士研究生,研究方向為人體行為理解,發表了多篇SCI及EI論文。

金磊:北京郵電大學特聘副研究員,博士生導師,研究方向為人體感知理解、具身智慧,現有工作聚焦於基於計算機視覺的人體姿態估計、人體解析、行為理解等,相關成果發表在CVPR/AAAI/ACMMM/TMM等CCF-A類和中科院一區期刊會議10餘篇,主持一項國家自然基金青年基金,參與兩項國家重點研發專案以及四項國家自然基金面上專案。多次依託國內及國際會議組織ICCV2021/CVPR2023/FG2024/PRCV2024研討會。

趙健:中國電信人工智慧研究院多媒體認知學習實驗室(EVOL Lab)負責人、青年科學家,西北工業大學光電與智慧研究院研究員、博導,博士畢業於新加坡國立大學,研究興趣包括多媒體分析、臨地安防、具身智慧。

共發表CCF-A類論文50餘篇,含一作T-PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369),第一發明人授權國家發明專利5項。相關技術成果在百度、螞蟻金服、奇虎360等6個科技行業領軍企業得到應用,產生了顯著效益。曾入選中國科協及北京市科協“青年人才託舉工程”,主持國自然青年科學基金等專案6項。曾獲吳文俊人工智慧優秀青年獎(2023)、吳文俊人工智慧自然科學獎一等獎(2/5,2022)、新加坡模式識別與機器智慧協會(PREMIA)Lee Hwee Kuan獎、ACM Multimedia唯一最佳學生論文獎(一作,1/208,CCF-A類會議,2018),7次在國際重要科技賽事中奪冠。

擔任北京圖象圖形學學會理事,國際知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》編委,《Pattern Recognition Letters》、《Electronics》特刊客座編輯,VALSE資深領域主席,ACM Multimedia 2021分論壇主席,CICAI 2022/2023領域主席,CCBR 2024論壇主席,中國人工智慧學會/中國圖象圖形學學會高階會員,“挑戰杯”大學生科技作品競賽評委,中國人工智慧大賽專家委委員等。

GitHub主頁:https://zhaoj9014.github.io

學院主頁:https://iopen.nwpu.edu.cn/info/1252/4626.htm

相關文章