論文地址:
https://arxiv.org/pdf/1909.07061.pdf
程式碼地址:
https://github.com/lhaof/Motion-Guided-Attention
該文提出了基於運動注意力的影片顯著物體檢測方法(MGA),比之前最好的演算法在DAVIS和FBMS資料集上分別提升了4個和8個百分點!
研究背景
顯著物體檢測問題要求對於每張圖片或影片幀,預測一個二類別的畫素級分割結果,用以表徵圖片中的顯著或前景物體。
該問題常作為計算機視覺與圖形學應用的預處理步驟。
隨著深度學習技術的發展,面向圖片的顯著物體檢測方法被廣泛研究,而面向影片的顯著物體檢測有待進一步探索。
為了解決影片的顯著物體檢測,該論文作者有以下觀察:
其一,影片物體的顯著性由其外觀和運動共同決定,顯著物體的運動往往也是顯著的,顯著運動的區域很可能是顯著物體;
其二,物體的運動蘊含空間連貫性資訊,運動狀態相似的相鄰區域很可能同屬於一個物體或者背景;
其三,利用運動資訊的空間連貫性,有助於分離物體和背景。背景外觀可包含紋理不同的多個區域,而物體可包含內部邊緣及不同外觀的部件,這造成了分割的困難。而表徵運動的光流圖片相對“乾淨”(如圖1b),可更好地捕捉部分物體邊界,成為分割顯著物體的契機。
目前現有方法主要透過迴圈神經網路聚合多個影片幀的卷積特徵,或者利用光流和變形來對齊不同幀的特徵,而沒有透過端到端學習來捕捉和利用光流中的顯著運動。
作者提出一系列運動注意力模組,來建模顯著運動如何結合外觀資訊來影響物體顯著性。作者還提出了一個雙分支網路,用以放置上述注意力模組,來實現影片顯著物體檢測。
運動引導的注意力機制
為了建模顯著運動如何結合外觀資訊來影響物體顯著性的,作者將外觀資訊抽象為三維的外觀特徵張量(可為某個ReLU隱層的輸出),將顯著運動抽象為二維的運動顯著圖(如某個sigmoid隱層的輸出)或者三維的運動特徵張量。
首先考慮最簡單的情況,如何用一張二維的運動顯著圖來“關注”三維外觀特徵的重要位置。
一個直觀的樸素模型是將運動顯著圖與外觀特徵逐位相乘,來加強外觀特徵中運動顯著的區域的響應。但這個樸素模型的缺點在於,運動顯著圖中的零元素會“抑制”外觀特徵中運動不顯著或者靜止的區域,從而導致物體分割不完整的情況出現。
為了解決樸素模型的缺點,作者提出模型一:採用殘差結構,將被加權後的外觀特徵與最初的外觀特徵逐位相加,補充回錯誤抑制的外觀資訊,使後續的神經網路層有機會勾勒出完整物體。
下面考慮如何利用三維運動特徵來關注外觀特徵。一個簡單方案是模仿模型一,與外觀特徵逐位相乘相加,區別在於要先採用一個1x1卷積來對齊運動特徵和外觀特徵的形狀,這樣得到模型二。
模型二可以看作是用一個三維權重同時實現空間和通道注意力的機制。但由於運動特徵來源於資訊量較“稀疏”的光流圖片,缺乏紋理資訊和複雜語義,基於這樣的特徵對外觀特徵進行通道注意力,可能引入額外噪聲或導致過擬合。
一個備選方案是運動特徵僅用於空間注意力,即先用一個1x1卷積和sigmoid從運動特徵預測出運動顯著圖,在進行類似模型一的操作,這樣得到模型三。
最後,基於模型二和三,考慮如何實現合理的通道注意力,作者提出了模型四。
模型四先用運動特徵對外觀特徵進行空間注意力,“空間注意”後的外觀特徵經由全域性平均池化得到一個一維向量,該向量可表徵顯著運動區域的外觀特徵。
由於物體的運動和靜止部分有較一致的外觀屬性(如色彩、紋理、語義),那麼基於上述運動區域的外觀特徵向量預測出的一維的通道注意力權重,可有效提高物體靜止部分相應屬性或通道的響應,從而有助於分割出完整物體。
模型四的末端保留殘差結構,以避免零元素“抑制”的問題。
運動引導注意力網路(MGAnet)
接下來,作者提出一個運動引導注意力網路(MGAnet),一方面用來提取前述外觀特徵、運動特徵以及運動顯著圖,另一方面用來結合前面提出的一系列運動注意力模組,從而形成完整的影片顯著物體檢測方法。
MGAnet是一個基於DeepLab-V3+的雙分支網路。目前不少影片分割方法也採取雙分支結構,但主要在各分支末端進行融合,而MGAnet採用多層次的、密集的方式連線兩個分支。
MGAnet包含一個以RGB影像為輸入的外觀分支,一個以光流視覺化圖片為輸入的運動分支,以及連線兩分支的6個注意力模組MGA-{0-5}。外觀分支的編碼器可為ResNet-101或ResNet-50,運動分支的編碼器可為ResNet-34或ResNet-18,不同組合均可達到SO他的效能。
MGA-{0-5}可看作部署注意力模組的“槽”,其中MGA-5僅可採用模型一(運動資訊是二維顯著圖),MGA-0至MGA-4可採取模型二三四中的某一種,一般採用同一種。
實驗結果
下文報告幾個主要的實驗。第一個實驗將MGA與現有的影片及圖片的顯著物體檢測方法在三個資料集DAVIS、FBMS和ViSal上比較。
其中,ViSal中並沒有劃分出訓練集供模型訓練,能較好地反映模型的泛化能力。
與6個影片模型和11個圖片模型相比,MGA在三個資料集上均表現最優,分別獲得4個、8個、1個百分點的MaxF的領先。
第二個實驗驗證網路結構的有效性。作者嘗試單獨地訓練、測試單個分支,其中獨立的外觀分支等價於語義分割中的SOTA模型DeepLab-V3+;
作者還嘗試僅保留編碼器部分(MGA-E)或者解碼器部分(MGA-D)的注意力模組。實驗結果顯示,雙分支結構有效利用了運動資訊,優於任一單分支網路。
注意力模組部署在編碼器端或解碼器端,均能起到效果,同時部署在編碼器和解碼器端可獲得最佳效能。
第三個實驗驗證四個運動注意力模組的有效性。三種樸素的特徵融合方法,包括逐位相乘、逐位相加和沿通道拼接(concatenate),被作為基線方法。
表3中,“E-”表示部署在編碼器端,“D-”表示部署在解碼器端。實驗結果顯示,四種注意力模組均優於基線方法。
其中,較複雜的模型四(MGA-tmc)略優於模型二(MGA-t)和模型三(MGA-tm)。
總的來說,作者利用運動的空間連貫性,採用注意力機制來建模運動對物體顯著性的影響,提出了一個簡單但準確率高的雙分支網路。
與基於迴圈神經網路的方法不同,該方法利用一個極小時間窗內的時序上下文(即與相鄰幀的光流),取得了SO他的效能。
本文是對原文主要方法和實驗的解讀,更多細節請參見原文: