基於Transformer的高效單階段短時RGB-T單目標跟蹤方法

特邀精选發表於2024-04-22

引言

如圖 1所示,現有的三階段 RGB-T 單目標跟蹤網路通常採用兩個獨立的特徵提取分支,分別負責提取兩個模態的特徵。然而,相互獨立的特徵提取分支會導致兩個模態在特徵提取階段缺乏有效的資訊互動。因此,一旦網路完成離線訓練,其僅能從每個模態影像中提取固定的特徵,無法根據實際的模態狀態動態調整,以提取更具針對性的動態特徵。這一侷限性制約了網路對多樣的目標雙模態外觀,以及模態外觀間動態對應關係的適應能力。如圖 2所示,這種特徵提取方式並不適合 RGB-T 單目標跟蹤的實際應用場景,特別是在複雜環境下,因為被跟蹤目標的任意性會導致的目標雙模態外觀非常多樣,並且兩個模態外觀之間的對應關係也會隨著跟蹤環境的變化而變化。例如,由於遮擋、光照變化或熱交叉等因素,經常會出現某個模態外觀的臨時變化或缺失,從而導致兩種模態的外觀所覆蓋的區域或輪廓並不總是一致的。三階段融合跟蹤無法很好地對三個功能部分進行協同設計,複雜的特徵融合模組往往導致其有明顯的速度瓶頸。

此外,現有基於Transformer的RGB-T單目標跟蹤網路都是採用直接相加或級聯的方式,將兩個模態搜尋區域的融合特徵組合在一起,輸入預測頭,用於輸出最終的預測結果。然而,當前 RGB-T 單目標跟蹤資料集提供的影片影像並不是完全對齊的,而且,並不是每個模態搜尋區域都可以提供有效資訊,例如黑夜和熱交叉跟蹤場景下,RGB 模態搜尋區域和紅外搜尋區域將無法提供有效的目標外觀資訊,存在大量的背景噪音。因此,直接透過按元素相加或級聯兩個搜尋區域融合特徵的單預測頭結構,既沒有考慮影像未對齊對跟蹤效能的影響,也沒有考慮如何處理帶有大量背景噪音資訊的搜尋區域融合特徵的問題。

基於Transformer的高效單階段短時RGB-T單目標跟蹤方法
圖 1
基於Transformer的高效單階段短時RGB-T單目標跟蹤方法
圖 2

為了解決當前三階段融合跟蹤正規化所面臨的問題,本章提出了一個基於Transformer 的高效單階段 RGB-T 單目標跟蹤網路 USTrack(Unified Single-Stage Transformer Network for Efficient RGB-T Tracking)。其核心是透過聯合特徵提取 &融合 & 關聯建模方法,將三階段融合跟蹤正規化的三個功能部分直接統一到一個ViT主幹網中同時執行,從而實現在模態的互動下直接提取目標模板和搜尋區域的融合特徵,並同時構建兩個融合特徵之間的關聯建模操作。由於三個功能部分都是透過一次自注意力機制的執行同時完成的,因此,藉助於自注意力機制的高可並行性,USTrack 也創造了當前 RGB-T 單目標跟蹤的最快速度 84.2FPS。為了充分利用現有資料集提供的兩個模態影像非對齊的精確真值標註,來適應RGB影像和熱影像中目標的微小位置偏差,以及減輕無效模態產生的大量噪音資訊對最終預測結果的影響,USTrack 還設計了一個基於模態可靠性的特徵選擇機制,該機制透過直接丟棄無效模態產生的融合特徵來減少噪聲資訊對最終預測結果的影響。

本文的貢獻如下:

1)針對當前三階段融合跟蹤網路在模態特徵提取階段缺乏模態互動的問題,本章提出聯合特徵提取 & 融合 & 關聯建模方法。該方法可以在模態的互動下直接提取目標模板和搜尋區域的融合特徵,並同時執行兩個融合特徵之間的關聯建模操作,首次為短時 RGB-T 單目標跟蹤網路的設計提供了一種高效且簡潔的單階段融合跟蹤正規化。

(2)首次提出基於模態可靠性的特徵選擇機制,該機制可以根據實際跟蹤環境來評估不同模態影像的可靠性,並根據可靠性來丟棄無效模態生成的融合特徵,減少噪音資訊對最終預測結果的影響,從而進一步提高跟蹤效能。

(3)在三個主流 RGB-T 單目標跟蹤基準資料集上的大量實驗表明,本章的方法在實現了新的 SoTA 效能的同時,也創造了高達 84.2FPS 的最快跟蹤速度。特別是在 VTUAV 短時跟蹤器資料集和長時跟蹤資料集上,USTrack 在 MPR/MSR 指標上比現有效能最好的方法高 11.1%/11.7% 和 11.3%/9.7%。

方法

如圖 3所示,USTrack 的總體架構由三部分組成:雙嵌入層、ViT 主幹網和基於模態可靠性的特徵選擇機制。雙嵌入層由兩個獨立的嵌入層組成。這是考慮到注意力機制是基於相似度去獲取全域性資訊的,而不同模態資料的內在異質性,可能會導致兩個模態對同一模式有不同的特徵表示形式,如果直接透過注意力對模態資訊進行融合,這種異質性可能會限制網路對模態共享資訊的建模能力,從而影響後續的特徵融合過程。因此,USTrack使用兩個可學習的嵌入層將不同模態對應的輸入對映到一個有利於融合的潛在空間,在一定程度上對兩個模態進行模式對齊,降低模態內在異質性對特徵融合的影響。然後,將雙嵌入層的所有輸出級聯為一個整體作為 ViT 主幹網的輸入,透過其中的自注意力層,來同時執行輸入影像的特徵提取,特徵融合以及目標模板融合特徵與搜尋區域融合特徵之間的關聯建模操作,從而實現聯合特徵提取 & 融合 & 關聯建模,統一 RGB-T 跟蹤的三個功能階段,為 RGB-T 跟蹤提供一個高效的單階段跟蹤正規化。

基於模態可靠性的特徵選擇機制包括兩個預測頭和兩個可靠性評估模組。它允許兩個預測頭輸出不同的結果,並根據模態可靠性的得分,幫助網路選擇更適合當前跟蹤場景的模態所對應的搜尋區域融合特徵用於最終的預測,從而減少無效模態產生的噪聲資訊對最終預測結果的影響。

基於Transformer的高效單階段短時RGB-T單目標跟蹤方法
圖 3

實驗結果

USTrack選擇GTOT,RGBT234以及VTUAV資料集作為測試基準,測試結果如圖 4所示。我們還以VTUAV為基準,對USTrack在不同挑戰場景屬性下的效能進行分析。如圖 5所示,本文篩選了效能提升最為明顯的6個挑戰屬性。分別為分別為:形變(DEF)、尺度變化(SV)、完全遮擋(FO)、部分遮擋(PO)、熱交叉(TC)以及極端照明(EI)。具體來說,形變(DEF)和尺度變化(SV)挑戰屬性可以有效地體現了目標多樣的雙模態外觀的差異。完全遮擋(FO)、部分遮擋(PO)、熱交叉(TC)和極端照明(EI)挑戰屬性可以導致相應模態的外觀發生變化或消失,有效地展示了目標在跟蹤過程中兩種外觀之間的動態對應關係。USTrack 在具有這些挑戰屬性的跟蹤場景下上取得了最顯著的效能提升,可以較好的說明聯合特徵提取 & 融合 & 關聯建模方法可以有效緩解三階段融合跟蹤正規化中模態特徵在提取階段模態互動不足的問題,能夠更好地適應目標多樣的雙模態外觀和模態之間的動態關係。

基於Transformer的高效單階段短時RGB-T單目標跟蹤方法
圖 4
基於Transformer的高效單階段短時RGB-T單目標跟蹤方法
圖 5

如圖 6和所示,為了驗證基於模態可靠性的特徵選擇機制的有效性,我們在 RGBT234 基準資料集上,展開了帶有特徵選擇機制的雙預測頭結構與幾種常見預測頭結構的對比實驗,並給出了模態可靠性與實際跟蹤場景良好對應關係的視覺化的結果。

基於Transformer的高效單階段短時RGB-T單目標跟蹤方法
圖 6
基於Transformer的高效單階段短時RGB-T單目標跟蹤方法
圖 7

總結

本章提出了一個基於 Transformer 的高效單階段短時 RGB-T 單目標跟蹤網USTrack。USTrack 的核心是提出聯合特徵提取 & 融合 & 關聯建模方法,以解決傳統三階段融合跟蹤網路在特徵提取階段缺乏模態互動的問題。從而增強跟蹤網路了對多樣的目標雙模態外觀和模態外觀之間動態對應關係的適應能力。在此基礎上,進一步提出了基於模態可靠性的特徵選擇機制。該機制透過直接摒棄無效模態產生的融合特徵,來減少了噪聲資訊對最終預測結果的影響,從而獲得更好的跟蹤效能。USTrack 在三個主流資料集上實現了 SoTA 效能,並以 84.2 FPS 的速度創造了最快 RGB-T 跟蹤推理速度的新記錄。值得注意的是,在目前規模最大的 RGB-T 單目標跟蹤基準資料集 VTUAV 上,該方法比現有 SoTA 方法在評估指標 MPR/MSR 上分別增加了 11.1%/11.7% 和 11.3%/9.7%,取得了較大的效能突破,為該基準資料集增添了一個新的功能強大的基線方法。

作者資訊

1. 夏堅強

軍事科學院國防科技創新研究院碩士研究生。研究興趣包括視覺影像處理、目標檢測、單目標跟蹤等。第一作者發表CCF A類會議一篇,獲2022年“華為杯”第四屆中國研究生人工智慧創新大賽華為專項一等獎。

2. 趙健

趙健,中國電信人工智慧研究院多媒體認知學習實驗室(EVOL Lab)負責人、青年科學家,西北工業大學光電與智慧研究院研究員,博士畢業於新加坡國立大學,研究興趣包括多媒體分析、臨地安防、具身智慧。

圍繞無約束視覺感知理解共發表CCF-A類論文32篇,以第一/通訊作者在T-PAMI、CVPR等國際權威期刊和會議上發表論文31篇,含一作T-PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369),第一發明人授權國家發明專利5項。相關技術成果在百度、螞蟻金服、奇虎360等6個科技行業領軍企業得到應用,產生了顯著效益。曾入選中國科協及北京市科協“青年人才託舉工程”,主持國自然青年科學基金等專案6項。曾獲吳文俊人工智慧優秀青年獎(2023)、吳文俊人工智慧自然科學獎一等獎(2/5,2022)、新加坡模式識別與機器智慧協會(PREMIA)Lee Hwee Kuan獎、ACM Multimedia唯一最佳學生論文獎(一作,1/208,CCF-A類會議,2018),7次在國際重要科技賽事中奪冠。

擔任北京圖象圖形學學會理事,國際知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》編委,《Pattern Recognition Letters》、《Electronics》特刊客座編輯,VALSE資深領域主席,ACM Multimedia 2021分論壇主席,CICAI 2022/2023領域主席,CCBR 2024論壇主席,中國人工智慧學會/中國圖象圖形學學會高階會員,“挑戰杯”大學生科技作品競賽評委,中國人工智慧大賽專家委委員等。

主頁:https://zhaoj9014.github.io

論文截圖

基於Transformer的高效單階段短時RGB-T單目標跟蹤方法

論文連結

https://arxiv.org/abs/2308.13764

程式碼連結

https://github.com/xiajianqiang

相關文章