【跟蹤演算法】MOSSE論文翻譯

Zo1y發表於2018-10-24

       MOSSE跟蹤演算法來自2010年David S. Bolme等人在CVPR上發表的論文《Visual Object Tracking using Adaptive Correlation Filters》。

       論文首次將相關濾波運用到跟蹤演算法中,演算法速度可達到669FPS.

論文摘要:雖然不常用,但相關濾波器可以通過旋轉,遮擋和其他干擾來跟蹤複雜物體,其速度是當前最先進技術的20倍以上。 最舊和最簡單的相關過濾器使用單一模板,並且在應用於跟蹤時通常會失敗。 諸如ASEF和UMACE等更現代的方法表現更好,但他們的培訓需求不太適合跟蹤。 視覺跟蹤需要從單幀來訓練魯棒的濾波器,並在目標物件的外觀發生變化時動態調整。

       本文提出了一種新型的相關濾波器,即最小平方誤差輸出和(MOSSE)濾波器,它在使用單幀初始化時產生穩定的相關濾波器。 基於MOSSE濾波器的跟蹤器對於光照,尺度,姿勢和非剛性變形的變化具有魯棒性,同時以每秒669幀的速度執行。基於峰值旁瓣比PSR(PSR定義為,其中gmax是峰值,μsl和σsl是旁瓣的平均值和標準偏差)檢測遮擋,這使得跟蹤器能夠暫停並在物件重新出現時從其停止的位置恢復。

一、介紹

       視覺跟蹤在視訊處理中有許多實際應用。 當目標位於視訊的一幀中時,在後續幀中跟蹤該物件通常很有用。 成功跟蹤目標的每個幀能夠提供有關目標的標識和活動的更多資訊。 由於跟蹤比檢測更容易,因此跟蹤演算法在每個幀上可以比目標檢測器使用更少的計算資源。

       視覺跟蹤近年來受到了很多關注。 已經提出了許多強大的跟蹤策略,其通過複雜的運算來確定目標外觀的變化和跟蹤目標。 最近的例子包括:增量視覺跟蹤(IVT)[17],基於穩健碎片的跟蹤(FragTrack)[1],基於圖形的判別學習(GBDL)[19]和多例項學習(MILTrack)[2]。 雖然有效,但這些技術並不簡單; 它們通常包括複雜的外觀模型和/或優化演算法,因此很難跟上許多現代相機產生的每秒25到30幀(見表1)。

       在本文中,我們研究了一種更簡單的跟蹤策略。目標外觀由自適應相關濾波器建模,並且通過卷積(f * g)進行跟蹤。用於建立過濾器的樸素方法(例如,從影象中裁剪模板)會為目標生成強峰,但也會錯誤地響應背景。因此,它們對目標外觀的變化不是特別魯棒,並且在挑戰性跟蹤問題上失敗。合成精確濾波器(ASEF)的平均值,無約束最小平均相關能量(UMACE)和平方誤差的最小輸出和(MOSSE)(本文介紹)產生的濾波器對於外觀變化更加魯棒並且更好地區分目標和背景。如下圖所示,結果是一個更強的峰值被轉換為更少的漂移和更少的下降軌道。傳統上,ASEF和UMACE濾波器已經離線培訓,用於物體檢測或目標識別。 在這項研究中,我們修改了這些技術,以便線上進行訓練,並採用自適應進行視覺跟蹤。 結果使跟蹤成為最先進的效能,保留了基礎相關性方法的大部分速度和簡單性。

                                                

該圖顯示了魚測試序列的第25幀的輸入,濾波器和相關輸出。 三個相關濾波器產生的峰值比Naive濾波器產生的峰值更緊湊。

       儘管該方法簡單,但基於改進的ASEF,UMACE或MOSSE濾波器的跟蹤在旋轉,縮放,光照和部分遮擋的變化下表現良好(參見圖1)。 測量相關峰值強度的峰值旁瓣比(PSR)可用於檢測遮擋或跟蹤失敗,停止線上更新,以及如果目標以類似外觀重新出現則重新獲取跟蹤。 更一般地說,這些高階相關濾波器實現的效能與前面提到的更復雜的跟蹤器一致; 但是,基於濾波器的方法速度提高了20多倍,每秒可處理669幀(見表1)。

表1:該表比較了MOSSE跟蹤器與其他跟蹤系統的幀速率。

                                                   

       本文的其餘部分安排如下。 第二節回顧了相關的相關濾波技術。 第三節介紹了MOSSE濾波器以及如何使用它來建立基於魯棒濾波器的跟蹤器。 第四節介紹了來自[17]的七個視訊序列的實驗結果。 最後,第五節將重新審視本文的主要發現。

二、研究背景

       在20世紀80年代和90年代,相關濾波器的許多變體,包括合成判別函式(SDF)[7,6],最小方差合成判別函式(MVSDF)[9],最小平均相關能量(MACE)[11],最優權衡 濾波器(OTF)[16]和最小平方誤差綜合判別函式(MSESDF)[10]。 這些濾波器在具有不同外觀和強制硬約束的目標物件的示例上進行訓練,使得濾波器總是產生相同高度的峰值。 最相關的是MACE,它產生尖峰和高PSR。在[12]中,發現基於SDF的濾波器(如MACE)的硬約束導致了失真容限問題。 解決方案是消除硬約束,而用濾波器產生高平均相關響應來代替。 這種最大平均相關高度(MACH)的新型“無約束”相關濾波器被稱為UMACE,是MACE的變體。

       一種稱為ASEF的新型相關過濾器[3]引入了一種調整特定任務過濾器的方法。 在早期方法僅指定單個峰值的情況下,ASEF指定每個訓練影象的整個相關輸出。 ASEF在眼睛定位[3]和行人檢測[4]方面表現良好。 不幸的是,在這兩項研究中,ASEF都需要大量的訓練影象,這使得視覺跟蹤速度太慢。 本文通過引入適用於視覺跟蹤的ASEF的正則化變體來降低此資料要求。

 三、基於相關濾波器的跟蹤

        基於濾波器的跟蹤器使用在示例影象上訓練的濾波器來建立目標的外觀。最初基於以第一幀中的目標為中心的小跟蹤視窗來選擇目標。從這一點開始,跟蹤和濾波訓練一起工作。通過在下一幀中的搜尋視窗上的相關濾波器來跟蹤目標; 對應於相關響應中的最大值的位置表示目標的新位置。 然後基於該新位置執行線上更新。

       為了建立快速跟蹤器,在傅立葉域快速傅立葉變換(FFT)[15]中計算相關性。 首先,計算輸入影象的2D傅立葉變換:F = F(f),並計算濾波器:H = F(h)。卷積定理指出相關性在傅立葉域中成為元素乘法。 使用⊙符號明確表示逐元素乘法,*表示複數共軛,相關性採用以下形式:

                                                                             G = F ⊙ H*                  (1)∗

       使用逆FFT將相關輸出變換回空間域。 該過程中的瓶頸是計算正向和反向FFT,使得整個過程具有O(P log P)的複雜度,其中P是跟蹤視窗中的畫素數。

       在本章中,我們將討論基於濾波器的跟蹤器的組成。 3.1節討論了在跟蹤視窗上執行的預處理。 3.2節介紹了MOSSE濾波器,它是從少量影象構建穩定相關濾波器的改進方法。 3.3節說明了如何使用正則化來生成更穩定的UMACE和ASEF濾波器。 3.4節討論了用於線上更新過濾器的簡單策略。

3.1 預處理

       FFT卷積演算法的一個問題是影象和濾波器被對映到環面的拓撲結構。 換句話說,它將影象的左邊緣連線到右邊緣,並將頂部連線到底部。 在卷積期間,影象旋轉通過環形空間而不是像在空間域中那樣進行平移。 人為地連線影象的邊界會影響相關輸出的正確性。遵循[3]中概述的預處理步驟可以減少這種影響。 首先,使用對數函式變換畫素值,這有助於低對比度照明情況。 將畫素值歸一化為具有0.0的平均值和1.0的範數。 最後,影象乘以餘弦視窗,該視窗逐漸將邊緣附近的畫素值減小到零。 這也有利於它將更多的重點放在目標的中心附近。

3.2 MOSSE濾波器

        MOSSE是一種用於從較少的訓練影象產生類似ASEF的濾波器的演算法。 首先,它需要一組訓練影象f_{i_{}}和訓練輸出g_{i}。通常,g_{i}可以採用任何形式。 在這種情況下,從真實標記生成g_{i},使得它具有以訓練影象f_{i_{}}中的目標為中心的緊湊(σ= 2.0)2D高斯形狀的峰值。 在傅立葉域中進行訓練,以利用輸入和輸出之間的簡單元素關係。 與前一節一樣,我們將大寫變數F_{i}G_{i}和濾波器H定義為它們的小寫對應量的傅立葉變換。

                                                                                                (2)除法是按元素進行的。

       為了找到將訓練輸入對映到所需訓練輸出的濾波器,MOSSE找到一個濾波器H,它最小化卷積的實際輸出卷積的期望輸出之間的平方誤差之和。 這種最小化問題採取以下形式:

                                                               

       在輸出上最小化平方誤差和(SSE)的想法並不新鮮。事實上,公式3中的優化問題幾乎與[10]和[12]中提出的優化問題相同。不同之處在於,在這些工作中,假設目標始終以f_{i_{}}為中心並且輸出(g_{i})對於整個訓練集是固定的,而定製每個g_{i}是ASEF和MOSSE的基本思想。在跟蹤問題中,目標並不總是居中,並且g_{i}中的峰值移動以跟隨f_{i_{}}中的目標。 在更一般的情況下,g_{i}可以具有任何形狀。 例如,在[4]中,f_{i_{}}包含多個目標,g_{i}具有多個相應的峰值。

       解決這個優化問題並不是特別困難,但需要注意,因為被優化的函式是復變數的實值函式。首先,H的每個元素(由ω和ν索引)可以獨立求解,因為傅立葉域中的所有操作都是按元素執行的。 這涉及根據H_{wv}H_{wv}^{*}重寫函式。然後,部分W.R.T. H_{wv}^{*}設定為等於零,同時將H_{wv}視為一個獨立變數[13]。

                                                            

 通過求解H*,找到MOSSE過濾器的閉合表示式:

                                                                      

 完整的推導在附錄A中。等式5中的術語具有有趣的解釋。 分子是輸入和所需輸出之間的相關性,分母是輸入的能譜

       從公式5中,我們可以很容易地證明UMACE是MOSSE的一個特例。 UMACE定義為H * = D^{-1}m *,其中m是包含平均中心裁剪訓練影象的FFT的向量,D是包含訓練影象的平均能譜的對角矩陣[18]。 因為D是對角矩陣,所以乘以其逆基本上執行逐元素劃分。 使用當前表示法重寫時,UMACE採用以下形式:

                                                               

      但是,UMACE要求目標以f_{i_{}}為中心。 可以使用相關來執行接收。 如果我們將g_{i}定義為Kronecker delta(目標中心的峰值為1,其他位置為零),則這將基本上重新定位目標並計算UMACE濾波器。 這與傳統實現之間的區別在於,我們在這裡進行裁剪,然後轉換,傳統方法先轉換然後裁剪。

       為了表明MOSSE產生比ASEF更好的濾波器,進行了一項實驗,該實驗改變了用於訓練濾波器的影象數量。 通過將隨機小仿射擾動應用於視訊的第一幀的跟蹤視窗來初始化濾波器。 第二幀上的PSR用作過濾器質量的度量。 圖3顯示MOSSE在少量影象視窗上訓練時產生更好的濾波器。 原因將在下一節中討論。

 3.3 ASEF的正則化

 3.4 濾波器初始化和線上更新

       對第一個目標視窗f_{i_{}}進行八個仿射變換得到一組訓練影象,而g_{i}則以目標中心生成高斯矩陣。

       等式5描述了在初始化期間如何構造濾波器。 使用隨機仿射變換構造訓練集,以在初始幀中生成跟蹤視窗的八個小擾動(f_{i_{}})。 還生成訓練輸出(g_{i}),其峰值對應於目標中心。

       在跟蹤期間,目標通常可以通過改變其旋轉,尺度,姿勢,通過在不同的光照條件下移動,或甚至通過經歷非剛性變形來改變外觀。 因此,濾波器需要快速適應以跟蹤物件。 執行平均值用於此目的。 例如,從第 i 幀學習的ASEF過濾器計算如下:

                                                       

 和MOSSE過濾器:

                                                      

       其中η是學習率。 這更加重視最近的幀,並使先前幀的效果隨時間呈指數衰減。 在實踐中,我們發現η= 0.125允許濾波器快速適應外觀變化,同時仍保持魯棒。

 3.5 故障檢測和PSR

       如前所述,峰值強度的簡單測量稱為峰值旁瓣比(PSR)。 為了計算PSR,相關輸出g被分成作為最大值的峰值和旁瓣(其是除了峰值周圍的11×11視窗之外的其餘畫素)。然後將PSR定義為,其中gmax是峰值,μsl和σsl是旁瓣的平均值和標準偏差。

       根據我們的經驗,在正常跟蹤條件下,UMACE,ASEF和MOSSE的PSR通常介於20.0和60.0之間,這表明峰值非常強。 我們發現當PSR下降到7.0左右時,表明目標被遮擋或跟蹤失敗。 對於Naive實現,PSR的範圍在3.0到10.0之間,對於預測跟蹤質量沒有用。

相關文章