2020略讀Learning Feature Embeddings for Discriminant Model based Tracking

目標跟蹤的小白妹子發表於2020-12-16

Learning Feature Embeddings
for Discriminant Model based Tracking
基於判別模型跟蹤的學習特徵嵌入
詳情見知乎連結
https://www.bilibili.com/read/cv7848324/
在觀察到大多數線上判別訓練跟蹤器中使用的特徵不是最優的之後,本文提出了一種新穎有效的結構來學習用於線上判別跟蹤的最優特徵嵌入。我們的方法,稱為離散餘弦變換,將可微的判別模型的求解器和一個封閉形式的解整合到卷積神經網路中。然後,可以以端到端的方式訓練所得到的網路,為基於判別模型的跟蹤器獲得最佳特徵嵌入。
本文提出了一種新穎有效的學習最優特徵嵌入的線上鑑別跟蹤體系結構。我們提出的網路接收一對影像,訓練影像和測試影像,作為離線訓練的輸入。首先,設計一個有效的子網路,從每幅輸入影像中提取目標物體周圍真實且密集樣本的特徵。然後,訓練一個可微分且具有封閉形式解的判別模型,以將訓練影像中的樣本擬合到它們的標籤。最後,訓練好的判別模型預測測試影像中樣本的標籤,並計算預測損失。這樣,判別模型的訓練就不像KCF那樣需要迴圈樣本和合成樣本,自然避免了負邊界效應。另一方面,因為它是可微的,並且具有封閉形式的解,所以它的求解器可以在訓練期間作為具有向前和向後過程的層整合到CNNs中。因此,產生的網路可以以端到端的方式訓練,為基於判別模型的跟蹤器獲得最佳特徵嵌入
在這裡插入圖片描述
用於學習特徵嵌入的建議網路的完整架構。對於每個輸入影像,通過均勻取樣產生具有目標尺寸的N個感興趣區域。從輸入影像中提取的塊3和塊4主幹特徵對映首先通過兩個卷積層以獲得兩個學習的特徵對映。然後使用PrPool層提取每個RoI的固定大小的特徵圖,並使用完全連線的層進一步對映到特徵向量。x和Z分別是由所有訓練樣本和測試樣本的學習特徵向量組成的資料矩陣。訓練一個鑑別模型,使樣本在X方向與其標籤相匹配。最後,w預測Z中樣本的標籤,計算預測損失。最好用彩色觀看。
離散餘弦變換在大幅度跟蹤精度上優於迴圈頻率網和離散餘弦變換,在大幅度跟蹤精度和速度上也優於CFCF。
元學習 可微凸優化
本文,所提出的離散餘弦變換是第一個將可微分且具有封閉形式解的判別模型的求解器整合到神經網路的訓練中的跟蹤器,以學習用於線上判別跟蹤的最佳特徵嵌入,而無需迴圈和近似樣本。在多個具有挑戰性的基準上進行的實驗表明,我們的方法在超過實時速度的情況下實現了最先進的精度,並且為視覺跟蹤設定了簡單而強大的基線。因此,我們相信它將促進高精度和實時跟蹤的發展。

特徵嵌入
線上判別訓練跟蹤器的主要任務是訓練一個判別模型w,它不僅能很好地線上擬合訓練樣本,而且能很好地推廣到測試樣本。眾所周知,不僅不同的建模方法,如最近鄰和嶺迴歸,直接影響w的泛化能力,而且特徵也是至關重要的。因此,我們的方法,離散餘弦變換,是通過設計一個架構來學習基於判別模型的跟蹤器的最佳特徵嵌入,而不是像大多數現代線上判別訓練跟蹤器那樣使用更強大的判別模型來提高跟蹤精度。
上述圖由特徵提取網路,模型求解以及損失函式三部分構成
1、五個步驟特徵提取網路
具有目標尺寸的n個感興趣區域是通過對整個影像進行均勻取樣而生成的。此外,包含它們的高斯標記的向量y∈rn×1是按照KCF [18]中所做的那樣構造的,標準偏差為0.25。
2、ResNet [16]從輸入影像中提取塊-3和塊-4主幹特徵圖,然後通過兩個卷積層,以獲得兩個學習的特徵圖。他們的步幅分別是8 × 8和16 × 16。這裡,所有的卷積核都是3 × 3,所有的卷積層後面是batchorm[20]和ReLU
3、使用PrPool層[21]從上述兩個學習的特徵圖中分別提取每個RoI的固定大小的特徵圖,並使用完全連線的層進一步對映到特徵向量。具體來說,兩個PrPool層的輸出大小分別為8 × 8和4 × 4,並且兩個跟隨的完全連線的層都輸出512維特徵向量。
4、每個RoI的兩個512維特徵向量被連線以產生它的學習特徵向量。它的尺寸,表示為D,是1024
5、他從訓練資料矩陣X ∈ RN×D中學習所有訓練區域的特徵向量,以同樣的方式獲得測試資料矩陣Z ∈ RN×D
值得注意的是,不同於CFCF和CFNet的訓練資料矩陣是迴圈的,大多數訓練樣本是虛擬的,不同於DiMP的訓練和測試樣本總是假設為正方形,在我們的離散餘弦變換中,訓練資料矩陣是非迴圈的,所有的訓練和測試樣本都是真實的,與目標物件的實際大小相同。

判別式模型求解

訓練一個判別模型,它是可微的,並有一個封閉形式的解決方案,通過將其求解器整合到所提出的網路中,使樣本在X方向上與其標籤相匹配。因為判別模型是可微的,並且具有封閉形式的解,所以其求解器可以在訓練期間作為具有前向和後向過程的層整合到CNNs中。我們在這項工作中應用流行的嶺迴歸模型來展示所提出的體系結構的能力。嶺迴歸模型在視覺目標跟蹤領域已被證實是簡單、高效和有效的[24,6,40,41,48]。它不僅可以利用所有的前景和背景樣本來訓練一個好的迴歸器,還可以有效地利用高維特徵,因為過度擬合的風險可以通過l2範數正則化來控制。最重要的是,它是可微的,並且有一個封閉形式的解。

採用嶺迴歸的優化問題

在這裡插入圖片描述

在這裡插入圖片描述

收斂損失下的快速收斂

相關文章