重識別(re-ID)特徵適合直接用於跟蹤(tracking)問題麼?

AIBigbull2050發表於2020-02-13

本文要介紹的是澳洲國立大學(Australian National University)鄭良老師實驗室和清華大學電子系計算機視覺實驗室合作的工作《Locality Aware Appearance Metric for Multi-Target Multi-Camera Tracking》。

文章指出跟蹤(tracking)問題和重識別(re-ID)問題存在一個 本質區別: 區域性匹配vs全域性匹配。跟蹤系統只需匹配 區域性鄰域(同一相機相鄰幀/相鄰相機)內的樣本;而重識別系統需要 全域性(全部相機的所有資料)搜尋、匹配。該區別導致在跟蹤這一區域性匹配問題上,直接應用全域性學習到的重識別特徵, 並不能得到最好的結果[1]。面對這個區別/失配,文章提出了一套可學的,關注區域性鄰域內目標外觀的度量(Locality Aware Appearance Metric)。

文章連結: arXiv  ;程式碼: re-id feature extraction tracker & Locality Aware Appearance Metric

寫在前面

本文中提到的區域性/全域性並不指代 單張行人圖片中的部分/整體;而是指代 待匹配資料的選擇範圍。如上圖(題圖)所示,重識別系統(第一行)在查詢所有相機進行匹配;單相機跟蹤(第二行)只關心同相機相鄰幀,不關心其他相機(紅叉);多相機跟蹤(第三行)只關心相鄰相機,不關心距離太遠,目標不可能連續出現的相機(紅叉)。


什麼是多目標、多相機跟蹤(multi-target multi-camera tracking)?

多目標、多相機跟蹤(multi-target multi-camera tracking)問題,關注多個相機內的每一幀中,每個目標的身份(如下方視訊,每種顏色對應一個identity),以及所在的位置(bounding box和身後的軌跡)[1]。

重識別(re-ID)特徵適合直接用於跟蹤(tracking)問題麼?

多目標、多相機跟蹤示例

在跟蹤系統中,相似度估計(similarity estimation)作為資料匹配(data association)的標準,是一個非常重要的部分。近期,隨著行人/車輛重識別技術的飛速發展,重識別特徵也被廣泛利用於跟蹤問題中的外觀相似度估計。


為什麼跟蹤是一個區域性匹配問題?

由於目標(行人/車輛)軌跡(trajectory)的連續性,在一般情況下,跟蹤系統只需要匹配一個 區域性鄰域(local neighbor)中的目標[1],而不需要 全域性匹配

  • 區域性鄰域:對於單相機跟蹤,指代同相機的連續幀內的樣本;對於跨相機跟蹤,指代相鄰(距離較小)的幾個相機(如下圖小框中的一組相機)內的樣本。
  • 全域性:指代全部相機中的樣本。

重識別(re-ID)特徵適合直接用於跟蹤(tracking)問題麼? CityFlow 多目標、多相機跟蹤問題場景。藍色小旗代表一個相機。為了簡化問題,在匹配時,跟蹤系統一般會利用時間滑動窗。多相機匹配時,滑窗大概率會將相鄰相機(如圖中各個小框包含相機)內的候選目標選出,即區域性匹配。

為什麼重識別是一個全域性匹配問題?

不同於跟蹤問題,在一般情況下,重識別系統無法得到目標的軌跡。因此,重識別系統一般難以將匹配範圍限制在區域性鄰域,重識別問題也被描述成一個 全域性匹配問題。為了解決這個全域性匹配問題,重識別特徵一般由全域性隨機取樣訓練而成[2,3,4]。

區域性vs全域性的失配在哪裡?

如上文提到的,跟蹤系統中的匹配一般被限制在區域性鄰域內;而應用於相似度估計的重識別特徵,則是從全域性學到的。相似度估計的結果直接決定資料匹配的效能。在這個關鍵部分,出現了 區域性vs全域性的失配,則會對系統整體效能有很大影響。如下圖所示,全域性度量(global metric)一般利用模型的全部效能照顧各類外觀變化。在區域性鄰域內,樣本直接的區分一般較小(同相機連續幀/相鄰相機之間,可能出現的外觀變化有限;遠遠小於全部相機間的各種組合),全域性模型由於能力有限,卻不能有效區分相似樣本(見下圖A)。

注意,這篇文章指出的 區域性vs全域性的失配,是指基於外觀(appearance)的相似度評估,和利用時空資訊縮小範圍不一樣。

重識別(re-ID)特徵適合直接用於跟蹤(tracking)問題麼? A. 全域性度量(global metric)在區域性匹配中,不能有效區分相似的樣本。B. 區域性鄰域內目標外觀的度量(spatial locality metric),能夠有效區分相似樣本:區域性匹配中,需要考慮的外觀變化更少,區域性度量可以將能力投入可能出現的外觀變化。C/D. 單相機/多相機跟蹤對應的區域性度量。


如何訓練區域性鄰域內目標外觀的度量(Locality Aware Appearance Metric)?

這篇文章提出了一種區域性鄰域內目標外觀的度量。這種度量不需要照顧全域性匹配中的各種外觀變化;相反,它只需要照顧區域性匹配中可能出現的幾種外觀變化,對於相似樣本也更加有效。

特別的,對於單相機跟蹤/多相機跟蹤,文章分別提出了相機內(intra-camera)/相機間度量(inter-camera metric)。類似於跟蹤系統為了限制匹配範圍使用的時間滑動窗(temporal sliding window),文章也利用了相似的樣本選擇窗(data sampling window)訓練相機內/相機間度量。

  • 相機內度量:通過樣本選擇窗,選擇同相機相鄰幀內的正負樣本對。
  • 相機間度量:通過樣本選擇窗,選擇不同相機的正樣本對,以及來自任意相機的負樣本對。

重識別(re-ID)特徵適合直接用於跟蹤(tracking)問題麼? 訓練相機內/相機間度量的兩種樣本選擇窗 重識別(re-ID)特徵適合直接用於跟蹤(tracking)問題麼? 區域性敏感的外觀度量使用最基礎的全連線模型和交叉熵損失函式

文章的主要貢獻在於發現跟蹤系統相似度估計和重識別特徵之間, 區域性vs全域性的失配;並提出一套簡單易行的訓練區域性鄰域內目標外觀度量的方法。該度量使用的模型和損失函式,並非文章的貢獻點。如上圖,文章使用了最基礎的全連線模型和交叉熵損失函式。


實驗結果

  1. 區域性度量可以明顯降低匹配錯誤率

重識別(re-ID)特徵適合直接用於跟蹤(tracking)問題麼?

2. 區域性度量在多種重識別特徵(IDE[2], triplet[3], PCB[4])上的跟蹤效能提高

重識別(re-ID)特徵適合直接用於跟蹤(tracking)問題麼?

3. 提出的度量在多個跟蹤資料集(CityFlow, DukeMTMC)上的跟蹤效能提高

重識別(re-ID)特徵適合直接用於跟蹤(tracking)問題麼? 重識別(re-ID)特徵適合直接用於跟蹤(tracking)問題麼?


參考文獻

[1]. Ergys Ristani and Carlo Tomasi. Features for multi-target multi-camera tracking and re-identification. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6036-6046, 2018.

[2]. Liang Zheng, Liyue Shen, Lu Tian, Shengjin Wang, Jingdong Wang, and Qi Tian. Scalable person re-identification: A benchmark. In Proceedings of the IEEE International Conference on Computer Vision, pages 1116–1124, 2015.

[3]. Alexander Hermans, Lucas Beyer, and Bastian Leibe. In defense of the triplet loss for person re-identification. arXiv preprint arXiv:1703.07737, 2017.

[4]. Yifan Sun, Liang Zheng, Yi Yang, Qi Tian, and Shengjin Wang. Beyond part models: Person retrieval with refined part pooling (and a strong convolutional baseline). In ECCV, 2018.


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2674255/,如需轉載,請註明出處,否則將追究法律責任。

相關文章