近日,全球計算機視覺三大頂會之一,兩年一屆的歐洲計算機視覺國際會議ECCV 2020落下帷幕,各個workshop也都公佈了各自舉辦挑戰賽的結果,其中第一屆GigaVision挑戰賽公佈了最終榜單,來自深蘭科技北京AI研發中心的 DeepBlueAI 團隊斬獲了「行人和車輛檢測」和「多目標追蹤」兩個賽道的冠軍。我們可以透過這篇文章來了解一下 DeepBlueAI 團隊的解決方案。
賽題介紹
以人為中心的各項計算機視覺分析任務,例如行人檢測,跟蹤,動作識別,異常檢測,屬性識別等,在過去的十年中引起了人們的極大興趣。為了對大規模時空範圍內具有高畫質細節的人群活動進行跨越長時間、長距離分析,清華大學智慧成像實驗室推出一個新的十億畫素影片資料集:PANDA。該資料集是在多種自然場景中收集,旨在為社群貢獻一個標準化的評測基準,以研究新的演算法來理解大規模現實世界場景中複雜的人群活動及社交行為。圍繞PANDA資料集,主辦方組織了GigaVision 2020挑戰賽。本次的挑戰賽同時是ECCV2020的Workshop:“GigaVision: When Gigapixel Videography Meets Computer Vision”。
任務介紹
挑戰賽的任務是在由十億畫素相機收集的大範圍自然場景視覺資料集PANDA上進行影像目標檢測和影片多目標跟蹤。
lSub-Track 1 :Pedestrian & Vehicle Detection
這項任務是為了推動在十億畫素影像上的目標檢測技術的發展。挑戰的參與者需要檢測兩類目標:行人和車輛。對於每個行人,需要提交三類檢測框:可見身體範圍框、全身範圍框、行人頭部範圍框。對於每個車輛,需要提交可見範圍框。一些特殊的區域(如假人、極度擁擠的人群、車群、被嚴重遮擋的人等)將在評估中被忽略。
lSub-Track 2 :Multi-Pedestrian Tracking
這項任務是為了推動在十億畫素影片上的多目標追蹤技術的發展。PANDA寬視場、多目標、高分辨的優越效能使特別適合於多目標長時間追蹤任務。然而,巨大的同類目標尺度變化和擁有豐富行人擁擠、遮擋的複雜場景也帶來了各種挑戰。在給定輸入影片序列的情況下,該任務需要參與者提交行人在影片中的軌跡。
評測指標
對於賽道一,類似於MS COCO資料集的評估方案,主辦方採用AP、APIOU=0.50、APIOU=0.75、ARmax=10、ARmax=100、ARmax=500五個指標來評估檢測演算法的結果。最終的排名依據於 AP 和 ARmax=500 兩項指標的調和平均數,高者為優。
對於賽道二,與MOTChallenge[2]中使用的評測方法類似,主辦方採用了包括MOTA、MOTP、IDF1、FAR、MT和Hz等指標來評估多目標追蹤演算法的結果。最終的排名依據於 MOTA 和 MOTP 兩項指標的調和平均數,高者為優。
團隊成績
任務一:
任務二:
賽題特點
l影像解析度極高、近景和遠景目標尺度差異大
十億畫素級的超高解析度是整個資料集的核心問題。一方面,由於計算資源的限制,超高解析度使得網路無法接受大圖作為輸入,而單純將原圖縮放到小圖會使得目標丟失大量資訊。另一方面,影像中近景和遠景的目標尺度差異大,給檢測器帶來了巨大的挑戰。
l目標在影像中分佈密集,並且遮擋嚴重
資料集均從廣場、學校、商圈等真實場景採集,其人流和車輛密度極大。同時,行人和車輛的擁擠、遮擋等情況頻發,容易造成目標的漏檢和誤檢。
主要工作
賽道一 Pedestrian & Vehicle Detection
根據以往積累的經驗,我們首先將原圖縮放到合適尺度,並使用基於Cascade RCNN的檢測器直接檢測行人的三個類別和車輛,將其作為Baseline: Backbone + DCN + FPN + Cascade RCNN,並在此基礎上進行改進。
實驗結果顯示,模型存在大量的誤檢和漏檢。這些漏檢和無意義的檢測結果大幅降低了模型的效能。我們將上述問題歸納為兩方面的原因:
1.訓練和測試時輸入模型的影像尺度不合適。影像經過縮放後,目標的尺度也隨之變小,導致遠景中人的頭部等區域被大量遺漏。
2.網路本身的分類能力較弱。行人的可見區域和全身區域十分相似,容易對分類器造成混淆,從而產生誤檢。
根據上述問題,我們進行了一些改進。
首先,我們使用滑動視窗的方式切圖進行訓練。滑動視窗切圖是一種常用的大影像處理方式,這樣可以有效的保留影像的高解析度資訊,使得網路獲得的資訊更加豐富。如果某個目標處於切圖邊界,我們根據其IOF大於0.5來決定是否保留。
其次,我們對於每個類別採用一個單獨的檢測器進行檢測。經過實驗對比,對每個類別採用單獨的檢測器可以有效的提高網路的效果,尤其是對於可見區域和全身區域兩類。
同時,我們向檢測器新增了Global Context (GC) block來進一步提高特徵提取能力。GC-Block結合了Non-local的上下文建模能力,並繼承了SE-Net節省計算量的優點,可以有效的對目標的上下文進行建模。
除Cascade RCNN外,我們還採用了Generalize Focal Loss (GFL)檢測器進行結果互補。GFL提出了一種泛化的Focal Loss損失,解決了分類得分和質量預測得分在訓練和測試時的不一致問題。
最後,我們將各檢測器的結果使用Weighted Box Fusion (WBF)進行融合,形成了最終的解決方案。傳統的NMS和Soft-NMS方法會移除預測結果中的一部分預測框,而WBF使用全部的預測框,透過進行組合來獲得更加準確的預測框,從而實現精度提升。我們的整體pipeline如下圖所示:
實驗結果:
Method | AP | AR_500 | Score |
Baseline | 0.5129 | 0.6064 | 0.5557 |
Baseline+GFL+GC | 0.5633 | 0.6606 | 0.6081 |
Baseline+GFL+GC(MOT資料) | 0.5697 | 0.6731 | 0.6172 |
賽道二 Multi-Pedestrian Tracking
賽題分析
多行人跟蹤問題是一個典型的多目標跟蹤問題。透過調研總結發現,Tracking-by-detection是處理這一問題的常用且精度比較高的方法[2][7]。基本的流程可以總結如下:
1) 在每一幀中檢測物體的位置。
2) 為每個檢測框提取特徵。
3) 透過將特徵距離或空間距離將預測的目標與現有軌跡關聯。
本次挑戰賽更注重精度,因此採用了分離Detection和Embedding的方法,該方法的模組化設計的優點使得競賽精度上最佳化空間的十分大。透過簡單的資料統計分析和視覺化分析,我們認為該比賽的主要挑戰在於影像的大解析度和行人的嚴重擁擠,如下圖所示。
為了應對這些挑戰,針對高分辨、小目標等問題,我們引入了一種滑動視窗檢測演算法。針對遮擋嚴重的問題,我們使用區域性和全域性特徵來衡量兩個相鄰幀之間的預測邊界框的相似距離,並且借鑑了FairMOT的特徵平滑的方法進行緩解。
競賽方案:
本次採用的多目標跟蹤系統是基於Detection和Embedding分離的方法,我們採用了以Generalized Focal Loss(GFL)[9]為損失的anchor-free檢測器,並以Multiple Granularity Network (MGN)[10]作為Embedding模型。在關聯過程中,我們借鑑了DeepSORT[6]和FairMOT[8]的思想,構建了一個簡單的線上多目標跟蹤器, 如下圖所示。
檢測器
檢測部分:
為了處理高解析度的影像,我們提出了一個segmentation-and-fusion(SF)的方法,如下圖所示。每一張大圖有交疊的切分成多個子圖,每一個子圖的解析度為6000*6000,位於影像邊緣的子圖直接填充均值。為了防止較大的行人目標被切分成進兩個子圖,相鄰的子圖橫向上重疊寬度為1000畫素,縱向重疊寬度設定為2000畫素。在融合子圖檢測結果時,我們採用一種基於子圖重疊中線和檢測框相交判定的規則。比如,對於一對橫向有重疊的子圖,如果基於左子圖的檢測框處於子圖重疊中線的右側,但與該中線相交,該檢測框就被保留,反之則丟棄該檢測框。透過segmentation-and-fusion方法,與直接合並進行NMS的方法相比, 我們在本地檢測驗證集取得了0.2AP的提升。
Embedding部分:
為了解決行人擁擠帶來的問題,我們採用了Multiple Granularity Network(MGN),如上圖所示。我們首先利用Resnet50-ibn-a[4]提取特徵,然後使用Triplet loss和Softmax loss計算三個全域性特徵的損失,僅使用Softmax loss計算區域性特徵的損失。此外,我們使用了ReID中的常用的訓練技巧來最佳化MGN的效能[3]。
Data Association:
我們借鑑了DeepSORT和FairMOT的想法,以檢測框的表觀距離為主,以檢測框的空間距離為輔。首先,我們根據第一幀中的檢測框初始化多個軌跡。在隨後的幀中,我們根據embedding features之間的距離(最大距離限制為0.7),來將檢測框和已有的軌跡做關聯。與FairMOT一致,每一幀都會透過指數加權平均更新跟蹤器的特徵,以應對特徵變化的問題。對於未匹配的啟用軌跡和檢測框透過他們的IOU距離關聯起來(閾值為0.8)。最後,對於失活但未完全跟丟的軌跡和檢測框也是由它們的IoU距離關聯的(閾值為0.8)。
後處理:
由於只對較高的置信度的檢測框進行跟蹤,因此存在大量假陰性的檢測框,導致MOTA[1]效能低下。為了減少置信閾值的影響,我們嘗試了兩種簡單的插值方法。
1) 對總丟失幀不超過20的軌跡進行線性插值。我們稱之為簡單插值(simple interpolation, SI);
2)對每一個軌跡只在丟失不超過4幀的幀之間插入。另外,我們稱之為片段插值(fragment interpolation, FI)。
雖然插值的方法增加了假陽性樣本的數量,但是大大減少了假陰性樣本,使我們在測試集上實現了0.9左右的提升。不同插值方法的效果如下表所示。
以上是我們對參賽方案的最佳化路線圖,透過最佳化檢測器以及特徵提取器,資料關聯方法、後處理等方法,在GigaVision 2020多行人跟蹤挑戰賽中獲得第一名的成績。
總結與思考:
本文針對GigaVision多行人跟蹤挑戰賽,設計了一個簡單、線上的多目標跟蹤系統,包括檢測器、特徵提取、資料關聯和軌跡後處理,在GigaVision 2020多行人跟蹤挑戰賽中獲得第一名。很榮幸取得這次競賽的第一名,在這裡也分享一下我們針對多目標跟蹤任務的一些問題以及思考:
1)檢測器和特徵提取器mAP越高,最終跟蹤的效能也會相應的提升?
2)資料關聯過程真的需要運動模型麼?
3)跟蹤器的特徵平滑為何有效?
4)Part-Based的特徵提取器為何有效?
我們對以上問題進行了思考,得出一些比較簡單的看法:
1)一般來說檢測器和特徵提取器的效能越理想,最終跟蹤的效能也會有相應的提升;mAP作為常用的檢測器評估指標來說,mAP的提升不一定能帶來跟蹤的效能提升,當然這也和評價指標有關係,需要具體問題具體分析,比如檢測上多尺度增強帶來的AP增益往往會造成MO他的降低。mAP作為特徵提取器的評估指標來說,mAP的提升也不一定能帶來跟蹤的效能提升,比如Part-Based 的MGN在本次競賽中雖然mAP比全域性特徵提取器差幾個點,在最後的跟蹤上卻取得不錯的效果。
2)現實中的多目標跟蹤任務中,攝像頭的突然運動以及跟蹤物件的突然加速往往都是存在的,這時候的運動模型其實動態效能十分的差勁,反而造成不好的跟蹤效果,本次競賽採用的是直接不採用運動模型的方法。
3) 跟蹤器的特徵平滑操作十分簡單有效,不需要類似於DeepSORT進行級聯匹配,速度比較快,考慮了同一軌跡的歷史特徵,使得特徵更加魯棒,減少了單幀跟蹤錯誤帶來的影響;
4) Part-Based的特徵提取器針對這種遮擋比較嚴重的情況在距離度量時考慮了各個部分的特徵,特別的,遮擋部分往往變化比較大,結合特徵平滑操作,一定程度上消除了遮擋部分的影響,更關注沒有遮擋部分的特徵。
作者介紹:
羅志鵬,深蘭北京AI研發中心負責人,畢業於北京大學,曾任職於微軟亞太研發集團。 現主要負責深蘭AI平臺相關研發工作,帶領團隊已在CVPR、ICCV、ECCV、KDD、NeurIPS、SIGIR等數十個世界頂級會議挑戰賽中獲得近二十項冠軍,以一作在KDD、WWW等國際頂會上發表論文,具有多年跨領域的人工智慧研究和實戰經驗。
參考文獻:
1. Bernardin, K. Stiefelhagen, R.: Evaluating multiple object tracking performance(2008)
2. Milan, A., Leal-Taixe, L., Reid, I., Roth, S., Schindler, K.: Mot16: A benchmarkfor multi-object tracking (2016)
3. Luo, H., Gu, Y., Liao, X., Lai, S., Jiang, W.: Bag of tricks and a strong baselinefor deep person re-identification (2019)
4. Pan, X., Luo, P., Shi, J., Tang, X.: Two at once: Enhancing learning and generalization capacities via ibn-net (2018)
5. Wang, X., Zhang, X., Zhu, Y., Guo, Y., Yuan, X., Xiang, L., Wang, Z., Ding,G., Brady, D.J., Dai, Q., Fang, L.: Panda: A gigapixel-level human-centric videodataset (2020)
6. Wojke, N., Bewley, A., Paulus, D.: Simple online and realtime tracking with a deepassociation metric (2017)
7. Yu, F., Li, W., Li, Q., Liu, Y., Shi, X., Yan, J.: Poi: Multiple object tracking withhigh performance detection and appearance feature (2016)
8. Zhang, Y., Wang, C., Wang, X., Zeng, W., Liu, W.: A simple baseline for multi-object tracking (2020)
9. Li, X., Wang, W., Wu, L., Chen, S., Hu, X., Li, J., Tang, J., Yang, J.: Generalized focal loss: Learning qualified and distributed bounding boxes for dense objectdetection. arXiv (2020)
10. Wang, G., Yuan, Y., Chen, X., Li, J., Zhou, X.: Learning discriminative featureswith multiple granularities for person re-identification. CoRRabs/1804.01438(2018)
11. Cai, Z., Vasconcelos, N.: Cascade r-cnn: Delving into high quality object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition.pp. 6154–6162 (2018)
12. Cao, Y., Xu, J., Lin, S., Wei, F., Hu, H.: Gcnet: Non-local networks meet squeeze-excitation networks and beyond. In: Proceedings of the IEEE International Conference on Computer Vision Workshops. pp. 0–0 (2019)
13. Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., Wei, Y.: Deformable convolutional networks. In: Proceedings of the IEEE international conference on computer vision. pp. 764–773 (2017)
14. Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 7132–7141 (2018)
15. Li, X., Wang, W., Wu, L., Chen, S., Hu, X., Li, J., Tang, J., Yang, J.: Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection. arXiv preprint arXiv:2006.04388 (2020)
16. Solovyev, R., Wang, W.: Weighted boxes fusion: ensembling boxes for object detection models. arXiv preprint arXiv:1910.13302 (2019)