2D目標檢測綜述 2020 CVPR ECCV

THMo發表於2020-09-30

2020 CVPR 論文地址

2020 ECCV 論文地址

 

兩個會議中涉及目標檢測論文大約130餘篇,其中60餘篇關注2D檢測,將近40篇關注3D檢測,其他涉及顯著性目標檢測、視訊目標檢測、域自適應目標檢測。

本文主要關注2D目標檢測。

  1. 針對Anchor Free的方法提出了新的網路如CentripetalNet,改進方法如BorderDet,Soft anchor point。
  2. 針對Anchor Based方法研究較多:
  • 提出了新的分類和迴歸任務損失函式。
  • D2Det、SABL用於提高定位精度。
  • 討論了task missalignment的問題,提出double head、分離任務特徵的方法。
  • 在feature fusion方面,對FPN提出改進如AugFPN、BiFPN、PyramidConv,或者是將context資訊融合僅RoI特徵中。
  • 在label assignment方面,提出各種更合理的正負樣本劃分方法,如ATSS、基於probability、cleanliness、AABO、LabelEnc。

3. 從幾個不同的學習任務上看:

  • few-shot/one-shot: 注意力機制、增量式學習;
  • weakly supervised learning:使用context資訊解決檢測得到物體區域性的問題;
  • oriented:使用PIoU loss,rotation convolution提高精度。

4. 其他如:資料增強搜尋和驗證、用分組/soft sampling解決資料不平衡(長尾效應)、用montage方式對檢測器進行預訓練。

5. 提出了一些新的具體任務如全域性目標檢測、偽裝物體目標檢測、水下物體目標檢測。

6. 提出新的正規化:使用Transformer、GNN進行目標檢測。

 


Anchor Free Method

Anchor Free方法,如CornerNet,將一個目標物體視為為一對角點(左上點、右下點)的組合。大致流程是先定位出每個類別的角點位置(反映為角點的熱度圖和某個類別通道上的掩碼啟用),然後通過使用embedding vector對所有角點進行分組(體現為讓屬於同一個目標的角點對距離最短)。

CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection

  • 使用向心偏移(Centripetal Shift Module),解決CornerNet角點分組時因為物體外貌相似被分為同一組(將多個物體框進同一個框/同一個物體被框進另外兩個物體框),也能解決CenterNet在密集檢測的不佳表現。如圖所示:

3種網路在密集、同形物體上的檢測效果

  • 使用十字星形可變形卷積(Cross-star Deformable Convolution)學習角點池化後特徵圖上“十字星形”(包含上下文資訊)的幾何結構,如圖所示:

  • 網路結構如圖所示:

  • mAP在Anchor Free方法中最佳,僅AP50和APs比RPDet稍差。

 

BorderDet: Border Feature for Dense Object Detection

  • BorderAlign module:顯式、自適應地提取物體邊界極限點特徵。對於一個anchor點預測的一個框,將該框的4條邊對應在特徵圖上的特徵進行池化,提出每條邊的特徵。最終BAM分別預測一個邊界得分border score和一個邊界迴歸值border offset,和原始的密集檢測器(FCOS)的輸出組合成最後的輸出。如圖所示:

不同feature extraction方式的對比

 

Corner Proposal Network for Anchor-free, Two-stage Object Detection

  • 和CornerNet的區別在於一個應用在one-stage,這個應用在two-stage上。
  • Corner Proposal Network (CPN):通過提取關鍵角點組合生成proposal,送入兩階段分類器,相當於把兩階段檢測器的RPN改成了CPN。避開anchor需要設定超引數的問題。

 

Soft Anchor-Point Object Detection

  • anchor point detector使用point-to-boundary距離將目標邊框編碼為一個anchor point,關聯當前位置特徵,速度快但定位精度上低於key point方法。原因在於注意力偏差(attention bias,目標清晰的區域生成得分較高,抑制了周圍其他目標的得分割槽域)和特徵選擇(feature selection,anchor free方法選擇特徵level時不受anchor匹配的約束,可同時為一個目標分配一個或多個level的特徵)。
  • soft-selection pyramid levels:為每一個目標預測各個特徵金字塔的level的選擇權重。
  • soft-weighted anchor points:對於正樣本anchor point,根據其到目標中心點的距離、所屬特徵金字塔level的選擇權重,調整anchor point對整個網路損失的影響權重。

  • 結果有著較好的trade-off。

Anchor Based Method

Regression loss

Offset Bin Classification Network for Accurate Object Detection

  • Offset bin classification network optimized with cross-entropy loss:重新定義了迴歸網路的損失函式,將連續偏移量離散化為若干offset bin,預測每一個offset bin的概率。可以有效解決smoothL1對不同誤差大小的sample施加同樣懲罰的不合理之處。

Classification loss

DR Loss: Improving Object Detection by Distributional Ranking

  • 將分類問題轉換為排序問題,即正樣本的得分比負樣本的得分高,也即讓正負樣本的分佈區分開。如圖所示:

  • 用其對ResNet101的改進,在COCO上mAP可以提升2%。

 

 


Label assignment

在劃分anchor為positive、negative、ignore樣本時,最原始方法是先計算anchor與ground truth的IoU值,設定IoU閾值來劃分正負樣本,正樣本給為1,負樣本給為0,其他為-1。但可能出現問題:(1)IoU低於閾值的負樣本的IoU其實可能被迴歸到閾值以上;(2)IoU高於閾值但其值不同的兩個anchor都被標為1,體現不出差異。(3)不同ground truth匹配到的anchor數量不均衡。

針對(3),使用top k方法,即對每個ground truth都匹配前k個IoU值最高的anchor,屬於動態改變IoU閾值的方法劃分正負樣本。

 

Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection

  • 通過對比實驗證明了anchor based和anchor free方法的根本差異來源於正負樣本的選擇方式不同
  • 提出ATSS(Adaptive Training Sample Selection)動態設定IoU閾值劃分正負樣本的方法。主要流程:根據物件的統計特徵選擇正負樣本,對每一個ground truth,根據L2 distance在每一個特徵圖層收集k個(文中設為9)與ground truth中心最近的anchor作為一個集合,計算集合中的正樣本與ground truth的IoU,獲得每個集合的均值mean和標準差std。最終針對一個ground truth,其IoU閾值為mean+std,將IoU大於閾值的anchor作為正樣本。文中實驗最終證明這種閾值設定方法對不同的anchor超引數設定具有魯棒性(anchor的尺寸、比例、數量設定對mAP幾乎無影響)

(a)高均值高標準差 (b)低均值低標準差

  • ResNeXt-64x4d-101-DCN為backbone,MS COCO測試可達50.7%的mAP。

 

Probabilistic Anchor Assignment with IoU Prediction for Object Detection

  • 思路:模型應當以概率的方式將一個anchor預測為正樣本。基於此,將每一個ground trugh的anchor score視為從概率分佈中抽取的樣本,用最大化anchor score的likelihood。

 

Learning from Noisy Anchors for One-stage Object Detection

  • 提出評價anchor質量的指標cleanliness score,由anchor迴歸後與ground truth的IoU和class score加權求和。一方面將cleanliness作為分類的soft label(不再是0/1),另一方面將cleanliness用於計算sample re-weighting factor,減輕hard sample的作用,重新訪問cleaned sample,使得分類效果更好。

 

Prime Sample Attention in Object Detection

  • IoU Hierarchical local rank (IoU-HLR):PISA認為sampling strategy應從評價指標mAP出發,關注主要樣本。對每一個groud truth匹配的sample根據IoU值進行排序,順序越靠前說明這個sample對這個ground truth更重要,因此根據排序結果給這些anchor賦予不同權重,從而讓IoU值更高的sample擁有更高的confidence。

IoU值更大的prime sample帶來更好的分類結果

 

Multiple Anchor Learning for Visual Object Detection

  • Multiple Anchor Learning:構建一個anchor bags,在每一個bags中對每一個anchor計算其聯合分類和迴歸的confidence,作為判斷其重要性,選擇最具代表性的一個anchor。
  • anchor selection and depression module

 

AABO: Adaptive Anchor Box Optimization for Object Detection via Bayesian Sub-sampling

  • 證明了anchor的超引數設定是一個模型的關鍵因素。提出一種自適應調整anchor超引數的方法。
  • 結合Bayesian Optimization和sub-sampling提供anchor的優化。
  • 提升Mask RCNN、HTC檢測器2%的結果。

 

LabelEnc: A New Intermediate Supervision Method for Object Detection

  • LabelEnc:a novel label encoding function, mapping the ground-truth labels into latent embedding。使用一個標籤編碼函式來利用ground truth的標籤。
  • 使用一個定義在label空間的AutoEncoder預測對於一個目標檢測器的中間監督表達,根據近似的optimal detect head將ground truth的標籤引入潛在空間。

  • 使用該中間監督件進行訓練

  • 在多種模型上均能實現2%的提升。輔助結構僅在訓練過程存在,不影響測試開銷。

Task missalignment

分類任務和迴歸任務本質上是兩個不同的方向(如行人檢測,分類要求不同的人歸屬同一類,而回歸要求將兩個人區分開),對特徵的在空間維度上的要求也不同。分類任務所需的特徵需要保證平移和尺度不變,迴歸任務所需的特徵需要保證平移和尺度相等(特徵能夠保留目標的位置和形狀資訊)。

 

Rethinking Classification and Localization for Object Detection

  • 通過實驗對比得出(1)全連線層在分類任務上比卷積效果好(特別是小目標)並給出了Pearson相關係數證實了此結論;(2)卷積層在迴歸任務上比全連線層好。實驗統計如圖:

第一行:IoU越大,fc給出的class score平均效果比conv好;第二行:IoU大於0.4之後conv迴歸的box平均結果比fc稍好

  • 設計了Double head的網路,fc做分類,conv做迴歸。損失函式為兩者加權求和,再加RPN損失。Double head ext版本考慮unfocused task的影響,fc和conv都做分類和迴歸,將結果再做加權求和。網路結構如圖所示:

 

Revisiting the Sibling Head in Object Detector

  • Task-aware spatial disentanglement learning(TSD)將分類和迴歸任務在空間維度上分離。將RPN產生的proposal的特徵圖,通過pointwise deformation生成用於分類任務的proposal,通過proposal-wise translation生成用於迴歸任務的proposal。
  • Progressive constraint (PC) 漸進性約束,使用sibling head的預測結果幫助提升TSD的效果。

 

Learning a Unified Sample Weighting Network for Object Detection

  • 設計了一個損失函式用於預測classification和regression任務的權重,從而動態調整任務權重。
  • 不影響測試速度。

Feature fusion

低層特徵解析度高,包含位置、細節資訊,但語義性低,噪聲多。高層特徵則具有更強的語義資訊。將不同尺度的特徵進行有效融合是提高目標檢測效果的一個重要手段。例如SSD使用多個尺度的特徵圖進行預測再對預測結果進行綜合,Feature Pyramid Network則將特徵圖進行融合,在每個融合後的特徵圖上單獨進行預測。

 

AugFPN: Improving Multi-scale Feature Learning for Object Detection

  • Consistent Supervision:解決FPN因為將高低層語義資訊相差較大的特徵圖直接相加導致的表達能力削弱的問題。
  • Residual feature Augmentation:解決FPN自頂向下融合時頂層特徵由於經過1*1卷積降維導致資訊損失的問題。
  • Soft RoI Selection:解決FRN中,根據proposal尺度決定從相應哪一層特徵圖選擇RoI特徵圖進行預測造成的對忽略層資訊利用不充分的問題。

 

EfficientDet: Scalable and Efficient Object Detection

  • 提出使用BiFPN,使用權值對不同尺度的特徵圖的重要性進行區分,並反覆應用自頂向下和自下而上的特徵融合過程。

  • 應用EfficientNet進行模型複合擴張。

FLOPs:floating point operations

  • EfficientDet-D7在COCO上可達52.2%,且模型複雜度也不高。

 

Scale-Equalizing Pyramid Convolution for Object Detection

  • Pyramid convolution:使用3D卷積(可表示為N個不同的2D卷積)關聯相近特徵圖,進一步聯絡不同尺度特徵圖的內在關聯。使用共享Batch normalization層,減小方差。
  • Scale-equalizing pyramid convolution(SEPC)解決在特徵金字塔相鄰層之間使用間隔不同的卷積層和非線性單元導致的不同尺度特徵圖之間沒有固定的理論高斯模糊核,它在高層特徵圖上用可變形卷積來與低層特徵圖上的點對齊。
  • 最佳表現達50.1%。

 

NETNet: Neighbor Erasing and Transferring Network for Better Single Shot Object Detection

  • Neighbor Erasing and Transferring (NET) mechanism :重新配置特徵金字塔,擦除大物體的顯著特徵,突出小物體的淺層特徵。

 

Hierarchical Context Embedding for Region-based Object Detection

  • Image-Level Categorical Embedding:通過multi-label loss學習帶有context資訊的特徵。
  • Hierarchical Contextual RoI Feature Generation:利用context資訊特徵和RoIAlign產生帶有context資訊的RoI特徵。
  • Early-and-Late Fusion:將帶有context資訊的RoI特徵與原本的RoI特徵進行融合,提高分類效果。

Others

D2Det: Towards High Quality Object Detection and Instance Segmentation

  • Dense local regression:不同於Faster RCNN在RoI pooling之後將特徵圖送入全連線層,D2Det將RoI上的所有點視為特徵點,對每個proposal與ground truth有交集的特徵點做迴歸(而Faster RCNN只做一個迴歸),最後將所有點回歸的偏移量做平均得到最終的偏移量。
  • Discriminative RoI Pooling:先使用一個light-weight預測器預測每個RoI子區域,然後進行自適應加權,賦予區別明顯的特徵點更高的權重。

Side-Aware Boundary Localization for More Precise Object Detection

  • SABL:直接由特徵圖對每一條邊進行預測(傳統邊框迴歸通過預測中心點和尺寸得到邊框)。主要流程:將目標空間分成多個bucket,先預測邊框位於哪一個bucket,再回歸邊框與bucket中心點的偏移量。

  • 效果提升了1-2%,除了Cascade RCNN之外速度都持平。

 

MimicDet: Bridging the Gap Between One-Stage and Two-Stage Object Detection

  • 用two-stage檢測器與one-stage檢測器結果做similiarity loss,用於優化one-stage檢測器。


Few shot object detection

Few shot旨在使模型無需在新類別上重新訓練就可以檢測新類別物體。

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

  • Attention-RPN:query圖片和support圖片經過權值共享網路,由Attention-RPN利用額外的support集資訊,將原本RPN找到的proposal過濾掉不屬於support集類別的proposal和background。

  • Multi-Relation head:用多關係檢測分類器代替原本Faster RCNN的softmax分類起,通過計算proposal與support集之間相似度的方式區分proposal中的目標是否屬於support集。
  • Two-way Contrastive Training Strategy:每次訓練從support集和query集中分別選取一張c類影像,和support集中一張非c類的影像。

 

Incremental Few-Shot Object Detection

  • 不使用比對的方式,而採用增量式新增類別到模型,減少對大量標註資料的依賴,並且能夠提速。
  • OpeN-ended Centre nEt (ONCE):在CentreNet結構上引入meta-learning,將批量學習轉變為元學習。

 

OS2D: One-Stage One-Shot Object Detection by Matching Anchor Features

  • dense correlation:匹配學習到的local feature
  • feed-forward geometric transformation model:align features
  • bilinear resampling:計算預測得分


Weakly supervised learning

SLV: Spatial Likelihood Voting for Weakly Supervised Object Detection

  • 具有最高class confidence的proposal往往只覆蓋了待測目標物體的一部分,覆蓋更大面積的其他proposal往往具有較低class score。
  • MIL模組由三個WSDDN構成,生成的平均分類得分用於SLV模組的監督資訊。
  • SLV:包含重分類分支和重定位分支。每張圖片中的所有proposal從空間維度對每個類別的likelihood進行投票。對似然值高的區域proposal將其投票結果進行正則化作為最終的bouding box,用於最後的分類和迴歸。

 

Instance-Aware, Context-Focused, and Memory-Efficient Weakly Supervised Object Detection

  • instance-aware self-training algorithm:teacher-student的蒸餾過程,可以幫助提高student模型的表達能力。涉及將例項關聯約束instance-associative constraints加入為標籤的生成中,利用各個proposal的得分,對生成的偽標籤施加空間多樣性用於誘導偏差。
  • learnable Concrete DropBlock

  • Memory-efficient sequential batch back-propagation

 

Seeing without Looking: Contextual Rescoring of Object Detections for AP Maximization

  • Rescore detection:基於擁有更高的IoU值的檢測結果應該擁有更高的confidence的想法,使用高層的語義資訊來重新評分。每一個檢測結果由一個特徵向量表示,不僅包含原有的視覺特徵,還包含original confidence,predicted class,bounding box coordinates這些非視覺的高層語義資訊。使用帶有自注意力機制的RNN來學習contextual representation,損失函式用於訓練獲取最大AP。

 

Robust Object Detection under Occlusion with Context-Aware CompositionalNets

  • 基於任何位於bounding box之外的特徵具有感受野會被認為是上下文的一部分。基於給出的bounding box的標註,將image representation分成context representation和object representation的混合模型
  • 提出一個part-based的投票機制用於進行bounding box迴歸。

 

Enabling Deep Residual Networks for Weakly Supervised Object Detection

  • 針對度殘差網路在弱監督學習中顯示出檢測精度和不收斂性的顯著下降提出一系列設計原則,從增加冗餘自適應、提高魯棒性、特徵對齊的角度進行設計。
  • Redundant adaptation neck:for effective object instance localization and discriminative feature learning。
  • Small-kernel convolution,maxPool down sampling:提高魯棒性。
  • dilated convolution:對特徵進行對齊,通過提取高解析度的特徵圖,實現對不同位置資訊的利用。

 

Many-shot from Low-shot: Learning to Annotate using Mixed Supervision for Object Detection

  • Online annotation module(OAM):在弱標籤和強標籤上進行聯合訓練,使能從大量弱標籤資料生成可靠的標籤資料,用於訓練檢測器。



Oriented object detection

Dynamic Refinement Network for Oriented and Densely Packed Object Detection

  • Feature selection module:基於物體形狀和方向自適應調節神經元感受野,緩解感受野和目標物體的不匹配。

  • dynamic refinement head:DRH-C和DRH-R分別用於分類和迴歸,對每個樣本的唯一性和特殊性建模,從objectivewise細化預測。

 

Arbitrary-Oriented Object Detection with Circular Smooth Label

  • 證明現有的迴歸基旋轉檢測器具有由角週期性或角序直接引起的不連續邊界問題,其原因在於理想預測超出了限定範圍。
  • A new rotation detection baseline:將角預測從一個迴歸問題轉化為一個精度損失很小的分類任務來解決邊界問題,與之前使用粗粒度旋轉檢測的工作相比,設計了高精度的角度分類。
  • circular smooth label (CSL):處理角度的週期性問題,增加對相鄰角誤差容錯性。

 

PIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments

  • PIoU loss:從IoU計算得到。(以往的oriented bounding box通過在水平邊框引入由距離損失優化得到的附加角度來得到,距離損失使角度最小,與IoU相關性不高,並且其對ratio較大的目標效果較差)

 

Data augmentation

Learning Data Augmentation Strategies for Object Detection

  • 認為在目標檢測中直接應用分類任務的資料增強策略帶來的提升有限。
  • AutoAugmentation:將檢測任務上的資料增強策略搜尋視為一個離散優化問題(discrete optimization problem)。22個資料增強運算,包括對顏色、幾何變換、框位置的變換進行增強, 結果顯示每一類變化都是必要,並且Rotate、Equalize(直方圖均衡化)、BBox only TranslateY(對框的位置做垂直翻轉)在檢測任務上的提升效果較明顯。
  • 訓練集資料很小的時候,資料增強方法帶來的漲點最多,在小物體檢測上效果明顯。

 

Training strategy

Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection

  • Montage Assembly:從樣本集中按照一定規則選擇正負樣本,通過拼圖方式組合,用於檢測器的預訓練,避免在大規模資料集上進行預訓練的需求。
  • ERF-adaptive loss:對特徵圖的每個點進行分類,每個點的soft label基於其對應的有效感受野進行計算,然後對每個區域進行加權求和,其權重為每個區域感受野權重之和與整體有效感受野權重之和的比值。

Data imbalance

Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax

  • Balanced Group Softmax:將目標數量相近的類放在同一組,對每一組分別進行softmax操作。需要在每一組中放入一個others類別,包括所有background和本組不具備的來自其他組的foreground。

Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels

  • concurrent softmax:利用多標籤的隱性依賴關係輸出每種類別的概率值,解決真實環境中顯式多標籤(並列/繼承關係標籤)、隱式多標籤(漏標、混標)問題,

  • soft sampling:混合取樣,增加稀少類的取樣頻率,解決長尾效應問題。

New paradigm

End-to-End Object Detection with Transformers

  • 將目標檢測問題轉化為一個集合預測set prediction的問題,用Transformer預測box的集合。

  • 結果在大目標上表現良好,小目標上表現較差。

 

GeoGraph: Graph-based multi-view object detection with geometric cues end-to-end

Features of anchors are used to generate a dense fully connected graph -> GNN, Geo-Localization network

improvement: re-identification, geo-localization tasks

 

UFO2: A Unified Framework towards Omni-supervised Object Detection

  • 使用帶不同級別標籤的資料進行聯合訓練(包括無標籤)


New tasks

Dual Renement Underwater Object Detection Network

Universal object detection

Object Detection with a Unified Label Space from Multiple Datasets

  • 訓練一個目標檢測器用於預測所有標籤空間的並集。比如某個類在一個資料集中被註釋,但在另一個資料集中存在卻沒有註釋,在一個資料集中被認為是前景,在另一個資料集中被認為是背景。
  • pseudo labelling approach

Camouflaged Object Detection

  • 偽裝物體目標檢測,待測目標與背景從肉眼觀察具有高度相似性。

相關文章