Sparse R-CNN: End-to-End Object Detection with Learnable Proposals - 論文閱讀翻譯
Sparse R-CNN: End-to-End Object Detection with Learnable Proposals - 論文閱讀翻譯
文章目錄
一、Abstract
作者提出了Sparse R-CNN,一種purely稀疏目標檢測方法。現有工作中目標檢測嚴重依賴於密集的目標候選框,如在大小為H×W的的影像特徵圖的所有網格中各平鋪K個錨框。在作者的方法中,在目標識別頭提供了一組長度固定為N的可學習目標proposal稀疏集以進行分類和定位。通過將HWk個手工設計的目標候選框縮為N個可學習的proposal,Sparse R-CNN能夠完全避免目標候選框的手工設計和多到一的標籤分配的影響。並且其最終預測是直接輸出的,不需要經過NMS後處理。Sparse R-CNN在精度、執行時長和訓練收斂效能上與在COCO資料集上表現良好的baseline相當,在使用ResNet-50-FPN下訓練3x後能達到44.5AP、22FPS。
二、Introduction
目標檢測是要在影像中定位一組目標並識別其類別。密集先驗一直是檢測器成功的基石。在經典的計算機視覺中,滑動視窗正規化,也就是將分類器應用在密集影像網格上,引領了目標檢測方法多年。主流的一階檢測器是在密集的特徵圖網格上預定義標記,如錨框或參考點,並預測目標與邊界框的相對尺度和偏移以及相應的類別。儘管兩階檢測器是在一組稀疏的proposal上進行操作,但proposal生成演算法也是基於的密集候選框。
這些方法非常直觀,並且帶來了健壯的效能和快速的訓練及推理時間。但我們還需要注意的是這種密集先驗檢測器存在著一定的侷限:1)密集先驗方法會產生冗餘和近乎重複的結果,因此需要NMS後處理操作。2)訓練中的多到一的標籤分配問題使網路對於啟發式分配規則非常敏感。3)最終效能會受到錨框的大小,長寬比和數量,參考點的密集程度及proposal生成演算法的影響。
儘管在目標檢測中密集檢測已受到了廣泛認可,還有一個問題:是否可以設計一個稀疏的檢測器?DETR提出將目標檢測重新表述為一個直接的稀疏集預測問題,其輸入是100個可學習的目標queries。最終的預測集不需要任何手工設計的後處理操作即可直接輸出。儘管其框架簡單有效,但其要求每個目標query都要和影像全域性上下文互動,這樣不僅減慢了其訓練收斂,還阻止了其建立一種完全稀疏的目標檢測流程。
作者認為稀疏屬性應表現在兩個方面:稀疏框和稀疏特徵。稀疏框表示一組少量的初始框(100左右)即可預測影像中所有目標。稀疏特徵則是指每個框的特徵不需要去與整個影像中的其他特徵進行互動。從這個角度來看,DETR並不純粹,因為其每個目標query都需要和整個影像的密集特徵進行互動。
本文中作者提出了Sparse RCNN,一種純粹的稀疏方法,不需要在所有的影像網格中列舉候選目標框,也不需要將目標query與全域性(密集)影像特徵互動。如圖1c所示,作者以一組4-d座標表示的固定數量的可學習邊界框來作為候選框。如在COCO資料集中,每張圖只需要100個框和400個引數,而不是像RPN那樣需要成千上萬個候選框。這種稀疏候選框被用作proposal框通過ROIPool或ROIAlign提取ROI特徵。
可學習的proposal框是對影像中潛在目標位置的統計資訊,4-d座標是目標的粗略表示,缺少姿態和形狀等細節資訊。這裡作者引入了一個概念叫做proposal特徵,這是一個高維(256)的潛在向量。與粗糙邊界框相比,它被用於對豐富的例項特徵進行編碼。proposal特徵會針對其唯一的目標識別頭生成一系列自定義引數。作者稱這個操作為動態例項互動頭,因為其與最近的動態機制有一定的相似性。作者在實驗中證實,以唯一的proposal特徵而不是固定的引數來作為構建檢測頭的條件,是Sparse RCNN成功的關鍵。
在Sparse RCNN中最顯著的屬性是它的稀疏正規化。初始輸入是一組稀疏的proposal框和proposal特徵,以及一對一的動態例項互動。並且不存在密集的候選框或者是與全域性特徵的互動。這種純粹的稀疏性使Sparse RCNN成為RCNN系列中的新成員。
Sparse R-CNN在COCO資料集上證明了其準確度,執行時間和訓練收斂效能與當前的檢測器相當,其是第一個證明了稀疏設計合理的工作。
稀疏目標檢測有消除設計密集候選框的潛力,但是在準確性上有所落後。
三、Sparse R-CNN
Sparse R-CNN的中心思想是將由RPN得到的成千上萬的候選框替換為一組較小的proposal框集。
3.1. Pipeline
Sparse R-CNN是一個簡單的網路,由backbone,動態例項互動頭和兩個特定任務預測層組成(如圖3所示)。共有三個輸入,一張圖,一組proposal框和proposal特徵。後兩個是可學習的,可以與網路中的其他引數一起優化。
3.2. Module
Backbone
以ResNet-FPN作為backbone來生成多尺度的特徵圖,以P2-P5構建金字塔特徵。Sparse RCNN能夠從更復雜的設計中獲益以進一步提升其效能,如堆疊編碼器層和加入DCN。不過作者還是與Faster RCNN作比較以驗證其有效性和簡單性。
Learnable proposal box.
一組固定數量的可學習的proposal框(N×4)被用作區域建議,而不是由區域建議網路(RPN)的預測得到。這些proposal框由值在0到1間的4維參數列示,表示歸一化中心座標、高度和寬度。在訓練時proposal框的引數會通過反向傳播演算法更新。由於proposal框是可學習的,作者在實驗中發現初始化的影響很小,因此框架會更加靈活。
從概念上來說,這些學到的proposal框是訓練集中潛在目標位置的統計資訊,可看作不管輸入,對影像中最有可能包含目標的區域的初步猜測。RPN得到proposals與當前影像關聯密切,提供了粗糙的目標定位,作者認為第一階段的定位操作在後期存在對框的定位進行細化操作的情況下是可省略的。合理的統計資料即可作為初始候選框。因此Sparse RCNN可歸為由完全密集到由密集到稀疏到完全稀疏的目標檢測器正規化擴充套件。
Learnable proposal feature
4維proposal框是一種用來描述目標的簡短明瞭的表達方式,它提供了對目標的粗略定位,但丟失瞭如目標的姿勢和形狀等細節資訊。作者引入了proposal特徵(N×d)的概念,這是一個高維(如256)特徵向量,用於對豐富的例項特徵進行編碼。proposal特徵的數量和框的數量相同。
Dynamic instance interactive head.
給定N個proposal框,Sparse RCNN先利用ROIAlign操作來提取每個框的特徵,然後通過預測頭生成最終預測。
圖4有對預測頭進行描述,記為動態例項互動模組。每個ROI 特徵會輸入其專用的檢測頭來進行目標的定位和分類,即每個頭都基於特定的proposal特徵。proposal特徵和proposal框是一個一一對應的關係。N個proposal框對應N個proposal特徵。每個ROI特徵fi(S×S×C)會與對應的proposal特徵pi©互動,來過濾掉無效的bins並輸出最終的目標特徵©。最終的迴歸預測是通過帶ReLU和隱藏維度C的3層感知機來計算的,分類預測是通過線性對映層進行。
對於輕量化設計,作者使用帶Relu啟用函式的連續1×1卷積來實現互動。每個proposal特徵pi會與ROI特徵進行卷積以得到更具判別性的特徵。互動頭的實現細節並不關鍵,只要支援並行操作提升效率就行。
proposal特徵可看做一種注意力機制的實現,用於關注S×S大小的ROI中bins。Proposal特徵生成卷積的核引數,然後以得到的卷積處理ROI特徵獲得最終特徵。這樣會讓那些具有最多前景資訊的bins對最終的定位和分類產生影響。
作者採用迭代結構來進一步提升效能。新生成的目標框和目標特徵會用作下一階段的proposal框和proposal特徵。得益於稀疏特性和輕量動態頭,這隻帶來了少量的計算開銷。作者將自注意力模組嵌入到動態頭中以推斷目標之間的關係,只需輸入目標特徵。
DETR中提出的目標查詢與proposal特徵有相似的設計。但是目標查詢是對位置編碼進行學習。與目標查詢進行互動時,特徵圖需要新增空間位置編碼,否則會導致效能顯著下降。作者的proposal特徵與位置無關,並且證明了此框架無需位置編碼即能很好地work。
Set prediction loss.
Sparse R-CNN對固定大小的分類和框座標預測的集合採用集合預測損失。基於集合的損失會在預測框和GT目標間產生最佳的二分匹配,定義如下:
分類損失是focal loss,L1 loss和GIOU loss分別用於歸一化後的中心座標和寬高的損失計算。訓練loss和匹配cost一樣,除了只在各匹配對上執行。最終的loss是按照訓練batch內的目標數量歸一化後的所有對的loss的總和。
R-CNN系列一直受標籤分配問題的困擾,因為存在著多對一的匹配關係。在這裡作者提供了一種基於集合損失的一對一匹配的新的可能。這是一種端到端目標檢測的新的嘗試。
四、Experiments
相關文章
- Sparse R-CNN: End-to-End Object Detection with Learnable Proposals 論文解讀CNNObject
- 目標檢測 - Sparse R-CNN: End-to-End Object Detection with Learnable ProposalsCNNObject
- [論文翻譯][1809 09294]Object Detection from Scratch with Deep SupervisionObject
- 《Stereo R-CNN based 3D Object Detection for Autonomous Driving》論文解讀CNN3DObject
- 深度學習論文翻譯解析(十三):Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks深度學習ASTCNNObject
- 《Cascade R-CNN: Delving into High Quality Object Detection》論文筆記CNNObject筆記
- 深度學習論文翻譯解析(八):Rich feature hierarchies for accurate object detection and semantic segmentation深度學習ObjectSegmentation
- 論文閱讀翻譯之Deep reinforcement learning from human preferences
- 論文翻譯:Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism
- 深度學習論文翻譯解析(十二):Fast R-CNN深度學習ASTCNN
- Faster R-CNN: Down the rabbit hole of modern object detectionASTCNNObject
- 論文學習13“Feature Pyramid Networks for Object Detection”Object
- 論文翻譯:2020_WaveCRN: An efficient convolutional recurrent neural network for end-to-end speech enhancement
- 《Density Map Guided Object Detection in Aerial Images》論文10問GUIIDEObject
- 《BASNet:Boundary-Aware Salient Object Detection》論文筆記Object筆記
- 【論文解讀】【半監督學習】【Google教你水論文】A Simple Semi-Supervised Learning Framework for Object DetectionGoFrameworkObject
- NDT論文翻譯
- TransH論文翻譯
- Lane-Detection 近期車道線檢測論文閱讀總結
- 【241027-論文閱讀】DGraph: A Large-Scale Financial Dataset for Graph Anomaly DetectionNaN
- 論文翻譯:2018_LSTM剪枝_Learning intrinsic sparse structures within long short-term memoryStruct
- Rank & Sort Loss for Object Detection and Instance Segmentation 論文解讀(含核心原始碼詳解)ObjectSegmentation原始碼
- 「推薦系統的廣泛和深度學習」- 論文閱讀和翻譯深度學習
- 深度學習論文翻譯解析(十一):OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks深度學習
- 論文閱讀:SiameseFC
- 論文閱讀20241117
- GeoChat論文閱讀
- 《Object Detection Using ClusteringAlgorithm Adaptive Searching Regions in Aerial Images》論文10問ObjectGoAPT
- 論文閱讀-CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-MatchingAPT
- 阿里DMR論文閱讀阿里
- [論文閱讀] Hector MappingAPP
- A3C論文翻譯
- 深度學習目標檢測(object detection)系列(一) R-CNN深度學習ObjectCNN
- 並行多工學習論文閱讀(五):論文閱讀總結並行
- 【Fast R-CNN】Fast R-CNN (2015) 全文翻譯ASTCNN
- Object Detection(目標檢測神文)Object
- 深度學習目標檢測(object detection)系列(四) Faster R-CNN深度學習ObjectASTCNN
- 【論文研讀】Recurrent convolutional strategies for face manipulation detection in videosIDE