目前,Bounding Box(即包含物體的一個緊緻矩形框)幾乎主導了計算機視覺中對於物體的表示,其廣泛流行得益於它簡便且方便物體特徵提取的特點,但另一方面也限制了對物體更精細的定位和特徵提取。
近日,來自北大、清華和微軟亞研的研究者們提出了一種新的視覺物體表示方法,稱作 RepPoints(representative points,代表性點集),這種方法能更精細地描述物體的幾何位置和進行影像特徵的提取,同時也兼有簡便和方便特徵提取的特點。利用這種表示,很自然能得到一個 anchor-free 的物體檢測框架,取得了和目前 anchor-based 方法可比的效能。
論文:RepPoints: Point Set Representation for Object Detection
論文地址:https://arxiv.org/abs/1904.11490
目前,與物體相關的視覺研究幾乎佔了半壁江山,在工業界更是如此,大部分應用都依賴於提取物體位置後的進一步分析。在這些應用和研究中,如何表示物體尤其重要。一直以來,bounding box 是表示視覺物體最常用的方法,它的流行得益於簡便的形式,便於提取物體特徵(RoIAlign 方法)的特點,以及與物體檢測任務的標註和評測一致。
具體到在物體檢測中的應用,舉目前表現最好的多階段物體檢測演算法為例,基於 bounding box 的物體表示出現在多個階段,從初始階段的錨點(anchors),到中間的候選框(proposals),再到最終的定位框,都是基於 bounding box,可以說無處不在:
總的來說,基於 bounding box(bbox)的多階段物體檢測是一個定位越精確,進而特徵提取越精確,而這又反過來幫助更精確定位的迭代過程。儘管如此,bbox 總的來說受限於矩形框的形式其始終是一個比較粗糙的表示,基於 bbox 的物體特徵提取也無法很精細。
這篇論文提出了一種新的物體表示方法,用一個代表性點集來表示物體,稱作 RepPoints (representative points):
這種新的表示方法能更自由地刻畫物體豐富的姿態視角等的形態,利於更精細的幾何定位和更精細地物體特徵提取,如下圖所示。
當替換物體檢測框架中所有的 bounding box 表示時,我們得到如下的物體表示變化過程:
遵循這一過程的物體檢測器很自然是一個 anchor-free 的檢測框架(object centers 是一種特殊的 RepPoints):
這一 anchor-free 的檢測器設計還與同期的一些基於 anchor-free 的檢測方法不謀而合,例如 FCOS,FoveaBox,FSAF,CenterNet 等等,他們都發現 anchor-free 方法相比 anchor-based 方法也能取得不錯的效果了。
這篇論文對 anchor-free 方法的優點作了一些解釋,它認為 anchor-free 方法和 anchor-based 方法的本質區別在於表示物體的維度不一樣,anchor-free 方法把物體看作二維的點,而 anchor-based 方法把物體看做四維的矩形框,從這個角度看,anchor-free 方法和 single anchor 方法都是有區別的。
由於 anchor-free 方法將物體看做二維的點,從而使得搜尋空間大大降低,在初始表示的時候很容易基本覆蓋所有的真實物體,而 anchor-based 方法將物體看做四維的矩形框,從而通常需要很多個錨點才能大致覆蓋所有真實物體。這篇論文還認為 FPN 是促成 anchor-free 方法重新取得成功的重要關鍵,另外,RepPoints 這種靈活的表示方法也起到了部分幫助。
如下是論文的一些主要結果:
a) 和 bbox 表示方法的比較
b) 和其他 anchor-free 和 anchor-based 方法的比較(相同 backbone)
c) 系統級比較(RPDet 沒有多尺度訓練和測試,AP50 上表現尤其好)
d) 視覺化學到的 RepPoints,主要位於物體的極值點(extreme points)和有語義的點
最後用下表總結 bounding box 和 RepPoints 在物體表示上的聯絡和區別: