超越bounding box的代表性點集：視覺物體表示的新方法

機器之心發表於2019-04-30

原文網址 : https://www.jiqizhixin.com/articles/2019-04-30-7

目前，Bounding Box（即包含物體的一個緊緻矩形框）幾乎主導了計算機視覺中對於物體的表示，其廣泛流行得益於它簡便且方便物體特徵提取的特點，但另一方面也限制了對物體更精細的定位和特徵提取。

近日，來自北大、清華和微軟亞研的研究者們提出了一種新的視覺物體表示方法，稱作 RepPoints（representative points，代表性點集），這種方法能更精細地描述物體的幾何位置和進行影像特徵的提取，同時也兼有簡便和方便特徵提取的特點。利用這種表示，很自然能得到一個 anchor-free 的物體檢測框架，取得了和目前 anchor-based 方法可比的效能。

論文：RepPoints: Point Set Representation for Object Detection

超越bounding box的代表性點集：視覺物體表示的新方法

論文地址：https://arxiv.org/abs/1904.11490

目前，與物體相關的視覺研究幾乎佔了半壁江山，在工業界更是如此，大部分應用都依賴於提取物體位置後的進一步分析。在這些應用和研究中，如何表示物體尤其重要。一直以來，bounding box 是表示視覺物體最常用的方法，它的流行得益於簡便的形式，便於提取物體特徵（RoIAlign 方法）的特點，以及與物體檢測任務的標註和評測一致。

具體到在物體檢測中的應用，舉目前表現最好的多階段物體檢測演算法為例，基於 bounding box 的物體表示出現在多個階段，從初始階段的錨點（anchors），到中間的候選框（proposals），再到最終的定位框，都是基於 bounding box，可以說無處不在：

超越bounding box的代表性點集：視覺物體表示的新方法

總的來說，基於 bounding box（bbox）的多階段物體檢測是一個定位越精確，進而特徵提取越精確，而這又反過來幫助更精確定位的迭代過程。儘管如此，bbox 總的來說受限於矩形框的形式其始終是一個比較粗糙的表示，基於 bbox 的物體特徵提取也無法很精細。

這篇論文提出了一種新的物體表示方法，用一個代表性點集來表示物體，稱作 RepPoints (representative points)：

超越bounding box的代表性點集：視覺物體表示的新方法

這種新的表示方法能更自由地刻畫物體豐富的姿態視角等的形態，利於更精細的幾何定位和更精細地物體特徵提取，如下圖所示。

超越bounding box的代表性點集：視覺物體表示的新方法

當替換物體檢測框架中所有的 bounding box 表示時，我們得到如下的物體表示變化過程：

超越bounding box的代表性點集：視覺物體表示的新方法

遵循這一過程的物體檢測器很自然是一個 anchor-free 的檢測框架（object centers 是一種特殊的 RepPoints）:

超越bounding box的代表性點集：視覺物體表示的新方法

這一 anchor-free 的檢測器設計還與同期的一些基於 anchor-free 的檢測方法不謀而合，例如 FCOS，FoveaBox，FSAF，CenterNet 等等，他們都發現 anchor-free 方法相比 anchor-based 方法也能取得不錯的效果了。

這篇論文對 anchor-free 方法的優點作了一些解釋，它認為 anchor-free 方法和 anchor-based 方法的本質區別在於表示物體的維度不一樣，anchor-free 方法把物體看作二維的點，而 anchor-based 方法把物體看做四維的矩形框，從這個角度看，anchor-free 方法和 single anchor 方法都是有區別的。

由於 anchor-free 方法將物體看做二維的點，從而使得搜尋空間大大降低，在初始表示的時候很容易基本覆蓋所有的真實物體，而 anchor-based 方法將物體看做四維的矩形框，從而通常需要很多個錨點才能大致覆蓋所有真實物體。這篇論文還認為 FPN 是促成 anchor-free 方法重新取得成功的重要關鍵，另外，RepPoints 這種靈活的表示方法也起到了部分幫助。

如下是論文的一些主要結果：

a) 和 bbox 表示方法的比較

超越bounding box的代表性點集：視覺物體表示的新方法