邁向完全可學習的物體檢測器:可學習區域特徵提取方法

微軟研究院AI頭條發表於2018-08-31

物體檢測是計算機視覺領域的重要問題之一,現今大部分計算機視覺應用都依賴於物體檢測模組,例如無人車應用中對於周圍環境的感知,安防支付等應用中的人臉識別,新零售應用中的商品識別等等的第一步都是提取影象或視訊中的感興趣物體,也就是物體檢測。

這一次人工智慧的浪潮很大程度上來自於資料驅動方法的進展,也就是將人工智慧系統中的各個模組和步驟從手工設計轉變為可以從資料中學習。資料驅動方法不僅提高了系統的準確率,也增強了系統對於不同場景的適應性。在物體檢測領域,影象特徵提取、候選框生成、後處理方法等等同樣經歷了從手工設計到可學習的轉變,但是對於區域特徵提取,至今仍舊主要採用手工設計的方法,例如RoI Pooling方法。

近日,來自微軟亞洲研究院和北京大學的研究者們針對物體檢測中的區域特徵提取步驟提出了一種統一現有區域特徵提取方法的視角,並據此設計了一種新的可端到端學習的區域特徵提取方法。新的方法在COCO檢測任務上的表現普遍超過RoI Pooling及其變種,並且有望啟發研究者們進一步探索完全可學習的物體檢測系統。該論文已被ECCV 2018接收。

區域特徵提取的一般化視角

先進的基於區域的物體檢測方法由五個步驟組成,分別是影象特徵生成、候選區域(proposal)生成、區域特徵提取、區域識別和重複檢測去除。影象特徵生成會輸出空間大小為H×W和通道數為C_f的特徵圖x。候選區域生成會輸出一定數量的關注區域(Rol),每個RoI用四個座標的邊界框b表示。通常,區域特徵提取會從影象特徵x和關注區域b生成區域特徵y(b),如

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

一般地,y(b)的維度為K×C_f,通道數保持和影象特徵x一樣為C_f,而K表示區域中空間子區域(spatial part)的個數。上述概念可以被泛化。一個子區域(part)未必有規則的形狀,子區域的特徵y_k (b)無需從影象特徵x上固定的空間位置得來。甚至,子區域的並集未必是關注區域本身。在一般化的表示式中,子區域的特徵被視為影象特徵x在取樣區域Ω_b(support region)上的加權和,如

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

其中,Ω_b是取樣區域,它可以是RoI本身,也可以包含更多語境(context)資訊,甚至是全圖;p列舉了Ω_b內的所有空間位置;w_k (b,p,x)是對應於位置p處的影象特徵x(p)的加權權重;⊙表示逐元素乘法(element-wise multiplication),這裡的權重假定是歸一化的,即∑_(p∈Ω_b) w_k (b,p,x)=1。

研究證明各種關注區域池化方法都是上述觀點的特例。在這些方法中,取樣區域Ω_b和權重w_k (⋅)的具體形式各異,並且大多是人為定義的。

1. 普通的區域池化

普通的區域池化(Regular RoI Pooling)的取樣區域Ω_b是RoI本身。它被規則地劃分為網格(比如7×7)。每個子區域的特徵y_k (b)是所有影象特徵x(p)的最大或平均值,其中p位於第k個統計區內部。

以 averaging pooling 為例,公式(2)中的權重

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

其中,R_bk是第k個統計區內部所有位置的集合。

Regular RoI Pooling 存在一個缺陷:由於神經網路的空間下采樣,它無法區分非常近的若干關注區域。

2. 對齊的區域池化

對齊的區域池化(Aligned RoI Pooling)通過對每個R_bk中的取樣點進行雙線性插值,彌補了普通的區域池化中的量化缺陷。簡單地說,假定每個統計區只取樣一個點,比如統計區的中心(u_bk,v_bk)。設位置p=(u_p,v_p),公式(2)中的權重可以表示為

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

其中,g(a,b)=max(0,1-|a-b|)表示一個維度上線性插值的權重。注意公式(4)中的權重只有在取樣點(u_bk,v_bk)周圍最近的四個座標才非零。

3. 可形變的區域池化

可形變的區域池化(Deformable RoI Pooling)通過對每一個統計區學習一個偏移(δu_bk,δv_bk),並作用於統計區中心,泛化了對齊的區域池化公式(4)中的權重可以擴充套件為

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

偏移是通過一個作用於影象特徵x的可學習的子模組產生的。特別地,這個子模組從對齊的區域池化提取的特徵出發,通過額外的全連線層(fully connected layer)迴歸偏移。

權重和偏移依賴於影象特徵,而且可以端到端學習,物體的形變可以被更好地根據影象內容進行建模。另外,由於位移原則上可以任意大,所以取樣區域Ω_b不再侷限於關注區域內部,而是能夠覆蓋全圖


資料驅動的區域特徵學習

普通的和對齊的區域池化是完全由人工設計的,可形變的區域池化引入了可學習的模組,但它的形式仍然限制在規則的網格。在本文中,我們嘗試用最少的人工設計學習公式(2)中的權重w_k (b,p,x)。

影響權重的因素有兩個:第一是位置p和關注區域框b的幾何關係。例如,在關注區域框b中的位置應該比離得較遠的位置貢獻更大;第二,影象特徵x是否被適應性地使用。

所以,權重被建模成與兩個因素的和的冪指數相關

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

公式(8)中的第一項G_k (b,p)刻畫了幾何關係。

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

公式(8)本質上是一個注意力模型,注意力模型是建模遠距離的或者性質各異的元素間依賴關係的利器,比如不同語言中的單詞,位置/大小/比例不同的關注區域等。大量的實驗表明,注意力模型可以很好地對區域和影象位置間的幾何關係進行建模。

公式(7)中的第二項A_k (x,p)適應性地使用影象特徵。它在影象特徵上作用一層卷積,

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

其中W_k^app代表可學習的卷積核的權值。

整個區域特徵提取模組的結構如圖1所示。在訓練中,影象特徵x和模組引數(W_k^box, W^im, 和W_k^app)都是同時更新的。

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

圖1 所提出的區域特徵提取模組中關於公式(2)和公式(7)的圖示 

為了降低計算量,我們提出了一種高效的實現方式——對Ω_b中的位置進行稀疏取樣。直觀上,關注區域內的取樣點應該更密,而其外應該較稀疏。因此,Ω_b被劃分為兩個集合Ω_b=Ω_b^In∪Ω_b^Out,分別包含了關注區域內外的位置。Ω_b^Out代表了關注區域的語境(上下文)資訊。它可以是空集,也可以覆蓋全圖。通過指定在Ω_b^In和Ω_b^Out中的最大采樣數(通常,兩者都設為196),複雜度可以被控制。給定關注區域b,Ω_b^In中的位置分別以stride_x^b和stride_y^b的步長,沿x和y兩個方向取樣。實驗表明稀疏取樣的準確度與樸素的密集取樣相差無幾。

實驗

我們在COCO檢測資料集上對該方法進行實驗。實驗過程遵循COCO 2017的資料集劃分:訓練集的115k張影象用於訓練;驗證集中的5k張圖片進行驗證;並在測試集的20k張影象上進行測試。

我們使用最先進的R-CNN和FPN物體探測器,使用ResNet-50 和ResNet-101用作影象特徵提取器的骨幹(backbone)。預設情況下,使用基於ResNet-50的Faster R-CNN進行對比實驗。交併比(IoU)閾值為0.5的標準非極大值抑制(NMS)被用於去除重複檢測。 

1. 取樣區域的影響

實驗發現,我們的方法勝過了其它兩種池化方法。同時,隨著取樣區域的增大,新方法的表現也穩步提高,表明了利用語境資訊是有幫助的。

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

表2 不同取樣區域的三種區域特徵提取方法比較。在COCO驗證集上報告準確性mAP。* 目前尚不清楚如何利用整個影象進行普通和對齊的目標區域池化方法,因此相應的準確數字被省略。

2. 稀疏取樣的影響

由於稀疏取樣實現,計算開銷可以顯著降低。預設情況下,對Ω_b^In和Ω_b^Out指定最多196個取樣位置。實際中,面積較大的關注區域對於Ω_b^Out將具有較少的取樣位置,而面積較小的關注區域對於Ω_b^In將具有比最大采樣數更少的取樣位置。對於Ω_b^In和Ω_b^Out,實際的平均取樣位置數分別在114和86左右,如表3所示。相應的計算開銷是4.16G FLOPS,粗略地等於兩個全連線層的檢測頭的計算量(大約3.9G FLOP)。

對於之後的實驗,稀疏取樣實現對於Ω_b^In和Ω_b^Out都最多選取196個位置。

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

表3 不同取樣位置數下的檢測準確度和計算量。均取樣個數|Ω_b^Out |_avg 和|Ω_b^In |_avg是在COCO的驗證集上以ResNet-50 RPN生成的300個候選區域為樣本計算而得的。

3. 幾何關係和影象特徵使用方法的影響

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

公式(7)中幾何關係和影象特徵使用對於所提出的區域特徵提取模組的影響。在COCO的驗證集上彙報結果。

4. 不同檢測網路的比較

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

表5不同檢測網路上不同方法的比較。在COCO的測試集上彙報結果。 

5. 學到了什麼?

下面具體看一下本文的區域特徵提取演算法到底學到了什麼樣的特徵。公式(7)中的權重w_k (*)表示的是影象每個位置的特徵對於最終區域特徵的貢獻。圖2(a)顯示了訓練前後權重w_k (*)的變化,可以看出,訓練伊始,權重w_k (*)很大程度上是隨機的。在訓練之後,不同部分的權重自動學習到區域的特徵要關注區域上的不同位置,並主要集中在前景物體上。圖2(b)分別顯示了學習到的幾何權重和表觀權重,可以看出,幾何權重主要集中在感興趣區域,而表觀權重則對應到所有前景物體上。

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

圖2(a)給定兩個RoI(紅色框),初始(左)和最終(右)公式(7)中的權重w_k (*)。中心的圖片展示了所有K=49個子區域對應的權重圖的最大值。其周圍4個小的圖片顯示了4個子區域分別對應的權重圖。

邁向完全可學習的物體檢測器:可學習區域特徵提取方法

圖2(b)示例:幾何關係對應的權重(第一行),影象特徵對應的權重(第二行)和兩者結合的權重(第三行)。

瞭解更多細節,請閱讀我們的論文:

Learning Region Features for Object Detection

論文連結:https://arxiv.org/abs/1803.07066

本文共同作者還有胡瀚、代季峰、王立威、危夷晨

相關文章