優於Mask R-CNN,港中文&騰訊優圖提出PANet例項分割框架

劉曉坤發表於2018-03-12
引言

例項分割是最重要、最具挑戰性的任務之一。該任務的目的是預測類別標籤和畫素級例項掩碼以定點陣圖像中不同數量的例項。例項分割對自駕汽車、機器人、影片監控等很有用。

由於深度卷積神經網路的助力,人們提出了多種例項分割的框架 [21,33,3,38],其效能也提升得很快 [12]。Mask R-CNN [21] 是一個很簡單有效的例項分割框架。基於 Fast/Faster R-CNN [16,51],研究者還提出了全卷積網路(FCN),FCN 結合邊框迴歸和分類網路用於預測掩碼。為了獲得足夠高的分割效能,研究者利用特徵金字塔網路(FPN)[35] 來提取網路內部的特徵層級,其中增強了自上而下的路徑(具備側向連線)以傳播語義較強的特徵。

近期釋出的新資料集 [37,7,45] 為演算法提供了很大的提升空間。COCO [37] 由 20 萬張影像構成,每張影像都包含了空間佈局複雜的多個例項。與此不同,Cityscapes [7] 和 MVD [45] 的每張影像都是包含大量交通參與者的街景,因此這些資料集會出現很多模糊的、高度遮擋以及非常小的例項。

研究者提出了多個原則,用於設計既可以執行影像分類又可以執行目標識別的網路。例如,透過殘差連線 [23,24] 和密集連線 [26] 縮簡訊息路徑,使資訊更有效地傳播。此外,透過分離-轉換-融合策略建立並行路徑以增加資訊路徑的靈活性和多樣性也大有裨益 [61, 6]。

研究發現

本文研究者指出當前最優的 Mask R-CNN 中的資訊傳播還可以進一步最佳化。具體來說,低層級的特徵對於大型例項識別很有用。但最高層級特徵和較低層級特徵之間的路徑很長,增加了訪問準確定位資訊的難度。此外,每個建議區域都是基於從一個特徵層級池化得到的特徵網格而預測的,此分配是啟發式的。由於其它層級的丟棄資訊可能對於最終的預測還有用,這個流程還有進一步最佳化的空間。最後,掩碼預測僅在單個視野上執行,無法獲得更加多樣化的資訊。

貢獻

受到這些理論和觀察的啟發,本文作者提出了新的例項分割框架 PANet,如圖 1 所示。

首先,為了縮簡訊息路徑和用低層級的準確定位資訊增強特徵金字塔,作者建立了自下而上的路徑增強。實際上,文獻 [44,42,13,46,35,5,31,14] 中的系統就使用了低層級的特徵。而傳播低層級特徵來增強整個特徵分層,從而提升例項分割質量的方向,尚未有人進行探索。

第二,為了恢復每個建議區域和所有特徵層級之間被破壞的資訊,作者開發了適應性特徵池化(adaptive feature pooling)技術。這是一個簡單的元件,可以將所有特徵層級中的特徵整合到每個建議區域中,避免了任意分配的結果。透過該操作,研究者建立了更簡潔的路徑(與 [4,62] 相比)。

優於Mask R-CNN,港中文&騰訊優圖提出PANet例項分割框架

圖 1. 框架圖示。(a)FPN 主幹網路。(b)自下而上的路徑增強。(c)適應性特徵池化。(d)邊框分支。(e)全連線融合層。注意:為簡潔起見,(a)和(b)中省略了特徵圖的通道維度。

最後,為了捕捉每個建議區域的不同視野,研究者使用小型全連線層來增強掩碼預測,作為對 Mask R-CNN 所用的 FCN 的補充。透過結合這兩種視野的預測結果,網路輸出的資訊多樣性有所改善,掩碼質量有所提升。

目標檢測和例項分割共享前兩個元件,這使得二者效能均有明顯提升。

實驗結果 

PANet 在多個資料集上達到了頂尖的效能。研究者使用 ResNet-50 [23] 作為 PANet 的初始網路,使用單個尺度進行測試,其效能優於 COCO 2016 挑戰賽目標檢測和例項分割任務冠軍。注意:之前的結果均由具備多尺度和水平翻轉測試的大型模型獲取。

本研究提出的模型在未經大批次訓練的情況下,取得了 COCO 2017 挑戰賽例項分割任務第一名、目標檢測任務的第二名。研究者還在 Cityscapes 和 MVD 上對該系統進行了基準測試,同樣獲得了頂尖結果,這表明 PANet 是一個非常實際、且效能優秀的框架。之後研究者將公開程式碼和模型。

優於Mask R-CNN,港中文&騰訊優圖提出PANet例項分割框架

圖 3. 使用適應性特徵池化從不同特徵級中整合特徵的比率。每一條線表示應被分配至 FPN 中相同特徵級的一組建議區域,即具備相似尺度的建議區域。橫軸表示池化特徵的來源。這表明具備不同大小的建議區域都可以使用不同級別的特徵。

優於Mask R-CNN,港中文&騰訊優圖提出PANet例項分割框架

圖 4. 具備全連線融合層的掩碼預測分支。

優於Mask R-CNN,港中文&騰訊優圖提出PANet例項分割框架

表 1. PANet、COCO 2016 例項分割挑戰賽冠軍和 Mask R-CNN 在 COCO 測試-開發子集上的 Mask AP 對比,後兩者是基線模型。

優於Mask R-CNN,港中文&騰訊優圖提出PANet例項分割框架

表 5. 每一行的影像分別是本研究提出的模型在 COCO 測試-開發集、Cityscapes 測試集和 MVD 測試集上的例項分割結果。

優於Mask R-CNN,港中文&騰訊優圖提出PANet例項分割框架

表 8. 在 Cityscapes 驗證子集上的結果,標註為 AP [val];在 Cityscapes 測試子集上的結果,標註為 AP。

論文:Path Aggregation Network for Instance Segmentation

優於Mask R-CNN,港中文&騰訊優圖提出PANet例項分割框架

論文連結:https://arxiv.org/abs/1803.01534

神經網路中的資訊傳播方式是非常重要的因素。本論文提出了 Path Aggregation Network(PANet),該網路可以對基於區域建議的例項分割框架中的資訊流進行加速。具體來說,我們透過自下而上的路徑增強,在較底層用準確的定位訊號增強了整個特徵分層,從而縮短了較底層和最高層特徵之間的資訊路徑。我們展示了適應性特徵池化(adaptive feature pooling)操作,將特徵網格和所有特徵層級連線起來,以使每個特徵層級中的有用資訊能直接傳播到隨後的建議子網路。我們還建立了一個互補的分支網路為每個建議捕捉不同的視野,從而進一步提升生成掩碼預測的質量。這些提升都能夠很簡單地實現,只需要少量的額外計算量。PANet 在 COCO 2017 挑戰賽的例項分割任務中取得了第一名,在目標檢測任務中取得了第二名,且無需大批次訓練。它在 MVD 和 Cityscapes 上也取得了當前最佳的結果。優於Mask R-CNN,港中文&騰訊優圖提出PANet例項分割框架

相關文章