何愷明組又出神作!最新論文提出全景分割新方法

計算機視覺life發表於2019-01-11

本文轉載自新智元

【導讀】FAIR何愷明團隊最新論文提出“全景FPN”,聚焦於影像的全景分割任務,將分別用於語義分割和例項分割的FCN和Mask R-CNN結合起來,設計了Panoptic FPN。該方法可能成為全景分割研究的強大baseline。

Facebook人工智慧實驗室(FAIR)何愷明等人團隊在arXiv釋出最新論文:Panoptic Feature Pyramid Networks。

論文聚焦於“全景分割”,在架構級別將分別用於語義分割和例項分割的FCN和Mask R-CNN結合起來,設計了一個單一的網路:Panoptic FPN

作者表示,實驗證明Panoptic FPN對語義分割和例項分割這兩個任務都有效,同時兼具穩健性和準確性。鑑於其有效性和概念的簡單性,該方法有望成為一個強大的baseline,成為全景分割後續進展的基礎。

雖然在概念上很簡單,但設計一個在這兩個任務都能實現高精度的單一網路是具有挑戰性的,因為這兩個任務的最佳效能方法存在許多差異。

何愷明組又出神作!最新論文提出全景分割新方法

Panoptic FPN在COCO和Cityscapes上的結果

對於語義分割,透過擴張卷積(dilated convolutions)增強的FCN是最優的。對於例項分割,具有特徵金字塔(FPN)骨架的region-based Mask R-CNN在最近的影像識別競賽中被用作所有高分網路的基礎。

考慮到這些方法在架構上的差異,在為這兩個任務設計單個網路時,可能需要在例項分割或語義分割上犧牲準確性。但是,FAIR團隊提出一種簡單、靈活且有效的架構,可以使用一個同時生成region-based輸出(例項分割)和dense-pixel輸出(語義分割)的單一網路來保證這兩個任務的準確性。

在對每個任務單獨進行訓練時,該方法在COCO和Cityscapes上的例項分割和語義分割都取得了很好的效果。例項分割接近Mask R-CNN,語義分割的精度與最新的DeepLabV3+相當

接下來,我們將具體介紹Panoptic FPN的架構和實驗結果。

全景特徵金字塔網路Panoptic FPN

Panoptic FPN是一個簡單的、單網路的baseline,它的目標是在例項分割和語義分割以及它們的聯合任務:全景分割上實現最高效能。

設計原則是:從具有FPN的Mask R-CNN開始,進行最小的修改,生成一個語義分割的dense-pixel 輸出(如圖1所示)。

模型架構

何愷明組又出神作!最新論文提出全景分割新方法

圖1:Panoptic FPN的架構 

(a)特徵金字塔網路 (b)例項分割分支 (c)語義分割分支

特徵金字塔網路(Feature Pyramid Network):首先簡要回顧一下FPN。FPN採用一個具有多空間解析度特徵的標準網路(如ResNet),並新增一個具有橫向連線的自上而下的通道,如圖1a所示。自上而下的路徑從網路的最深層開始,並逐步向上取樣,同時新增自底向上路徑的高解析度特性的轉換版本。FPN生成一個金字塔,通常具有1/32到1/4的解析度,其中每個金字塔級別具有相同的通道維度(預設是256)。

例項分割分支:FPN的設計,特別是對所有金字塔級別使用相同的通道維數,使得附加基於區域的物件檢測器變得很容易,比如Faster R-CNN。 為了輸出例項分段,我們使用Mask R-CNN,它透過新增FCN分支來預測每個候選區域的二進位制分段Mask,從而擴充套件Faster R-CNN,見圖1b。

何愷明組又出神作!最新論文提出全景分割新方法

用於增加特徵解析度的骨架架構

Panoptic FPN:如前所述,我們的方法是使用FPN對Mask R-CNN進行修改,實現畫素級語義分割預測。然而,為了實現準確的預測,該任務所使用的特性應該:

(1)具有適當的高解析度,以捕獲精細的結構;

(2)編碼足夠豐富的語義,以準確地預測類標籤;

(3)雖然FPN是為目標檢測而設計的,但是這些要求——高解析度、豐富的、多尺度的特徵——正好是FPN的特徵。

因此,我們建議在FPN上附加一個簡單而快速的語義分割分支

何愷明組又出神作!最新論文提出全景分割新方法

圖3:語義分割分支

實驗和結果

我們的目標是證明我們的方法,Panoptic FPN,可以作為一個簡單有效的單網路baseline,用於例項分割、語義分割,以及他們的聯合任務全景分割。

因此,我們從測試語義分割方法(我們將這個單任務變體稱為Semantic FPN)開始分析。令人驚訝的是,這個簡單的模型在COCO和Cityscapes資料集上實現了具有競爭力的語義分割結果。

接下來,我們分析了語義分割分支與Mask R-CNN的整合,以及聯合訓練的效果。最後,我們再次在COCO和Cityscapes資料集上展示了全景分割的結果。定性結果如表2和表6所示。

語義分割FPN

何愷明組又出神作!最新論文提出全景分割新方法

表1:語義分割FPN的結果

Cityscapes資料集:

我們首先將基線Semantic FPN與表1a中Cityscapes資料集上語義分割的現有方法進行比較。我們的方法是FPN的一個最小擴充套件,與DeepLabV3+[12]等經過大量工程設計的系統相比,我們的方法能夠獲得強大的結果。

在我們的基線中,我們故意避免正交的架構改進,如Non-local或SE,這可能會產生進一步的收益。在計算和記憶體方面,Semantic FPN比典型的dilation model更輕量,同時能產生更高的解析度特徵(見圖4)。

何愷明組又出神作!最新論文提出全景分割新方法

圖4

COCO資料集:

我們的方法的一個早期版本贏得了2017年的COCO-Stuff 挑戰。結果見表1b。

多工訓練

我們的方法在單任務上表現非常好;對於語義分割,上一節的結果證明了這一點;對於例項分割,這是已知的,因為該方法基於Mask R-CNN。但是,我們是否可以在多工環境中共同訓練這兩項任務呢?

為了將我們的語義分割分支與Mask R-CNN中的例項分割分支結合起來,我們需要確定如何訓練一個單一的、統一的網路。以往的研究表明,多工訓練往往具有挑戰性,並可能導致結果精度下降。我們同樣觀察到,對於語義或例項分割,新增輔助任務與單任務基線相比會降低準確性。

何愷明組又出神作!最新論文提出全景分割新方法

表2:多工訓練

表2中,ResNet-50-FPN的結果表明,使用一個簡單的語義分割損失λs,或例項分割損失λi,結果可以改善單任務baseline的結果。具體來說,適當地新增一個語義分割分支λs能改進例項分割,反之亦然。這可以用來改進單任務結果。然而,我們的主要目標是同時解決這兩個任務,這將在下一節討論。

Panoptic FPN

測試Panoptic FPN對於全景分割的聯合任務的結果,其中網路必須聯合並準確的輸出 stuff和thing分割。

何愷明組又出神作!最新論文提出全景分割新方法

表3:Panoptic FPN的結果

主要結果:在表3a中,我們比較了使用相同骨架的Panoptic FPN分別訓練的兩個網路。Panoptic FPN具有相當的效能,但只需要一半的計算量

我們還透過比較兩個單獨的網路,分別是Panoptic R101-FPN 和 R50-FPN×2,來平衡計算預算,見表3b。使用大致相等的計算預算,Panoptic FPN明顯優於兩個獨立的網路。

綜上所述,這些結果表明聯合方法是有益的,我們提出的Panoptic FPN方法可以作為聯合任務的可靠baseline。

論文地址:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562045/viewspace-2375549/,如需轉載,請註明出處,否則將追究法律責任。

相關文章