Yann LeCun等最新研究:如何對未來例項分割進行預測?

AI科技大本營發表於2018-04-10

這裡寫圖片描述

翻譯 | 王柯凝
編輯 | 阿司匹林
出品 | 人工智慧頭條(公眾號ID:AI_Thinker)

【人工智慧頭條導讀】近日,Yann LeCun 等人發表了一篇針對未來例項分割預測的論文。該論文提出了一種預測模型,可通過預測卷積特徵來對未來例項分割進行預測。該演算法有以下幾大優勢:

  • 可以處理模型輸出大小不固定的情況,如物件檢測和例項分割;

  • 不需要使用帶有標記的視訊序列進行訓練,可以直接從未標記的資料中計算出中間的 CNN 特徵對映圖;

  • 支援可生成多個場景解釋的模型,如曲面法線、物件邊界框和人體部分標籤,而不需要針對這些任務設計合適的編碼器和損失函式。

這裡寫圖片描述

以下內容是論文節選,人工智慧頭條編譯:

▌簡介

預測未來事件是實現智慧行為的一個重要的先決條件,而視訊預測就是其中一項任務。最近的研究表明,在對未來幀進行語義分割時,在語義層面上的預測,比先預測 RGB 幀,然後將其分段更加有效。本文考慮了未來例項分割中更具挑戰性的一個問題——將單個物件進行細分。為了處理各影像中不同數量的輸出標籤,我們在 Mask R-CNN 例項分割模型的固定尺寸卷積特徵空間中開發了一個預測模型。

我們將 Mask R-CNN 框架的“探測頭(detection head)”應用於預測特徵,以產生未來幀的例項分割。實驗表明,與基於光流(optical flow)的基線相比,該演算法在效能上有顯著提升。

這裡寫圖片描述
圖 1:預測未來 0.5 秒。 光流基線 (a) 和本文演算法 (b) 的例項分割比較。來自文獻 [8] 的演算法 (c) 和本文的例項語義分割演算法 (d) 的語義分割比較。例項建模顯著提高了單個行人的分割精度。

我們的貢獻如下:

  • 引入未來例項預測這一新任務,在語義上比之前研究的預期識別任務更為豐富。

  • 基於預測未來幀的高維卷積神經網路特徵的自監督演算法,支援多種預期識別任務。

  • 實驗結果表明我們的特徵學習演算法相對於強光流基線有所改進。

▌預測未來例項分割的特徵

本節簡要回顧了 Mask R-CNN 框架例項分割框架,然後介紹瞭如何通過預測未來幀的內部 CNN 特徵,將該框架用於預期識別(anticipated recognition)。

使用 Mask R-CNN 進行例項分割

Mask R-CNN 模型主要由三個主要階段組成。首先,使用一個 CNN 主幹框架結構提取高層特徵對映圖。其次,候選區域生成網路 (RPN) 利用這些特徵以包含例項邊界框座標的形式產生興趣區域(ROI)。候選邊界框用作興趣區域層的輸入,通過在每個邊界框中插入高階特徵,為每個邊界框獲取固定大小的表示(不管大小)。 將每個興趣區域的特徵輸入到檢測分支,併產生精確的邊界框座標、類別預測以及用於預測類別的固定二進位制掩碼。最後,在預測的邊界框內將掩碼插入到影像解析度中,並報告為預測類的一個例項分割。

這裡寫圖片描述

圖2 :左,自上而下的特徵取樣結合相同解析度吧的自下而上的特徵,從而獲得的 FPN(feature pyramid network ) 演算法主幹框架中的特徵。右,為了得到未來例項分割,我們從 t-τ 到 t 幀提取 FPN 特徵,並預測 t + 1 幀的 FPN 特徵。

預測卷積特徵

對處於不同 FPN 層級的特徵進行訓練,並將其作為共享“探測頭(detection head)”的輸入。然而,由於解析度在不同層級上會發生改變,每層上的“空間-時間”動態特性也會不同。 因此,我們提出了一種多尺度演算法,對每一級採用單獨的網路進行預測。每級網路都經過訓練,彼此完全獨立地工作。對於每一級,我們關注的是特徵維度輸入序列的特徵。

▌實驗評估

我們使用的是 Cityscapes 資料集,資料來自於汽車在駕駛過程中錄製的城市環境視訊,每個視訊片段時長 1.8 秒,一共分為 2,975 個訓練集,500 個驗證集和 1,525 個測試集。

我們使用在 MS-COCO 資料集上預先訓練好的的 Mask R-CNN 模型,並在 Cityscapes 資料集上以端到端的形式對其進行微調。

未來例項分割:表1為未來特徵預測演算法 (F2F) 的例項分割結果,並將其與 Oracle、Copy 和光流基線的效能做比較。由表可知,F2F 演算法效果最好,比最佳的中期基線提高了 74% 以上。

這裡寫圖片描述

表1:Cityscapes val.資料集上例項分割的精確度

未來語義分割:我們發現,F2F 演算法在 IoU 方面比所有的短期分割方法都有明顯的改進,以61.2 %的成績排名第一。

這裡寫圖片描述
表2: 不同演算法在 Cityscapes val. 資料集上的移動物件( 8 類)短期和中期語義分割表現。

圖4顯示,與 Warp 基線相比, F2F 演算法能夠與物件的實際佈局更好地對齊,這表明該演算法已經學會了對場景和物件的動態建模,且效果比基線好。如預期所示,預測的掩碼也比那些 S2S 演算法更加精確。

這裡寫圖片描述


圖4:對三個序列的中期預測(未來 0.5 秒)。

通過圖5展示的示例,我們可以更好地理解,為什麼在語義分割度量標準方面,F2F 和 Warp 基線之間的差異比例項分割度量標準要小很多。

這裡寫圖片描述
圖5:用 Warp 基線和 F2F 模型獲得的中期預測的例項和語義分割。不準確的例項分割會導致精確的語義分割區域,請看圖中的橙色矩形高光部分。

▌失敗案例討論

在圖6(a) 的第一個例子中,由於前面的所有模型認為白色轎車完全被另一輛車遮擋,因此沒有檢測到。這是不可避免的一種情況,除非物件在較早的幀中可見,在這種情況下,長期記憶機制可能會避免不必要的錯誤。

在圖 6(b) 中,卡車和行人的預測掩碼在形狀和位置上都不連貫。用明確建模遮擋機制或許可以獲得更一致的預測。

最後,由於物件本身比較模糊,某些運動和形狀轉換很難得到準確的預測,如圖 6(c)中的行人的腿部,對於這種情況,確切的姿勢存在高度的不確定性。

這裡寫圖片描述

論文地址:https://arxiv.org/abs/1803.11496

相關文章