Yann LeCun等最新研究:如何對未來例項分割進行預測?
翻譯 | 王柯凝
編輯 | 阿司匹林
出品 | 人工智慧頭條(公眾號ID:AI_Thinker)
【人工智慧頭條導讀】近日,Yann LeCun 等人發表了一篇針對未來例項分割預測的論文。該論文提出了一種預測模型,可通過預測卷積特徵來對未來例項分割進行預測。該演算法有以下幾大優勢:
可以處理模型輸出大小不固定的情況,如物件檢測和例項分割;
不需要使用帶有標記的視訊序列進行訓練,可以直接從未標記的資料中計算出中間的 CNN 特徵對映圖;
支援可生成多個場景解釋的模型,如曲面法線、物件邊界框和人體部分標籤,而不需要針對這些任務設計合適的編碼器和損失函式。
以下內容是論文節選,人工智慧頭條編譯:
▌簡介
預測未來事件是實現智慧行為的一個重要的先決條件,而視訊預測就是其中一項任務。最近的研究表明,在對未來幀進行語義分割時,在語義層面上的預測,比先預測 RGB 幀,然後將其分段更加有效。本文考慮了未來例項分割中更具挑戰性的一個問題——將單個物件進行細分。為了處理各影像中不同數量的輸出標籤,我們在 Mask R-CNN 例項分割模型的固定尺寸卷積特徵空間中開發了一個預測模型。
我們將 Mask R-CNN 框架的“探測頭(detection head)”應用於預測特徵,以產生未來幀的例項分割。實驗表明,與基於光流(optical flow)的基線相比,該演算法在效能上有顯著提升。
圖 1:預測未來 0.5 秒。 光流基線 (a) 和本文演算法 (b) 的例項分割比較。來自文獻 [8] 的演算法 (c) 和本文的例項語義分割演算法 (d) 的語義分割比較。例項建模顯著提高了單個行人的分割精度。
我們的貢獻如下:
引入未來例項預測這一新任務,在語義上比之前研究的預期識別任務更為豐富。
基於預測未來幀的高維卷積神經網路特徵的自監督演算法,支援多種預期識別任務。
實驗結果表明我們的特徵學習演算法相對於強光流基線有所改進。
▌預測未來例項分割的特徵
本節簡要回顧了 Mask R-CNN 框架例項分割框架,然後介紹瞭如何通過預測未來幀的內部 CNN 特徵,將該框架用於預期識別(anticipated recognition)。
使用 Mask R-CNN 進行例項分割
Mask R-CNN 模型主要由三個主要階段組成。首先,使用一個 CNN 主幹框架結構提取高層特徵對映圖。其次,候選區域生成網路 (RPN) 利用這些特徵以包含例項邊界框座標的形式產生興趣區域(ROI)。候選邊界框用作興趣區域層的輸入,通過在每個邊界框中插入高階特徵,為每個邊界框獲取固定大小的表示(不管大小)。 將每個興趣區域的特徵輸入到檢測分支,併產生精確的邊界框座標、類別預測以及用於預測類別的固定二進位制掩碼。最後,在預測的邊界框內將掩碼插入到影像解析度中,並報告為預測類的一個例項分割。
圖2 :左,自上而下的特徵取樣結合相同解析度吧的自下而上的特徵,從而獲得的 FPN(feature pyramid network ) 演算法主幹框架中的特徵。右,為了得到未來例項分割,我們從 t-τ 到 t 幀提取 FPN 特徵,並預測 t + 1 幀的 FPN 特徵。
預測卷積特徵
對處於不同 FPN 層級的特徵進行訓練,並將其作為共享“探測頭(detection head)”的輸入。然而,由於解析度在不同層級上會發生改變,每層上的“空間-時間”動態特性也會不同。 因此,我們提出了一種多尺度演算法,對每一級採用單獨的網路進行預測。每級網路都經過訓練,彼此完全獨立地工作。對於每一級,我們關注的是特徵維度輸入序列的特徵。
▌實驗評估
我們使用的是 Cityscapes 資料集,資料來自於汽車在駕駛過程中錄製的城市環境視訊,每個視訊片段時長 1.8 秒,一共分為 2,975 個訓練集,500 個驗證集和 1,525 個測試集。
我們使用在 MS-COCO 資料集上預先訓練好的的 Mask R-CNN 模型,並在 Cityscapes 資料集上以端到端的形式對其進行微調。
未來例項分割:表1為未來特徵預測演算法 (F2F) 的例項分割結果,並將其與 Oracle、Copy 和光流基線的效能做比較。由表可知,F2F 演算法效果最好,比最佳的中期基線提高了 74% 以上。
表1:Cityscapes val.資料集上例項分割的精確度
未來語義分割:我們發現,F2F 演算法在 IoU 方面比所有的短期分割方法都有明顯的改進,以61.2 %的成績排名第一。
表2: 不同演算法在 Cityscapes val. 資料集上的移動物件( 8 類)短期和中期語義分割表現。
圖4顯示,與 Warp 基線相比, F2F 演算法能夠與物件的實際佈局更好地對齊,這表明該演算法已經學會了對場景和物件的動態建模,且效果比基線好。如預期所示,預測的掩碼也比那些 S2S 演算法更加精確。
圖4:對三個序列的中期預測(未來 0.5 秒)。
通過圖5展示的示例,我們可以更好地理解,為什麼在語義分割度量標準方面,F2F 和 Warp 基線之間的差異比例項分割度量標準要小很多。
圖5:用 Warp 基線和 F2F 模型獲得的中期預測的例項和語義分割。不準確的例項分割會導致精確的語義分割區域,請看圖中的橙色矩形高光部分。
▌失敗案例討論
在圖6(a) 的第一個例子中,由於前面的所有模型認為白色轎車完全被另一輛車遮擋,因此沒有檢測到。這是不可避免的一種情況,除非物件在較早的幀中可見,在這種情況下,長期記憶機制可能會避免不必要的錯誤。
在圖 6(b) 中,卡車和行人的預測掩碼在形狀和位置上都不連貫。用明確建模遮擋機制或許可以獲得更一致的預測。
最後,由於物件本身比較模糊,某些運動和形狀轉換很難得到準確的預測,如圖 6(c)中的行人的腿部,對於這種情況,確切的姿勢存在高度的不確定性。
相關文章
- Yann LeCun、吳恩達等的2019年AI趨勢預測Yann LeCun吳恩達AI
- Yann LeCun:未來的AI晶片應該這樣做Yann LeCunAI晶片
- 對pandas進行資料預處理的例項講解
- YOLO例項分割預測後刪除視訊記憶體YOLO記憶體
- Yann LeCun、吳恩達的新年AI預測:強調“少樣本學習”,AI恐慌在減少Yann LeCun吳恩達AI
- 2020 AAAI Fellow 出爐,Yann Lecun、Yoshua Bengio 入選AIYann LeCun
- Yann Lecun官宣Facebook進軍晶片領域野心,自家“ASIC”晶片開發中Yann LeCun晶片
- “深度學習三巨頭”來了倆,Hinton、LeCun預言深度學習的未來深度學習LeCun
- 研究發現對未來悲觀的人,或降低預期壽命
- Yann LeCun力挺觀點:演算法對AI提升不大,奇點仍然很遙遠Yann LeCun演算法AI
- Runway和Luma又打起來了!Yann LeCun炮轟:你們再牛,也不是「世界模型」Yann LeCun世界模型
- 預測微前端的未來 - luca前端
- 資料預測“加成”,解鎖“預測未來”新玩法!
- SQL對資料進行按月統計或對資料進行按星期統計的例項程式碼SQL
- sqlserver沒有采用預設例項時透過ip進行連結SQLServer
- Yann LeCun:學習世界模型,通向AI的下一步Yann LeCun世界模型AI
- 再見Python!Yann LeCun警告:深度學習需要新程式語言PythonYann LeCun深度學習
- 對未來感到迷惘?為什麼不早點進入IT行業?行業
- [例項分割]Condinst程式碼筆記筆記
- ACL 2024論文蓋棺定論:大語言模型≠世界模擬器,Yann LeCun:太對了模型Yann LeCun
- 未來幾年,關於製造行業的發展預測行業
- DevOps 在未來將如何演進?丨行業觀察dev行業
- Yann LeCun不看好強化學習:「我確實更喜歡 MPC」Yann LeCun強化學習
- 等保等級如何進行劃分的?
- 如何對Mac進行基礎檢測和速度測試Mac
- 歐洲安全研究所:2020年全球未來戰爭預測(附下載)
- 如何對 ElasticSearch 叢集進行壓力測試Elasticsearch
- 如何有效的對雲專線進行測速
- Golang 專案中如何對 API 進行測試?GolangAPI
- T研究:2020智慧客服預見未來(附下載)
- 【論文閱讀】增量學習近期進展及未來趨勢預測
- 2030年的廣告業:專家對未來廣告業的預測
- Counterpoint:全球TWS 行業Q3分析及未來預測行業
- 在linux系統中對檔案進行分割Linux
- 開發者談遊戲行業未來的發展狀態和對去年的預測評估遊戲行業
- 中國科學院核聚變最新進展,AI 加速等離子體引數預測AI
- 美國銀行:十四項未來科技清單
- Linux系統如何進行分割槽?swap分割槽是什麼?Linux