CVPR2017部分論文簡介

Eternity丶發表於2018-05-28
文獻 概述 研究內容 資料集 年份
運動物體檢測內容
Learning Motion Patterns in Videos 學習視訊中的運動模式,建立運動模式網路輸入影象光流圖輸出視訊中運動的物體,即使相機是移動的 運動相機檢測運動物體 DAVIS 2017
Learning Features by Watching Objects Move 我們在視訊中使用無監督的基於模式的分割來獲取片段,我們將其用作“偽地真相”來訓練一個卷積網路從一個幀中分割物件 運動物體檢測
Optical Flow in Mostly Rigid Scenes 自然場景的光流是觀察者運動和物體獨立運動的結合,現有的演算法通常側重於在純靜態世界或一般無約束場景的光流的假設下恢復運動和結構。此文章從外觀和物理約束中對移動物件進行顯式的分割,在靜態區域,我們利用強大的約束條件,在多個幀上聯合估計攝像機的運動和場景的三維結構。https://www.youtube.com/watch?v=N7a3AZEi-c4視訊 光流法估計運動物體 KITTI CVPR2017
MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving 無人駕駛中的目標檢測。提出了一種新的多工學習系統,它結合了外觀和運動提示,以更好地解釋環境的語義,運動分割和車輛檢測的聯合訓練有利於運動的分割。https://www.youtube.com/watch?v=hwP_oQeULfc視訊 運動分割,車輛檢測 KITTI CVPR2017
Unsupervised Learning of Depth and Ego-Motion From Video 基於視訊的無監督深度和自運動學習。採用了無監督的方法針對視訊資料進行訓練,從而對單張圖片的深度以及連續幀之間的車輛運動進行估計,可以對大量已知相機內參的視訊資料進行訓練,為 CNN 在自動駕駛領域的應用帶來的新的啟發。這篇論文用視訊連續幀的不同視角的幾何資訊作為監督訊號訓練了一種端到端的單目影象深度估計和車輛運動估計的 framework。https://www.youtube.com/watch?v=HWu39YkGKvI視訊 自運動估計,無監督學習,運動車輛檢測 KITTI CVPR2017
FusionSeg: Learning to Combine Motion and Appearance for Fully Automatic Segmentation of Generic Objects in Videos 建立外觀模和運動模式,並將兩者相結合進行視訊中運動物體檢測 運動物體檢測 CVPR2017
Fast Multi-Frame Stereo Scene Flow With Motion Segmentation 使用運動場景流概念,本文的方法估計了來自立體對的密集視差和光流,這相當於立體的場景流估計。在攝像機運動的情況下將運動物體精確分割 運動物體檢測 CVPR2017
Multi-View 3D Object Detection Network for Autonomous Driving 本文針對自動駕駛場景中的高精度三維目標檢測。我們提出了多檢視三維網路(MV3D),這是一個感測器融合的框架,它將鐳射雷達點雲和RGB影象作為輸入,並預測面向三維的邊界框。 3D物體檢測應用於自動駕駛 CVPR2017
Deep Feature Flow for Video Recognition 提出使用深層特徵流進行視訊識別 視訊處理方案,物體識別 CVPR2017
Learning Video Object Segmentation From Static Images 本文模型在每幀的基礎上進行,在前一個幀的輸出的指導下,指向下一幀的興趣物件。文章證明,使用卷積神經網路(卷積神經網路)僅對靜態影象進行訓練,可以使視訊中高度精確的物件分割。 視訊物體分割,視訊處理方案 CVPR2017
Learning to Segment Instances in Videos with Spatial Propagation Network 通過空間傳播網路學習視訊中的片段例項。本文針對視訊中多目標運動物體分割問題。主要關注視訊中多例項分割的問題。具體來說,在第一幀中給定每個物件掩碼,我們試圖在整個視訊序列中預測這個例項的片段。 運動物體分割 DAVIS CVPR2017
Minimum Delay Moving Object Detection 本文提出了一種基於表觀運動的視訊物件檢測的一般框架和方法。 運動物體檢測
DeMoN: Depth and Motion Network for Learning Monocular Stereo 在本文中,我們把運動的結構作為一個學習的問題。我們通過連續的、無約束的影象對來訓練一個複雜的端到端的網路來計算深度和攝像機的運動,網路不僅估計了深度和運動,而且還估計了表面的法線,影象之間的光流和匹配的可信度。 運動物體檢測 CVPR2017
Detecting Flying Objects using a Single Moving Camera 使用單一運動相機檢測飛行物體。本文要解決的問題是用一個運動的相機來檢測飛行物體 PAMI 2017
自動駕駛部分
Efficient Deep Models for Monocular Road Segmentation 針對路面檢測和分割問題,本文結合FCN 和 U-Net 提出一個網路 Up-Convolutional Networks,在速度和精度方面得到不錯的效果 道路分割,路面檢測和分割問題 KITTI CVPR2017
Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image 給一張灰度影象,使用 多工CNN網路 Deep MANTA 可以給出6個資訊: region proposal, detection, 2D box regression, part localization, part visibility and 3D template prediction,此外,深層的MANTA網路能夠定位車輛部件,即使這些部件是不可見的 車輛定位 KITTT CVPR2017
End-to-end Learning of Driving Models from Large-scale Video Datasets 基於視覺的深度學習的自動駕駛實現模型。從Vision的角度通過深度學習實現自動駕駛,在路況複雜的環境中實現車道跟隨及泛化自動駕駛的場景等https://www.youtube.com/watch?v=jxlNfUzbGAY 自動駕駛 KITTI CVPR2017
DAVE: A Unified Framework for Fast Vehicle Detection and Annotation 本文使用深度學習進行車輛檢測和屬性學習 車輛檢測 KITTI ECCV2016
光流法部分
Optical Flow with Semantic Segmentation and Localized Layers 使用光流進行語義分割和定位,光流的變化依賴於物體類別,根據物體的型別,我們在這些區域內定義不同的影象運動模型. 我們利用靜態語義場景分割的最新進展,將影象分割為不同型別的物件。https://www.youtube.com/watch?v=QwmBSTWgr_s視訊 光流法語義分割 KITTI CVPR2017
FlowNet: Learning Optical Flow with Convolutional Networks CNN網路來計算光流,實現端對端訓練,自己製作了個訓練資料庫 Flying Chairs 光流計算 CVPR2015
FlowNet: Learning Optical Flow with Convolutional Networks  FlowNet2.0升級版 光流計算 CVPR2017
Robust Interpolation of Correspondences for Large Displacement Optical Flow 對應的插值(EpicFlow)在最近的工程中被廣泛應用於光流估計。它具有保護邊緣和效率的優點。但在現代匹配技術中,輸入匹配噪聲是不可避免的。本文提出了一種魯棒插值方法(稱為RicFlow)來克服缺點。 光流法EpicFlow升級版 CVPR2017
Optical Flow Estimation Using a Spatial Pyramid Network 我們通過將經典的空間金字塔式的公式與深度學習相結合來學習計算光流。 光流法 CVPR2017
InterpoNet, a Brain Inspired Neural Network for Optical Flow Dense Interpolation 提出了一種基於完全卷積網路的資料驅動的基於多密度的插值演算法。提出一種優於EpicFlow的光流法 光流法 KITTI
Optical Flow Requires Multiple Strategies (but only one network) 使用單個神經網路獲得光流 光流法 KITTI
行為監測部分
Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image 從單個影象自動估計三維人體姿態和形狀 行為識別 ECCV2016 
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition 視訊中進行行為識別。Temporal Segment Network(TSN)--一種新型的基於視訊的行為識別的網路結構。它將稀疏時間取樣策略和基於視訊的監督相結合,使用整個視訊支援有效的學習。利用TSN網路結構學習卷積神經網路在視訊資料方面的處理。 行為識別 CVPR2017
What Will I Do Next? The Intention from Motion Experiment. 根據視訊運動預測接下來運動意圖。意向預測:一種新的範例,在沒有觀察到的未來行動的情況下,進行未來行為預測。在同一類運動行為中,在外觀上都是極其相似的,不管發生什麼不同的結局。 運動行為預測 CVPR2017
Inferring Hidden Statuses and Actions in Video by Causal Reasoning 通過因果推理推斷視訊中的隱藏狀態和動作 運動行為預測 CVPR2017
Unsupervised Learning of Long-Term Motion Dynamics for Videos 提出一種方法,通過預測原子三維流動的一系列基本運動來學習視訊表示。然後從這個模型中提取學習的表示來識別活動。 運動行為識別 CVPR2017
On Human Motion Prediction Using Recurrent Neural Networks 運動行為預測 運動行為預測 CVPR2017
Deep Representation Learning for Human Motion Prediction and Classification 人類運動預測和分類的深層表徵學習 人體運動預測 CVPR2017
Spatiotemporal Pyramid Network for Video Action Recognition 雙流卷積網路在視訊動作識別任務中表現出很強的效能。關鍵思想是通過空間和時間上的卷積網路來學習時空特徵。我們提出了一種新的時空金字塔網路,將其在金字塔結構中的空間和時間特徵融合在一起,這樣它們就可以互相加強 視訊動作識別 CVPR2017
Spatiotemporal Multiplier Networks for Video Action Recognition 本文提出了一種基於時空特徵乘性互動的視訊動作識別通用的卷積網路結構。我們的模型將兩流建築的外觀和運動路徑通過運動門結合起來,並進行了端到端的訓練。 動作識別 CVPR2017
A Study of Vision based Human Motion Recognition and Analysis 本文討論了人體運動識別的應用、一般框架以及各組成部分的細節。 動作識別 CVPR2017
Scene Flow to Action Map: A New Representation for RGB-D Based Action Recognition With Convolutional Neural Networks 使用場景流配合卷積神經網路進行行為識別 行為識別 CVPR2017
Asynchronous Temporal Fields for Action Recognition 行為識別 行為識別 CVPR2017
SCC: Semantic Context Cascade for Efficient Action Detection 在本文中,我們引入了一個語義級聯上下文(SCC)模型,目的是在長視訊序列中檢測動作,通過接受與人類活動相關的語義優先順序,SCC產生了高質量的類特定的行動建議,並以級聯的方式刪除了不相關的活動。 行為識別 CVPR2017
Surface Motion Capture Transfer With Gaussian Process Regression 行為檢測 CVPR2017
物體檢測部分
End-to-End Instance Segmentation with Recurrent Attention 使用端到端的遞迴神經網路進行例項物體分割.本文針對例項分割使用遞迴神經網路(RNN)架構將每個物體依次定位分割出來,使用了一個注意機制模型類似人類的計算過程 例項物體分割 CVPPP, KITTI,
Cityscapes
CVPR2017
Detect to Track and Track to Detect 視訊目標檢測跟蹤,本文針對視訊目標檢測問題提出一個統一的框架同時完成檢測和跟蹤 目標檢測跟蹤 ImageNet video CVPR2017
Towards End-to-End Car License Plates Detection and Recognition with Deep Neural Networks 使用深度神經網路檢測並識別車牌。本文使用CNN網路來進行車牌檢測和識別,一個網路完成端對端訓練,檢測和識別不用分離。 車牌識別及檢測 CVPR2017
One-Shot Video Object Segmentation  視訊物體分割。介紹了一種用於解決半監督視訊物件分割問題的CNN架構,即對視訊序列中所有畫素的分類進行背景和前景的分類,並給出了一個(或多個)幀的人工註釋。 卷積神經網路 Davis CVPR2017
BlitzNet: A Real-Time Deep Network for Scene Understanding  目標檢測分割,場景理解 目標檢測分割,場景理解 CVPR2017
Deep Feature Flow for Video Recognition 用來視訊物體識別的深度特徵流https://www.youtube.com/watch?v=J0rMHE6ehGw視訊 視訊中的物體檢測 CVPR2017
Flow-Guided Feature Aggregation for Video Object Detection 視訊中的物體檢測 CVPR2017
特徵點匹配
GMS: Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence 一種視訊的快速搜尋技術,比SIFT還厲害。基於網格的運動統計,用於快速、超魯棒的特徵匹配 特徵點匹配 CVPR2017
監控視訊處理
Surveillance Video Parsing With Single Frame Supervision 監視視訊解析,將視訊幀分成多個標籤,即臉,褲子,左腿,有廣泛的應用。 監控視訊 CVPR2017

相關文章