在CVPR 2019 Workshop NTIRE 2019 視訊恢復比賽中,來自商湯科技、港中文、南洋理工、深圳先進技術研究院的聯合研究團隊獲得了全部四個賽道的所有冠軍!
近日,作者們已經將所使用的EDVR演算法論文釋出於arXiv,並稱程式碼將於本月開源。
NTIRE Workshop 全稱為:
其主要關注影象與視訊的恢復與增強(包含超解析度、去模糊等),並每年舉辦比賽,今年其仍與CVPR 2019 一起舉辦。
今年分別設立了影象和視訊恢復、增強的比賽,以下是視訊恢復和增強比賽的全部四個賽道:
分別包含兩個視訊去模糊和兩個視訊超解析度賽道。
商湯在此比賽中使用EDVR一套演算法包攬四項冠軍,而且是大幅超越每個賽道的第二名!
商湯獲獎演算法的論文為《EDVR: Video Restoration with Enhanced Deformable Convolutional Networks》,以下是作者資訊:
視訊恢復不是影象恢復的簡單應用,因其含有大量的時空冗餘資訊可以利用。
下圖是對同一區域,使用目前最好的影象超分辨演算法RCAN恢復和使用EDVR演算法視訊超解析度的結果,可以明顯看出,視訊超分辨出的結果能看到更多的細節。
演算法創新點
作者認為要解決視訊增強,必須要解決兩大問題:
1. 影象對齊。
視訊相鄰幀存在一定的抖動,必須先對齊才能進一步處理融合。以往這可以使用光流演算法處理,但本文中作者發明了一種新的網路模組PCD 對齊模組,使用Deformable卷積進行視訊的對齊,整個過程可以端到端訓練。
2. 時空資訊融合。
挖掘時域(視訊前後幀)和空域(同一幀內部)的資訊融合。本文中作者發明了一種時空注意力模型進行資訊融合。
作者發明的EDVR演算法架構:
其中PCD 對齊模組,使用金字塔結構級聯的Deformable卷積構建,如下圖:
作者發明的時空注意力融合模型TSA如下圖:
實驗結果
作者將EDVR演算法應用於三個視訊超解析度資料集上的數值結果如下(請點選檢視大圖):
可見該文提出的演算法在Vid4資料集上大部分是最高或者次高精度,而在Vimeo-90K-T 與REDS4 資料集上都是精度指標最高的。
下圖是該文演算法超解析度效果示例(請點選檢視大圖):
上圖中對模糊車牌的恢復是不是很神奇!這會是很有用的應用領域。
下面的表格列出了本次比賽前五名的成績,EDVR取得了毫無爭議的第一,並且大多數情況是大幅超越第二名!
這是一項非常棒的工作,強烈推薦大家關注!
論文地址:
https://arxiv.org/abs/1905.02716v1
開源地址:
https://github.com/xinntao/EDVR