全球計算機視覺頂級會議 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE國際計算機視覺與模式識別會議) 即將於6月在美國長灘召開。本屆大會總共錄取來自全球論文1299篇。中國團隊表現不俗,此次,騰訊公司有超過58篇論文被本屆CVPR大會接收,其中騰訊優圖實驗室25篇、騰訊AI Lab33篇,相比過去兩年成績大幅提升。
作為計算機視覺領域級別最高的研究會議,CVPR2019錄取論文代表了計算機視覺領域在2019年最新和最高的科技水平以及未來發展潮流。CVPR官網顯示,今年有超過5165篇的大會論文投稿,最終錄取1299篇。這些錄取的最新科研成果,涵蓋了計算機視覺領域各項前沿工作。2019年騰訊公司有超過58篇論文被本屆CVPR大會接收 ,其中騰訊AI Lab33篇、騰訊優圖實驗室25篇。而2018年總計被收錄31篇,2017年被收錄18篇。2019年的錄取數量相比前兩年都有大幅提高,成績斐然。
騰訊此次被收錄的論文涵蓋深度學習最佳化原理、視覺對抗學習、人臉建模與識別、影片深度理解、行人重識別、人臉檢測等熱門及前沿領域。全球領先的科研成果,展示了騰訊在計算機視覺領域強大的人才儲備、科研底蘊和創新能力。這些新穎的計算機視覺演算法不僅有著豐富的應用場景,使得更多的計算機視覺演算法能應用於日常生活之中,還為後續研究提供了可貴的經驗和方向。
以下介紹部分騰訊優圖入選CVPR2019的論文:
軟多標籤學習的無監督行人重識別
相對於有監督行人重識別(RE-ID)方法,無監督RE-ID因其更佳的可擴充套件性受到越來越多的研究關注,然而在非交疊的多相機檢視下,標籤對(pairwise label)的缺失導致學習鑑別性的資訊仍然是非常具有挑戰性的工作。為了克服這個問題,我們提出了一個用於無監督RE-ID的軟多標籤學習深度模型。該想法透過將未標註的人與輔助域裡的一組已知參考者進行比較,為未標註者標記軟標籤(類似實值標籤的似然向量)。基於視覺特徵以及未標註目標對的軟性標籤的相似度一致性,我們提出了軟多標籤引導的hard negative mining方法去學習一種區分性嵌入表示(discriminative embedding)。由於大多數目標對來自交叉視角,我們提出了交叉視角下的軟性多標籤一致性學習方法,以保證不同視角下標籤的一致性。為實現高效的軟標籤學習,引入了參考代理學習(reference agent learning)。我們的方法在Market-1501和DukeMTMC-reID上進行了評估,顯著優於當前最好的無監督RE-ID方法。
基於自適應空間加權相關濾波的視覺跟蹤研究
Adversarial Attacks Beyond the Image Space
超越影像空間的對抗攻擊
在分類和視覺問答問題的任務中,我們在接收2D輸入的神經網路前邊增加一個渲染模組來擴充現有的神經網路。我們的方法的流程是:先將3D場景(物理空間)渲染成2D圖片(圖片空間),然後經過神經網路把他們對映到一個預測值(輸出空間)。這種對抗性干擾方法可以超越影像空間。在三維物理世界中有明確的意義。雖然影像空間的對抗攻擊可以根據畫素反照率的變化來解釋,但是我們證實它們不能在物理空間給出很好的解釋,這樣通常會具有非區域性效應。但是在物理空間的攻擊是有可能超過影像空間的攻擊的,雖然這個比影像空間的攻擊更難,體現在物理世界的攻擊有更低的成功率和需要更大的干擾。
基於上下文圖網絡的行人檢索模型
近年來,深度神經網路在行人檢索任務中取得了較大的成功。但是這些方法往往只基於單人的外觀資訊,其在處理跨攝像頭下行人外觀出現姿態變化、光照變化、遮擋等情況時仍然比較困難。本文提出了一種新的基於上下文資訊的行人檢索模型。所提出的模型將場景中同時出現的其他行人作為上下文資訊,並使用卷積圖模型建模這些上下文資訊對目標行人的影響。我們在兩個著名的行人檢索資料集CUHK-SYSU和PRW的兩個評測維度上重新整理了當時的世界紀錄,取得了top1的行人檢索結果。
基於深度學習最佳化光照的暗光下的影像增強
Homomorphic Latent Space Interpolation for Unpaired Image-to-image Translation
基於同態隱空間插值的不成對圖片到圖片轉換
生成對抗網路在不成對的影像到影像轉換中取得了巨大成功。迴圈一致性允許對沒有配對資料的兩個不同域之間的關係建模。在本文中,我們提出了一個替代框架,作為潛在空間插值的擴充套件,在影像轉換中考慮兩個域之間的中間部分。該框架基於以下事實:在平坦且光滑的潛在空間中,存在連線兩個取樣點的多條路徑。正確選擇插值的路徑允許更改某些影像屬性,而這對於在兩個域之間生成中間影像是非常有用的。我們還表明該框架可以應用於多域和多模態轉換。廣泛的實驗表明該框架對各種任務具有普遍性和適用性。X2CT-GAN: Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks
基於生成對抗網路的雙平面X光至CT生成系統