今年的 ICCV 於 10 月 27 日-11 月 2 日在韓國首爾召開,大會主席由首爾大學電子與計算機工程系教授 Kyoung Mu Lee、伊利諾伊大學香檳分校電腦科學教授 David Forsyth、蘇黎世聯邦理工學院電腦科學系視覺計算學院教授 Marc Pollefeys、商湯科技創始人及香港中文大學教授湯曉鷗聯合擔任。
在主會議開幕式上,大會官方介紹了今年大會的論文接收、參會人員等資訊,同時也公佈了今年大會的獲獎論文。
據介紹,今年的參會人數高達 7501 人,是上一屆的 2.4 倍。其中,來自中國的參會人數高達 1264 人,僅次於舉辦地韓國(2964)。
而在論文方面,ICCV 2019 共收到 4303 篇論文,是上一屆大會 ICCV 2017 論文投稿數量(2143)的 2 倍以上。最終大會接收了 1075 篇論文,接收率為 25.02%,其中 200 篇為 oral 論文(4.6% 接收率)。
值得一提的是,今年 ICCV 接收論文中,中國論文量最多,高達 350 多篇,第二名為美國,其次為德國、韓國。
介紹完大會基本資訊,接下來就是今年大會的獲獎論文了,今年 ICCV 的最佳論文等獎項一一揭曉。
最佳論文-馬爾獎
馬爾獎因計算神經學創始人 David C. Marr 而得名,是計算機視覺研究領域的最高榮譽之一。這一次,獲得 ICCV2019 馬爾獎的論文為《SinGAN:Learning a Generative Model From a Single Natural Image》,論文作者分別為來自以色列理工學院的 Tamar Rott Shaham 和 Tomer Michaeli,以及谷歌的 Tali Dekei。
論文標題:SinGAN:Learning a Generative Model From a Single Natural Image
作者:Tamar Rott Shaham、Tali Dekei、Tomer Michaeli
論文連結:http://openaccess.thecvf.com/content_ICCV_2019/papers/Shaham_SinGAN_Learning_a_Generative_Model_From_a_Single_Natural_Image_ICCV_2019_paper.pdf
實現地址:https://github.com/tamarott/SinGAN
在這篇論文中,研究者介紹了一種無監督的生成模型 SinGAN,它以一種無條件約束的方式從單張自然影像中學習知識。經過訓練,研究者的模型能捕捉影像塊(patch)的內部分佈,從而生成高質量、多樣化的樣本,並承載與訓練影像相同的視覺內容。
SinGAN 包含一個全卷積金字塔 GAN,金字塔的每一層負責學習不同比例的影像塊分佈。這樣就能生成具有任意大小和橫縱比的新樣本,這種生成樣本明顯具有可變性,但同時又能保持真實影像的全域性結構與精細紋理。與之前的單影像 GAN 相比,研究者的方法不僅能生成紋理影像,同時它還以一種無條件約束的方式生成。
圖 1:SinGAN 通過使用多尺度對抗訓練方案,從多種尺度學習了影像塊資訊。這樣一來,模型就可以生成新的真實影像樣本,其中在建立新的目標屬性和結構的同時還保留了原始的影像塊分佈資訊。如上展示了不同尺度影像的生成效果。
圖 4:SinGAN 的多尺度生成流程,模型由 GAN 的一種金字塔方案組成,每一層都是一個生成對抗網路,它們從下到上學習著不同尺度的影像生成效果。SinGAN 的訓練和推斷過程都是從粗粒度到細粒度的方向進行。
研究者在最後還表明,SinGAN 生成的影像經常被人類弄混,它們與真實影像沒什麼差別。
最佳學生論文獎
ICCV 2019 最佳學生論文獎由《PLMP-Point-Line Minimal Problems in Complete Multi-View Visibility》摘得,論文作者分別來自佐治亞理工學院(Georgia Tech)、瑞典皇家理工學院(KTH)以及捷克理工大學(Czech Technical University in Prague)。
論文標題:PLMP-Point-Line Minimal Problems in Complete Multi-View Visibility
作者:Timothy Duff、Kathlen Kohn、Anton Leykin、Tomas Pajdla
論文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Duff_PLMP_-_Point-Line_Minimal_Problems_in_Complete_Multi-View_Visibility_ICCV_2019_paper.pdf
實現地址:https://github.com/timduff35/PLMP
在這篇論文中,研究者通過透視相機觀察到的點線一般排列,提出了所有極小值問題的完整分類,其中透視相機是經過校準的。研究者證明,對於超過 6 個相機、5 個點和 6 條線的情況,其總共只有 30 個極小值問題,不存在其它情況。
研究者展示了一系列檢測極小值的測試,它們從對自由度進行計數開始,並結束於對代表性樣本的完全符號化與數值化的驗證。對於所發現的所有極小值問題,研究者展示了它們的代數「程度」,即解的數量,這一指標度量了極小值問題的固有難度。此外,這種代數程度還展示了問題的難度如何隨檢視的增加而增長。
重要的是,一些新的極小值問題有非常小的代數程度,因此它們在影像匹配和三維重建上能得到很好的應用。
圖 1:第一行紅色的點和藍色的線會獨立地被檢測到,且點與線的排列也是獨立檢測的。第二行展示了一些點線排列示例,它們提供了新的極小值問題。
最佳論文榮譽提名獎
最佳論文榮譽提名獎中共有兩篇論文獲獎,其中一篇的作者是威斯康辛大學-麥迪遜分校的 Anant Gupta、Atul Ingle、Mohit Gupta。而另一篇論文是來自以色列特拉維夫大學的 Oron Ashual 和 Lior Wolf 兩位研究者完成的。
論文標題:Asynchronous Single-Photon 3D Image
作者:Anant Gupta、Atul Ingle、Mohit Gupta
論文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Gupta_Asynchronous_Single-Photon_3D_Imaging_ICCV_2019_paper.pdf
光電探測雪崩二極體(Single-photon avalanche diode:SPAD)在飛行時間(time-of-flight:ToF)的深度距離相關的研究中變得受歡迎了,因為這種型別的攝像頭可以在皮秒內捕捉並處理單個影像。然而,環境光(如陽光)可能使得基於 SPAD 的三維攝像頭髮生問題,在實測波形上造成嚴重的非線性扭曲(積壓),使得深度資訊嚴重錯誤。
本文中,研究者提出了一種非同步單光子三維成像技術,使用一種資料獲取技術減緩積壓問題。在獲得資料的過程中,非同步獲取技術暫時偏離 SPAD 評價視窗,並通過預定義的鐳射周期或隨機偏移量進行補償。
研究者對於積壓產生的扭曲問題這樣考慮:通過選擇一系列補償資訊,可以涵蓋整個深度距離。研究者開發了一個泛化的影像構建模型,並進行了理論分析,用於探索非同步獲取方案的空間,並設計高效能的方案。
圖 1:單光子攝像頭和 3D 成像示意。(a)一個單光子攝像頭畫素對於單個光子敏感,可以在捕捉光子達到的時間並在皮秒內進行處理。(b)高敏感性和解析度使得單光子攝像頭在很多應用上有實際價值。(c)一個基於飛行時間的單光子三維攝像頭由兩部分組成:一個脈衝式鐳射和一個單光子檢測器,可以給返回的光子計時。(d)單光子攝像頭能夠提供非常高的深度解析度,即使距離很長。
研究者稱,其模擬和實驗中結果顯示,他們的方法在一系列成像場景中和 SOTA 相比顯著提升了深度的準確性,包括有著高強度環境光的場景下。
論文標題:Specifying Object Attributes and Relations in Interactive Scene Generation
作者:Oron Ashual、Lior Wolf
論文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Ashual_Specifying_Object_Attributes_and_Relations_in_Interactive_Scene_Generation_ICCV_2019_paper.pdf
開源地址:https://github.com/ashual/scene_generation
在本文中,研究者提出了一種從輸入的場景圖中生成影像的方法。這一方法可分為兩個方面,分別為佈局嵌入和外觀嵌入。這種雙嵌入的方法使得生成的影像更好地和場景圖匹配、有著更好的影像質量、並支援更復雜的場景圖。此外,嵌入方法支援從每個場景圖中生成多個且不同的影像,也可以進一步由使用者控制。研究者在論文中展示了兩種針對每個目標進行的控制:(i)從其他影像中引入新的元素;(ii)通過選擇典型的外觀,然後探索目標空間。研究者的程式碼目前已開源。
圖 1:一個生成影像過程的例子。頂行為使用者介面的佈局展示板,使用者可以在此安排需要的目標(如安排天空、動物等生成影像的元素)。第二行是從這一佈局中自動獲得的場景圖。第三行是根據場景圖建立的佈局圖。底層一行是生成的影像。
圖 2:研究者提出的網路架構。包括子圖網路 G、M、B、A、R,以及建立佈局張量 t 的流程。
PAMI TC 獎
PAMI 是 IEEE 旗下的期刊,是模式識別和機器學習領域最重要的學術性彙刊之一,有著很高的影響因子和排名。今年 ICCV 上的 PAMI 獎包含四大獎項,分別是 Helmholtz 獎、Everingham 獎、Azriel Rosenfeld 終身成就獎和傑出研究者獎。
Helmholtz 獎
Helmholtz 獎旨在獎勵對計算機視覺領域做出重要貢獻的工作,頒發物件是十年前對計算機視覺領域產生重大影響的論文。獎項名稱來自 19 世紀的物理、生理學家 Hermann von Helmholtz。
今年的 Helmholtz 獎頒給了兩篇論文——《Building Rome in a Day》和《Attribute and Simile Classifiers for Face Verification》。
《Building Rome in a Day》是華盛頓大學、康奈爾大學和微軟的聯合研究專案,旨在通過從 Flickr.com 上下載的所有與羅馬相關的影像來重建羅馬這座城市。他們要設計一個並行分散式系統,匹配這些影像以找到共同點,並使用這些資訊來計算城市的三維結構和攝像頭的位置。實驗結果表明,在一個擁有 500 個計算核心的叢集中,他們可以在不到一天的時間內重建包含 15 萬張影像的城市。
《Attribute and Simile Classifiers for Face Verification》是哥倫比亞大學的一項研究。在這篇論文中,研究者提出了兩種人臉驗證的方法——「attribute」分類器和「simile」分類器。二者都不需要昂貴的影像對對齊。與當時的最佳分類器相比,錯誤率分別降低了 23.92% 和 26.34%,合併後的錯誤率降低了 31.68%。
Everingham 獎
Everingham 獎的設立初衷是紀念計算機視覺領域專家 Mark Everingham 並激勵後來者在計算機視覺領域做出更多貢獻。頒獎物件包括為計算機視覺社群其他成員做出巨大貢獻的無私研究者或研究團隊。
本次獲得 Everingham 獎項的分別是亞馬遜傑出科學家及研究主管 Gerard Medioni 和「Labeled Faces in the Wild」(LFW)人臉資料集的團隊,包括 Erik Learened-Miller、Gary B.Huang、Tamara Berg 等人。
Gerard Medioni 因其幾十年來為 CVPR&ICCV 大會所做出的卓越貢獻而獲此榮譽,他還發起了用於組織大會和研討會的統一註冊系統,此外他也是計算機視覺基金會的聯合創始人,其研究範圍涵蓋了計算機領域的廣泛議題,例如邊緣檢測、立體和運動分析、形狀推斷和描述以及系統整合等。
LFW 團隊因 2007 年以來對 LFW 資料集和基準的生成及維護等貢獻而獲此榮譽,他們的工作有力地推動了在不受控制的現實世界中進行人臉識別的研究進展。
Azriel Rosenfeld 終身成就獎
該獎項是為了紀念已故的電腦科學家和數學家 Azriel Rosenfeld 教授,獎勵在長期職業生涯中為計算機視覺領域作出突出貢獻的傑出研究者。
今年的 Azriel Rosenfeld 終身成就獎頒給了視覺領域的專家教授 Shimon Ullman。
Shimon Ullman 現任以色列魏茨曼科學院(The Weizmann Institute of Science)電腦科學與應用數學系主任和電腦科學 Samy 和 Ruth Cohn 教授。他的主要研究領域包括人類視覺系統對視覺資訊的處理以及計算機視覺等。這項研究的目的在於瞭解人類自身視覺系統的運作方式以及如何構建具有視覺功能的人工系統,例如如何為殘障人士提供幫助等。2015 年,他榮獲了以色列電腦科學獎;2016 年成為美國人文與科學院(American Academy of Arts and Sciences)成員。
傑出研究者獎
基於主要研究貢獻及對其他研究的激發影響等考量原則,傑出研究者獎旨在獎勵對計算機視覺發展作出重大貢獻的研究者。今年的傑出研究者獎由 William T. Freeman 和 Shree Nayar 兩位教授摘得。
Freeman 是麻省理工學院電氣工程與電腦科學系(EECS)的 Thomas 和 Gerd Perkins 教授,他的研究重點包括運動再現、計算機攝影和視覺學習等方面,並擁有 30 多項專利;他先後在 1997 年、2006 年、2009 年和 2012 年的計算機視覺或機器學習會議上獲得優秀論文獎,並於 1990 年、1995 年和 2005 年獲得論文的「時間檢驗獎」(Test-of-time Award);他還積極參加計算機視覺、圖形和機器學習相關會議,曾擔任 ICCV 2005 和 CVPR 2013 的程式委員會共同主席。
Shree Nayar 是哥倫比亞大學電腦科學系教授,其研究領域集中在計算成像、計算機視覺、機器人、影像處理和人機互動等。此外,他還是哥倫比亞大學計算機視覺實驗室(Columbia Vision Laboratory,CAVE)的負責人,該實驗室主要開發先進的計算機視覺系統。他曾獲得 ICCV 1990、 ICPR 1994、CVPR 1994、ICCV 1995、CVPR 2000 和 CVPR 2004 的最佳論文獎。2008 年入選美國國家工程院。
ICCV 2019 的中國力量
在今年的 ICCV 上,中國高校和企業的力量不可忽視。
在投稿階段,ICCV 2019 官方推特列出了部分投稿單位排名。其中,中科院、清華、華為、百度等高校個企業名列前茅。中科院和清華更是以 237 和 175 篇的論文投稿數量遙遙領先。
在接收結果出來之後,商湯、華為等企業也在第一時間公佈了自己的論文被接收情況。其中最亮眼的要數商湯科技,有 57 篇論文入選,其中口頭報告論文有 11 篇,主題包括面向目標檢測的深度網路基礎運算元、基於插值卷積的點雲處理主幹網路等。同時,在 ICCV 2019 的諸多競賽上,商湯及其聯合實驗室斬獲 13 項世界冠軍,包括 OpenImage 物體檢測、例項分割賽道冠軍等。
華為諾亞方舟實驗室在本屆的 ICCV 大會中也有不俗的表現,在本屆大會上發表(或聯合發表)了 19 篇論文,其中兩篇工作為口頭報告。華為的接收論文涉及計算機視覺的各個領域,覆蓋了從底層視覺、中層表示學習到高層語義識別的視覺任務。此外,華為還是今年 ICCV 會議的鉑金贊助商。
騰訊優圖有 13 篇論文入選本次會議,其中 3 篇被選做口頭報告,涉及 2D 影像多檢視生成、人臉照片影像轉換等多個主題。
作為計算機視覺領域創業公司獨角獸,曠視科技今年有 11 篇論文入選,涉及目標檢測、行人搜尋、模型壓縮、文字識別等多個主題。在比賽方面,曠世拿下了今年拿下 5 項任務冠軍,包括 COCO 物體檢測(Detection)、人體關鍵點(Keypoint)和全景分割(Panoptic)三項第一,Wider Challenge 2019 行人檢測冠軍和 VOS 2019 視訊物件分割冠軍。此外,曠世還獲得了 COCO 今年新設立的 Best Paper Award。
以上,是機器之心瞭解到的公司的論文接收情況。除此之外,百度、阿里巴巴等國內企業也有多篇論文入選,更多內容可以關注機器之心 ICCV 網站專題。