前有 NIPS 門票開放註冊 11 分鐘後被搶光,而正在火熱進行的 ECCV 官網也提前釋出通知表示,大會已經滿額,不要自發來參與此大會。
作為計算機視覺領域的三大頂會之一,ECCV 今年的火爆程度超乎尋常。據資料顯示,今年大會參會人數近 3200 人,是上屆(2016)的兩倍。
論文接收方面,本屆大會收到論文投稿 2439 篇,接收 776 篇(31.8%),59 篇 oral 論文,717 篇 poster 論文。在活動方面,ECCV 2018 共有 43 場 Workshop 和 11 場 Tutorial。
除了介紹本屆大會的參會與論文接收情況,會議主辦方在週三的晚宴中還公佈了今年的獲獎論文:
最佳論文
最佳論文獎由來自德國航空航天中心、慕尼黑工業大學的團隊獲得。值得一提的是港中文大學教授、商湯科技聯合創始人湯曉鷗是頒獎委員會成員之一。
論文:Implicit 3D Orientation Learning for 6D Object Detection from RGB Images
作者:Martin Sundermeyer、En Yen Puang、Zoltan-Csaba Marton、Maximilian Durner、Rudolph Triebel
機構:德國航空航天中心、慕尼黑工業大學
論文連結:http://openaccess.thecvf.com/content_ECCV_2018/papers/Martin_Sundermeyer_Implicit_3D_Orientation_ECCV_2018_paper.pdf
摘要:我們提出了一個基於 RGB 的實時目標檢測和 6D 姿勢估計流程。我們的新型 3D 目標朝向估計方法基於去噪自編碼器(Denoising Autoencoder)的一種變體,其使用域隨機化(Domain Randomization)在 3D 模型的模擬檢視上進行訓練。我們稱之為「增強自編碼器」(Augmented Autoencoder,AAE),它和現有方法相比具備多項優勢:無需真實的姿勢標註訓練資料,可泛化至多種測試感測器,且內在地能夠處理目標和檢視對稱性。該方法不學習從輸入影像到目標姿勢的顯性對映,而是提供樣本在潛在空間中定義的目標朝向隱性表徵。在 T-LESS 和 LineMOD 資料集上的實驗表明,我們的方法優於基於模型的類似方法,可以媲美需要真實姿態標註影像的當前最優方法。
具體而言,我們的方法在單張 RGB 影像上執行,由於不需要深度資訊,其可用性大大提高。儘管我們注意到深度圖可以被選擇性地合併以改進估計。第一步,我們應用一個單次多框檢測器(Single Shot Multibox Detector,SSD)來提供物體邊界框和識別符號。在生成的場景裁剪圖上,我們採用了新的 3D 朝向估計演算法,該演算法基於先前預訓練的深度網路架構。雖然深度網路也在現有方法中使用,但我們的方法不同之處在於,我們在訓練期間沒有從 3D 姿態標註資料中顯式地學習。相反,我們從渲染的 3D 模型檢視中隱式地學習表徵。
本論文提出方法的原理圖如下所示:
圖 1:具有同質轉化 H_cam2obj ∈ R^(4x4)(右上)和深度精製結果 H^(refined)_cam2obj(右下)的 6D 目標檢測管道
圖 4:AAE(增強自編碼器)的訓練過程。
圖 5:具有遮擋測試輸入的自編碼器 CNN 架構。
表 5:LineMOD:使用不同訓練和測試資料的目標召回(ADD 標準),結果來自 [35]。
最佳論文獲獎團隊接受頒獎
榮譽提名論文
論文:Group Normalization
作者:吳育昕、何愷明
機構:Facebook AI Research (FAIR)
論文連結:https://arxiv.org/abs/1803.08494
摘要:批歸一化(BN)是深度學習發展史中的一項里程碑技術,使得大量神經網路得以訓練。但是,批量維度上的歸一化也衍生出一些問題——當批量統計估算不準確導致批量越來越小時,BN 的誤差快速增大,從而限制了 BN 用於更大模型的訓練,也妨礙了將特徵遷移至檢測、分割、視訊等計算機視覺任務之中,因為它們受限於記憶體消耗,只能使用小批量。在本論文中,我們提出了作為批歸一化(BN)簡單替代的組歸一化(GN)。GN 把通道分為組,並計算每一組之內的均值和方差,以進行歸一化。GN 的計算與批量大小無關,其精度也在各種批量大小下保持穩定。在 ImageNet 上訓練的 ResNet-50 上,當批量大小為 2 時,GN 的誤差比 BN 低 10.6%。當使用經典的批量大小時,GN 與 BN 相當,但優於其他歸一化變體。此外,GN 可以自然地從預訓練階段遷移到微調階段。在 COCO 的目標檢測和分割任務以及 Kinetics 的視訊分類任務中,GN 的效能優於或與 BN 變體相當,這表明 GN 可以在一系列不同任務中有效替代強大的 BN;在現代的深度學習庫中,GN 通過若干行程式碼即可輕鬆實現。
圖 1:ImageNet 分類誤差 vs. 批大小。這是在 ImageNet 訓練集上用 8 個工作站(GPU)訓練、在驗證集上進行評估的 ResNet-50 模型。
具體內容參見:FAIR 何愷明等人提出組歸一化:替代批歸一化,不受批量大小限制
論文:GANimation: Anatomically-aware Facial Animation from a Single Image
作者:Albert Pumarola、Antonio Agudo、Aleix M. Martinez、Alberto Sanfeliu、Francesc Moreno-Noguer
機構:西班牙機器人與工業資訊研究所、俄亥俄州立大學
論文連結:https://arxiv.org/abs/1807.09251
摘要:近期生成對抗網路(GAN)在人臉表情合成任務中取得了驚人的表現。其中最成功的架構是 StarGAN,它使用特定域的影像來調整 GAN 生成過程,即一系列相同表情的人臉影像。儘管該方法很有效,但它只能生成不連續的表情,而這是由資料集決定的。為了解決這個侷限,本文提出了一種基於動作單元(AU)標註的新型 GAN 條件化方法,該方法在連續流形中描述了定義人臉表情解剖結構的運動。我們的方法允許控制每個 AU 的啟用值大小,並將其組合。此外,我們還提出了一個完全無監督的策略來訓練該模型,僅需要用啟用 AU 標註的影像,並利用注意力機制使我們的網路對背景和光照條件變化具備魯棒性。擴充套件評估結果表明,我們的方法在合成更多樣表情(按解剖結構的肌肉運動),以及處理自然影像的能力上都超越了對比的條件生成模型。
圖 1:從單張影像生成的人臉動畫。研究者提出了一種解剖結構上連貫的方法,該方法不侷限於離散數量的表情,可以對給定的影像進行動畫化處理, 並在一些連續的影像域中生成新的表情。在這些例子中,只給出最左邊的影像輸入 I_yr(由綠色方框圈出), 引數α控制微笑表情中包含的目標動作單元的啟用程度。此外, 該系統可以處理非自然光照條件下的影像, 如最下面一行的例子。
以下是部分動畫示例:
具體內容參見:ECCV 2018 | GANimation 讓圖片秒變 GIF 表情包,秒殺 StarGAN
除了最佳論文,ECCV 2018 還頒佈了 Everingham 獎、Koenderink 獎兩大獎項。前者是為了紀念 Mark Everingham,後者是為了獎勵經得起時間考驗的計算機視覺基礎研究。
Everingham 獎
獲獎人:Alan Smeaton、Wessel Kraaij、Paul Over、George Awad
貢獻:自 2003 年以來參與了一系列資料集和研討會,推動了大規模視訊檢索方面的進展。
獲獎人:Changchang Wu
貢獻:為運動恢復結構(structure from motion)提供了一個記錄完備的軟體庫。
Koenderink 獎
論文:Hamming Embedding and Weak Geometric Consistency for Large Scale Image Search
作者:Herve Jegou, Matthijs Douze, and Cordelia Schmid
機構:INRIA Grenoble, LEAR, LJK
論文連結:https://lear.inrialpes.fr/pubs/2008/JDS08/jegou_hewgc08.pdf
論文:Semi-supervised On-Line Boosting for Robust Tracking
作者:Helmut Grabner, Christian Leistner, Horst Bischof
機構:奧地利格拉茨科技大學計算機圖形與視覺研究所、瑞士蘇黎世聯邦理工學院計算機視覺實驗室
論文連結:http://www.vision.ee.ethz.ch/boostingTrackers/Grabner2008Semi-supervisedOn-lineboosting.pdf