CVPR 2018 | 騰訊AI Lab關注的三大方向與55篇論文

腾讯AI实验室發表於2018-07-24

原文網址 : http://www.jiqizhixin.com/articles/2018-07-28-6

感謝閱讀騰訊 AI Lab 微訊號第 32 篇文章，CVPR 2018上湧現出非常多的優秀論文，騰訊 AI Lab 對其中精華文章歸類與摘要，根據受關注程度，對生成對抗網路、視訊分析與理解和三維視覺三大類論文進行綜述。

第一部分：生成對抗網路

1.1 Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks

這個工作由騰訊 AI Lab 和羅切斯特大學共同完成，主要研究的問題是給定第一幀，如何生成接下來的視訊幀，使得生成的畫面兼具有真實的內容和生動的運動。為了完成這個任務，作者提出了一個多階段的動態生成網路。具體地，在第一階段，生成網路專注於生成真實的內容，判別網路進行“真”和“假”的二分類任務；在第二階段的生成網路專注於對第一階段的輸出視訊進行優化，使之具有生動的運動資訊。為了達到這個目的，作者引入了 gram 矩陣並且提出了一個排序損失（ranking loss），使得生成的視訊的運動資訊與真實視訊更加接近。該工作在一個提出的 Sky Scene 資料集上面取得了當前的最優效能。

1.2 PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Makeup

這個工作由普林斯頓大學、Adobe Research 和加利福尼亞大學伯克利分校共同完成，主要研究的是給定一幅沒有化妝的人物影像 A 和一幅帶妝容的參考影像 B，如何給人物影像 A 自動上妝。作者通過一種不對稱的風格轉換來完成這一目的。具體地，作者同時學習一個上妝函式對 A 進行上妝得到 A' 和一個移除妝容的函式對 B 進行移除妝容的操作得到 B'，然後再次對 B' 進行化妝操作得到 B" 和對 A' 進行移除妝容操作得到 A"，通過約束 A" 與 B" 分別與 A 和 B 接近來學習整個風格轉換。作者在不同的人物影像和妝容風格上面取得了不錯的結果。

1.3 SeGAN: Segmenting and Generating the Invisible

這個工作由華盛頓大學和艾倫人工智慧研究所（AI2）共同完成，主要研究的是如何對被遮擋的物體完成補全。這個挑戰性的問題同時涉及到分割和生成兩個任務。研究者提出了 SeGAN 來解決這個問題。具體地，輸入一張影像和它的可見部分的分割掩碼（mask），該工作通過學習分割網路來得到不可見部分的分割結果，再通過 GAN 來對這些不可見部分進行補全，更為重要的是這兩個任務在同一個框架裡面進行聯合優化，從而得到最終的輸出。該工作取得了當前的最佳結果。

1.4 Photographic Text-to-Image Synthesis with a Hierarchically-nested Adversarial Network

該工作由佛羅里達大學完成，主要研究的是給定文字描述生成高解析度影像的任務，作者設計了一個單流式（single-stream）生成器，在生成器的不同階段對生成結果通過判別器進行判別，這種一個生成器加多個判別器的結構被稱為級聯式對抗網路。實驗證明，該方法在 3 個公開資料集上取得當前最佳結果。

1.5 TextureGAN: Controlling Deep Image Synthesis with Texture Patches

該工作由佐治亞理工學院、Adobe Research、加利福尼亞大學伯克利分校和 Argo AI 共同完成。主要研究的是給定一個簡筆畫和一個帶紋理的圖塊，對簡筆畫進行紋理生成。作者提出了一個區域性紋理損失和內容損失進行生成網路的訓練，實驗結果證明該方法生成了合理的影像。上圖為有基本真值的預訓練階段，下圖為微調階段。

1.6 Generate To Adapt: Aligning Domains using Generative Adversarial Networks

該工作由馬里蘭大學帕克分校完成。主要研究的是如何對遷移學習裡面的源域和目標域進行對齊的問題。具體地，作者通過一個兩路的 F-C-G-D 網路完成該任務。其中 F 網路進行特徵提取，C 網路對源域的樣本進行分類，G 網路作為生成網路生成跟源域類似的樣本，D 網路同時進行真/假的二分類判別任務和多分類任務。通過實驗環節的 3 個任務，作者證明了該方法的有效性。

1.7 Disentangled Person Image Generation

本文由豐田汽車歐洲公司、蘇黎世聯邦理工學院、MPII合作完成，是 CVPR 2018 的 spotlight 文章。在基於 GAN 的人臉影像生成技術趨於成熟後，人們將注意力轉向了基於 GAN 的人像生成。本文將人像資訊拆解為三個部分：前景、背景和姿態。本文提出了一種兩階段的全身人像重建方法，將前景、背景和姿態三部分的嵌入特徵（embedding feature）解耦。在第一階段，一個多分支的重建網路被用於編碼生成上述三部分的嵌入特徵，然後將這三部分的嵌入特徵被組合到一起用於重建輸入影像，相當於一箇中間具有多分支的自動編碼器（auto-encoder）。第一階段的自編解碼器用真實影像進行訓練，可以提取真實影像的嵌入特徵。在第二階段，用對抗的方式訓練一個轉碼器和判別器。轉碼器學習如何將Gaussian噪聲對映成與真實影像相近的偽嵌入特徵。判別器學習如何區分真實嵌入特徵和偽嵌入特徵。針對前景、背景、姿態三部分，需要分別訓練三組轉碼器和判別器。利用該兩階段方法，可以獨立地操縱其中任意一部分的特徵，保持其它部分的特徵不變，完成更換背景、更換前景、更換姿態等應用。本文在 Market-1501 和 Deepfashion 資料集上進行了訓練和測試，能夠生成較為真實的人像，且能夠獨立操縱前景、背景和姿態等因子。

1.8 Super-FAN: Integrated facial landmark localization and super-resolution of real-world low-resolution faces in arbitrary poses with GANs

本文由諾丁漢大學完成，是 CVPR 2018的 spotlight 文章。本文提出了一種稱為 Super-FAN 的方法，能夠同時完成人臉關鍵點定位和超解析度兩個任務。本文通過對抗的方式訓練了一個生成器和兩個判別器。生成器用於完成人臉超解析度的任務。一個判別器用於判斷生成器的超解析度結果是否為真實的人臉，另一個判別器用於在生成器的超解析度結果上完成關鍵點定位。使用本文提出的方法，能夠同時在人臉超解析度和人臉關鍵點定位兩個任務上都取得提升。實驗證明這種聯合訓練方式優於先訓練一個超解析度網路完成人臉超解析度再在超解析度結果上做獨立的人臉關鍵點定位的工作。本文的方法對其它受低解析度輸入困擾的檢測任務具有借鑑意義。

1.9 Attentive Generative Adversarial Network for Raindrop Removal from A Single Image

本文由北京大學、新加坡國立大學和耶魯-新加坡國立大學學院完成，是 CVPR 2018 的 spotlight 文章。積聚在鏡頭上的雨滴會嚴重損害照片的視覺效果。本文提出了一種照片去雨滴的方法，能夠有效地將照片中的雨滴去除。為了完成這一任務，本文提出了一種注意力生成模型——在對抗式訓練的過程中，將注意力模組加入到生成器和判別器中。注意力模組學習瞭如何定位雨滴出現的位置，能夠更好地指導生成器和判別器關注雨滴出現的區域性區域。本方法的結果較之前方法的結果有較為明顯的提升。

1.10 Multistage Adversarial Losses for Pose-Based Human Image Synthesis

本文由中國科學院大學完成，是 CVPR2018 的 spotlight文章。本文關注的是給定一幅人像，如何生成指定的另一個視角的人像。生成新視角的相關工作已經有很多，但主要關注的都是剛性物體，如椅子、樓房、汽車等。相對於剛性物體而言，人體是非剛性的，姿態更為多樣，因此生成新視角的人像是一個極具挑戰性的問題。本文以多視角姿態估計為輔助，使用了多階段對抗損失函式訓練了一個多階段的轉換網路。本文的方法分為三個階段。第一階段，先使用已有的方法估計輸入影像的 2D 姿態估計結果，然後訓練一個網路來生成指定視角的 2D 姿態估計結果。第二階段，使用已有的方法將人從影像中分割出來，然後以原始 2D 姿態和目標 2D 姿態作為輔助輸入，訓練一個前景轉換網路完成目標新視角前景的生成。第三階段，輸入第二階段的新視角前景和原始影像，訓練一個背景轉換網路完成目標新視角背景的生成。本文在 Human3.6M 資料集上進行了測試，能夠在保持姿態不變的情況下，生成較為逼真的新視角人像。

1.11 Deep Photo Enhancer: Unpaired Learning for Image Enhancement from Photographs with GANs

本文由臺灣大學完成，是 CVPR 2018 的 spotlight 文章。影像美化一直是計算機視覺領域的重要主題，在諸多圖片編輯軟體和拍攝軟體中具有廣泛應用。本文提出了一種雙路的對抗生成網路，與 CycleGAN 類似。為了改善效果，本論文提出了多方面的優化。其一，生成器在傳統 UNet 結構的基礎之上，加入了全域性特徵使得網路能夠同時捕捉全域性和區域性資訊。其二，使用了一個自適應的權重賦值方案來提升 WGAN 的效果，能夠更快更好地收斂，而且相對 WGAN-GP 而言對引數更加不敏感。其三，在生成器中使用了個體批規範化（individual batch normalization），使得生成器更適應於輸入的分佈。這些細節的改動使得本文的方法在影像美化這一應用上取得了不錯的效果。

1.12 StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

本文由高麗大學、NAVER、新澤西學院、香港科技大學合作完成，是 CVPR 2018 的 oral 文章。近期影像間翻譯問題已經在兩個域的情況下取得了很大的進展。然而，現有方法的可擴充套件性和魯棒性都不足以完成兩個域以上的影像間翻譯問題。針對多個域的問題，最直接的做法是每兩個域之間都單獨訓練一個轉換模型，然而這種做法是十分冗餘的，而且在資料有限的情況下很難取得出色的結果。為了解決這個問題，本文提出了一種 StarGAN 結構，使用多個域之間的影像翻譯訓練資料完成對抗訓練，能夠使用一個模型完成多個域之間的影像間翻譯問題。具體地，在訓練生成器的過程中，除了給定輸入影像還會給定目標域的標籤；同時還訓練判別器在判別真假的同時判別生成結果所處的域，相當於是一種條件對抗生成網路。訓練過程中會混合使用多個域之間的影像對，使得同一個生成器能夠完成多個域之間的轉換問題。

1.13 High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

本文由英偉達和加利福尼亞大學伯克利分校合作完成，是 CVPR 2018 的 oral 文章。本文提出了一種基於條件生成對抗網路（Conditional GAN）的影像生成方法，能夠將語義分割標籤圖轉換成高解析度的真實影像。已有的條件生成對抗網路雖然能完成類似的任務，但是隻侷限在低分辨的影像上。本文生成的結果解析度高達 2048x1024，而且擁有極高的真實感。為了達到這樣的效果，本文提出了一種新的對抗損失函式以及多尺度的生成器和判別器結構。具體地，本文將生成器拆分成 G1 和 G2 兩個子網路。其中 G1 生成低解析度的轉換結果；G2 在 G1 的基礎之上進一步優化結果的精細度，生成更高解析度的結果。另一方面，本文訓練了三個判別器來判斷不同尺度的結果是否為真實影像，從而提供三種不同尺度的對抗損失來指導生成器的訓練。此外，本文還展示瞭如何利用條件生成對抗網路完成互動式的影像編輯應用，如刪除和增加物體、更換物體的外表等。

1.14 Synthesizing Images of Humans in Unseen Poses

本文由麻省理工學院完成，是 CVPR 2018 的 oral 文章。本文研究的是如何生成具有目標姿態的人像照片的問題。本文以對抗的方式訓練了一個生成器，該生成器對人體的不同部位分別完成轉換，再組合成新的前景。具體地，首先為每個部位生成單獨的掩碼（mask），然後利用掩碼將每個部位單獨提取出來，通過空域轉換模型（Spatial Transformer）完成變形，再組合成具有新姿態的完整全身人像作為前景。新背景則由原來的背景摳除人之後利用神經網路進行填補得來。本文主要在三種動作上進行了測試，包括打高爾夫球、健身和網球。使用本文的方法還能夠在給定一幅輸入影像和一組目標姿態序列的情況下，生成一個符合目標姿態序列的視訊。但目前方法仍然侷限於瑜伽、網球、高爾夫三種動作。

第二部分：視訊分析與理解

2.1 Bidirectional Attentive Fusion With Context Gating for Dense Video Captioning

本文由騰訊 AI Lab 與華南理工大學合作完成，是今年 CVPR 2018 的 spotlight 文章。密集視訊描述是一個時下剛興起的課題，旨在同時定位並用自然語言描述一個長視訊中發生的所有事件或行為。在這個任務中，本文明確並解決了兩個挑戰，即：（1）如何利用好過去和未來的資訊以便更精確地定位出事件，（2）如何給解碼器輸入有效的視覺資訊，以便更準確地生成針對該事件的自然語言描述。第一，過去的工作集中在從正向（視訊從開頭往結尾的方向）生成事件候選區間，而忽視了同樣關鍵的未來資訊。作者引入了一種雙向提取事件候選區間的方法，同時利用了過去和未來的資訊，從而更有效地進行事件定位。第二，過去的方法無法區分結束時間相近的事件，即給出的描述是相同的。為了解決這個問題，作者通過注意力機制將事件定位模組中的隱狀態與視訊原始內容（例如，視訊 C3D 特徵）結合起來表徵當前的事件。進一步地，作者提出一種新穎的上下文門控機制來平衡當前事件內容和它的上下文對生成文字描述的貢獻。作者通過大量的實驗證明，相比於單獨地使用隱狀態或視訊內容的表徵方式，新提出的注意力融合的事件表徵方式表現更好。通過將事件定位模組和事件描述模組統一到一個框架中，本文的方法在 ActivityNet Captions 資料庫上超過了之前最好的方法，相對效能提升 100%（Meteor 分數從 4.82 到 9.65）。

2.2 End-to-End Learning of Motion Representation for Video Understanding

本文由騰訊 AI Lab、清華大學、MIT-Watson 實驗室、史丹佛大學合作完成，是 CVPR 2018 的 spotlight 文章。儘管端到端的特徵學習已經取得了重要的進展，但是人工設計的光流特徵仍然被廣泛用於各類視訊分析任務中。為了彌補這個不足，作者創造性地提出了一個能從資料中學習出類光流特徵並且能進行端到端訓練的神經網路：TVNet。當前，TV-L1 方法通過優化方法來求解光流，是最常用的方法之一。作者發現，把 TV-L1 的每一步迭代通過特定設計翻譯成神經網路的某一層，就能得到 TVNet 的初始版本。因此，TVNet 能無需訓練就能被直接使用。更重要的是，TVNet 能被嫁接到任何分類神經網路來構建從資料端到任務端的統一結構，從而避免了傳統多階段方法中需要預計算、預儲存光流的需要。最後，TVNet 的某些引數是可以被通過端到端訓練來進一步優化，這有助於 TVNet 學習出更豐富以及與任務更相關的特徵而不僅僅是光流。在兩個動作識別的標準資料集 HMDB51 和 UCF101 上，該方法取得了比同類方法更好的分類結果。與 TV-L1 相比，TVNet 在節省光流提取時間和儲存空間的基礎上，明顯提高了識別精度。

2.3 Finding "It": Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos

本文由史丹佛大學完成，是 CVPR 2018 的 oral 文章。將文字短語對應視覺內容是一項具有挑戰性的任務。當我們考慮教學視訊中的 grounding 問題，這個問題變得更加的複雜。教學視訊的潛在時間結構違背了獨立性假設，並且需要上下文理解來解決模糊的視覺語言指代資訊。此外，密集的註釋和視訊資料規模意味著基於監督的方法的成本過高。在這項工作中，作者通過弱監督框架在教學視訊中進行參照感知式 grouding 任務。其中只有文字描述和視訊片段之間的對應關係可用於監督訊號。文中介紹了視覺上 grounding 的動作圖，這是一種捕獲視訊 grounding 和參照之間潛在依賴關係的結構化表示。文中提出了一種新的參照感知式多例項學習（RA-MIL）目標，用於對視訊中的grounding進行弱監督。在 YouCookII 和 RoboWatch 的視訊集合上評估了提出的方法，實驗證明提出的方法能提升針對教學視訊中的 grounding 問題。

2.4 Actor and Action Video Segmentation From a Sentence

本文由荷蘭阿姆斯特丹大學完成，是 CVPR 2018 的 oral 文章。本文針對人物及其在視訊內容中的動作進行畫素級分割。與現有的工作不同，本文的方法從自然語言輸入句子中推斷出相應的分詞。因此，這種方法可以區分同一超類別中的細粒度人物資訊，標識人物和動作例項，以及分割詞彙表之外的人物與工作的片段對。本文使用針對視訊進行優化的編碼器-解碼器架構提出了畫素級人物和動作分割的全卷積模型。為了展示來自句子的人物和動作視訊分割的潛力，本文擴充套件了兩個擁有 7500 多種自然語言描述的人物和動作資料集。實驗進一步展示了句子引導分割的質量，提出的模型的泛化能力，以及與傳統人物和動作分割相比的先進的優勢。

2.5 Compressed Video Action Recognition

本文由德克薩斯大學奧斯汀分校、卡耐基梅隆大學、南加利福尼亞大學、亞馬遜的 A9 和亞馬遜合作完成，是 CVPR 2018 的 oral 文章。訓練魯棒的深度視訊表示比學習深度影像表示更具挑戰性。這部分是由於原始視訊流的巨大資料量和高時間冗餘; 真正有用的訊號經常被淹沒在太多不相關的資料中。由於視訊壓縮（使用 H.264、HEVC 等），多餘的資訊可以減少多達兩個數量級，因此本文提出直接在壓縮視訊上訓練深層網路。這種表示具有更高的資訊密度，實驗證明訓練也會更加容易。另外，壓縮視訊中的訊號提供直接的但包含很大噪聲的運動資訊。本文提出新的技術來有效地使用它們。提出的方法比 Res3D 快 4.6 倍，比 ResNet-152 快 2.7 倍。在動作識別的任務上，本文的方法優於 UCF-101、HMDB-51 和 Charades 資料集上對應的其它方法。

2.6 What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets

本文由史丹佛大學、Facebook、達特茅斯學院合作完成，是 CVPR 2018 的 spotlight 文章。捕捉時間資訊的能力對視訊理解模型的發展至關重要。儘管在視訊中對運動建模進行了大量嘗試，但仍缺少時間資訊對視訊理解效果的明確分析。本文旨在彌合這一差距，並提出以下問題：視訊中的動作對於識別動作有多重要？為此，本文提出了兩種新穎的框架：（i）類別不可知的時序產生器和（ii）運動不變幀選擇器，以減少/消除運動資訊進行分析而不引入其他人為因素。這將視訊的運動資訊與其他方面的運動隔離開來。與我們的分析中的基線相比，所提出的框架對運動的影響提供了更加精確的估計（UCF101 的 25％到 6％，Kinetics 的 15％到 5％）。本文的分析提供了有關 C3D 等現有模型的重要見解，以及如何使用更稀疏視訊幀實現一致性的結果。

2.7 Fine-Grained Video Captioning for Sports Narrative

本文由上海交通大學完成，是 CVPR 2018 的 spotlight 文章。對於視訊，如何生成細緻的視訊描述還遠未解決，例如自動體育解說。為此，這項工作做出以下貢獻。首先，為了促進對細粒度視訊標題的新穎研究，本文收集了一個稱為細粒度體育解說資料集（FSN）的新資料集，其中包含來自 YouTube.com 的含有真實性解說的 2K 體育視訊。其次，本文開發了一個名為細粒度描述評估（FCE）的新型的評估指標來評估這項新任務。作為被廣泛使用的 METEOR 的擴充套件，它不僅測量語言表現，而且測量動作細節及其時間順序是否被正確描述。第三，本文提出了一個新的精細體育解說任務的模型框架。該網路具有三個分支：1）時空實體定位和角色發現子網路；2）區域性骨骼運動描述的細粒度動作建模子網路；3）群組關係建模子網路以模擬運動員之間的互動。本文進一步融合這些特徵，並通過分層遞迴結構將它們解碼為長篇解說。 FSN 資料集上的大量實驗證明了所提出的細粒度視訊字幕框架的有效性。

2.8 Unsupervised Learning and Segmentation of Complex Activities from Video

本文由德國波恩大學完成，是 CVPR 2018 的 spotlight 文章。本文提出了一種無監督地將視訊複雜活動分成多個步驟或子活動的新方法，沒有任何文字輸入。本文提出了一種迭代判別生成方法。該方法交替學習從視訊的視覺特徵學習子活動的外觀，以及通過廣義 Mallows 模型學習子活動的時間結構資訊。另外，本文引入了背景模型來標註與實際活動無關的視訊幀。本文的方法在具有挑戰性的Breakfast Actions和Inria Instructional Videos資料集上得到驗證，並且超過了已有的無監督和弱監督模型。

2.9 NeuralNetwork-Viterbi: A Framework for Weakly Supervised Video Learning

本文由德國波恩大學完成，是 CVPR 2018 的 spotlight 文章。視訊學習是計算機視覺領域的一項重要任務，近年來越來越受到關注。由於即使少量視訊也容易包含數百萬幀，因此不依賴幀級標註的方法特別重要。在這項工作中，作者提出了一種基於 Viterbi 損失的新型學習演算法，允許線上和增量學習弱標註視訊資料。此外顯式的上下文和長度建模可以幫助視訊分割和標籤任務方面取得巨大提升。在幾個行為分割基準資料集上，與當前最先進的方法相比，作者的方法獲得了高達 10％的提高。

2.10 Actor and Observer: Joint Modeling of First and Third-Person Videos

本文由卡耐基梅隆大學、Inria 和艾倫人工智慧研究所合作完成，是 CVPR 2018 的 spotlight 文章。認知神經科學中的幾種理論認為，當人們與世界互動或者模擬互動時，他們從第一人稱的自我中心角度出發，並且在第三人（觀察者）和第一人稱（演員）之間無縫地傳遞知識。儘管如此，由於缺乏資料，學習這樣的模型來識別人類行為並不可行。在本文中，作者建立了一個新的資料集 Charades-Ego。它是一個配對的第一人稱視訊和第三人視訊的大型資料集，涉及 112 人，擁有 4000 對配對視訊。這使得學習演員和觀察者兩者之間的聯絡。因此，本文解決了自我中心視覺研究的最大瓶頸之一，它提供了從第一人稱到第三人稱資料的聯絡。本文利用這些資料來學習了弱監督條件下的第一人稱視訊和第三人視訊的聯合表示，並表明了其將知識從第三人轉移到第一人稱領域的有效性。

2.11 Now You Shake Me: Towards Automatic 4D Cinema

本文由多倫多大學和 Vector Institute 合作完成，是 CVPR 2018 的 spotlight 文章。本文通過自動解析電影中的某些特殊效果來使 4D 影院自動化，這些效果包括濺起的水、光和震動。作者構建了一個新的資料集，稱作 Movie4D，這個資料集標註了 63 個電影中的 9000 個特效。為了檢測和分類特效，作者提出了建立在神經網路之上的 CRF 模型。這個模型利用了電影中的視訊、音訊、人的軌跡以及特效和角色、電影之間相關性。本文方便了 4D 電影進入家庭。

2.12 Future Person Localization in First-Person Videos

本文由東京大學與 IIT 合作完成，是 CVPR 2018 的 spotlight 文章。在本文中，作者提出了一項新任務，預測未來在第一人稱視訊中觀看的人的位置。考慮由可佩戴相機連續記錄的第一人視訊流。給定一個從整個視訊流中提取的人的短片，我們的目標是在未來的幀中預測該人的位置。為了促進未來人的定位能力，作者做出以下三個關鍵觀察：a）第一人稱視訊通常涉及顯著的自我運動，這極大地影響了未來幀中目標人的位置; b）目標人的大小作為一個突出提示，可以用於估計第一人稱視訊中的透視效果; c）第一人稱視訊經常捕捉人物靠近，使得更容易利用目標姿勢（例如，當前位置）來預測他們未來的位置。作者將這三種觀察結合到具有多流卷積–反摺積結構的預測框架中。實驗結果表明作者提出的方法在新資料集以及公開的社互動動資料集上是有效的。

2.13 MovieGraphs: Towards Understanding Human-Centric Situations From Videos

本文由多倫多大學、Vector Institute 和 Montreal Institute of Learning Algorithms 合作完成，是 CVPR 2018 的 spotlight 文章。通過人工智慧構建社會智慧機器人要求機器有能力“閱讀”人們的情緒、動機和其它影響行為的因素。為了實現這一目標，作者引入了一個名為 MovieGraphs 的新資料集，它提供了詳細的基於圖的電影剪輯描述的社交情景註釋。每張圖包含幾種型別的節點，可以捕捉剪輯中出現的人、他們的情緒和身體屬性、他們的關係（即父母/子女）以及他們之間的互動。大多數互動與提供額外細節的主題以及為動作提供動機的原因相關。另外，大多數互動和許多屬性都基於視訊。作者對新資料集進行了仔細的分析，顯示了場景的不同方面之間的相關性方面以及跨越時間的相關性。作者提出了一種用圖來查詢視訊和文字的方法，並且顯示：1）圖包含豐富和充足的資訊來總結和定位每個場景; 2）子圖可以描述抽象層次的情境並檢索多個語義相關的情況。作者還通過排序和推理理解提出了互動理解的方法。 MovieGraphs 是第一個關注以人為中心的推斷屬性的基準資料集，為社交智慧 AI 開啟了一扇新的大門。

2.14 Action Sets: Weakly Supervised Action Segmentation Without Ordering Constraints

本文由德國波恩大學完成，是 CVPR 2018 的 spotlight 文章。視訊中的動作檢測和時序分割是研究人員越來越感興趣的話題。雖然完全有監督系統近來倍受關注，但對視訊內的每個操作進行全面標註對於大量視訊資料來說代價昂貴且不切合實際。因此，弱監督行為檢測和時序分割方法是非常重要的。儘管大多數人在這方面的工作都是假設給定的是有序的行為序列，但作者的方法只使用行為的集合。這樣的行為集提供的監督資訊少得多，因為行為順序和行為次數都是未知的。但是它們可以很容易地從元標籤中獲得，而有序序列仍然需要人工標註。作者引入了一個自動學習的系統，可以在視訊中學習時序分段和標註動作，其中唯一使用的監督資訊是動作集。在三個資料集上的評估表明，儘管使用的監督資訊明顯少於其他相關方法，但作者的方法仍然取得了良好的結果。

2.15 HAS-RNN: Hierarchical Structure-Adaptive RNN for Video Summarization

本文由西北工業大學和中國科學院西安光學精密機械研究所聯合完成，是 CVPR 2018 的 spotlight 文章。其主要出發點在於，視訊是由多個鏡頭（slot）按照序列組成的。在以往的視訊縮略任務中，往往需要先進行鏡頭的預切割。人工進行鏡頭預分割十分耗時，但自動分割往往效果不佳。這樣就限制了視訊縮略方法的直接運用。為解決這一難題，該工作提出將鏡頭分割和視訊縮略融入到一個模型中。如下圖所示，該工作提出了一個兩層雙向 LSTM 模型，第一層負責鏡頭邊緣的檢測（也即鏡頭分割），然後將分割後的鏡頭輸入到第二層模型，進行視訊的縮略。該工作實現了從視訊到縮略的一站式解決方案，省去了預處理過程，具有很高的現實價值。

2.16 Viewpoint-aware Video Summarization

本文由東京大學、RIKEN 研究所、蘇黎世聯邦理工學院和荷語天主教魯汶大學聯合完成，是 CVPR 2018 的 spotlight 文章。該工作提出同一段視訊可以有多種不同的縮略結果，取決於使用者的需求或者關注點。作者將這種關注點稱為視角（viewpoint）。如下圖所示，作者展示了兩種視角，視訊拍攝的地點和視訊拍攝的事件。兩種視角下產生的縮略顯然不同。為了定義視角，作者提出了視訊組縮略，而不是對單個視訊進行獨立的縮略。同組中的視訊具有同樣的視角，而不同組視訊的視角則有所不同，但是具有一定的相關性。該工作借鑑 Fisher 判別準則，提出以下縮略準則：單視訊的縮略要與該視訊內容相關，同組視訊的縮略要相近（體現出相同的視角），不同組視訊的縮略要不同（體現出不同的視角）。為了展現視角在視訊縮略中的合理性，該工作還給出了一個新的資料集。該工作的主要意義在於，擴充了視訊縮略的涵義，從單個視訊擴充到視訊組的縮略，從單一的縮略擴充到不同視角的縮略。

第三部分：三維視覺

3.1 Self-Supervised Multi-level Face Model Learning for Monocular Reconstruction at Over 250 Hz

本文由馬克斯-普朗克研究所和史丹佛大學等機構合作完成，是 CVPR 2018 的 oral 文章。為了提升單張圖片重建 3D 臉部模型的效果，該論文采用了多層次的臉部結構重建方法，作者把傳統的基於引數化 3D 可變形模型（3DMM）作為基礎模型，在此之上引入糾正模型來增加模型的表達能力。實驗表明糾正模型使得 3D 臉部重建效果更接近原圖，而且能重建出更多細節。

基礎模型與糾正模型均為線性模型，其中基礎模型的基向量通過對訓練樣本做 PCA 得到（即 3DMM 模型），而糾正模型的基向量由神經網路直接學習得到。臉部的形狀與紋理通過基礎模型加上糾正模型來擬合。演算法使用編碼器來學習基礎模型和糾正模型的組合引數。隨後整合兩個模型的結果，通過解碼器得到渲染的 3D 臉部模型。然後，演算法把 3D 模型成像，對比成像結果與輸入圖片的差異，目標是使差異變小，因此該方法是自監督的方式進行訓練。此外，演算法還限制了成像結果與輸入圖的臉部特徵點要對齊。注意該方法中只有編碼器是可學習的，而解碼器和渲染器都是手工設計的可導層，不是可學習的。為了讓模型更加魯棒和訓練過程更加穩定，作者在損失函式上加入額外調節項，用於提升糾正模型的平滑性、紋理的稀疏性和整體一致性。

3.2 Extreme 3D Face Reconstruction: Seeing Through Occlusions

本文由美國南加州大學和以色列公開大學合作完成，是 CVPR 2018 的 spotlight 文章。現有的基於單視角影像的 3D 人臉重建演算法大多以接近正臉且沒有遮擋的圖片為輸入。本論文提出了一種基於凹凸對映（bump mapping）的新演算法，可用於解決被遮擋影像的 3D 人臉重建問題。該演算法把臉部的重建分成兩部分，一部分是基於 3DMM 的人臉基礎形狀和表情的重建，另一部分是區域性細節紋理的重建。演算法首先利用 BFM 的線性模型對全域性形狀和表情進行重建，對視角的估計採用了作者之前的工作 FasePoseNet。對於臉部細節的描述，作者使用了 CNN 來學習圖片到凹凸圖的轉換，訓練資料採用傳統的 Shape from Shading 的方法計算得到。為了復現被遮擋住的細節，作者把非臉部區域看作丟失的資訊並採用影像修復演算法來填補。而成像角度而形成的自遮擋問題則通過軟對稱的機制完成。經過上述一系列步驟之後，演算法可以獲得細節逼真的結果且可以處理遮擋情況下的重建。

3.3 Unsupervised Training for 3D Morphable Model Regression

本文由普林斯頓大學、谷歌和麻省理工學院合作完成，是 CVPR 2018 的 spotlight 文章。使用無監督訓練的方法基於 3DMM 進行人臉三維重建。論文基於編碼器和解碼器模型，創新性地將人臉識別網路引入訓練的損失函式，使得生成的 3D 人臉能很好地保留了輸入圖片的人臉個體特徵。該模型旨在擬合形狀和紋理，並沒有學習姿態表情和光照。演算法的編碼器接受影像作為輸入，輸出用於 3DMM 模型的引數。解碼器接受引數後合成 3D 人臉。為了使網路不僅能保持個體資訊，還能生成自然真實的人臉，作者提出了 3 個新的損失函式，即批分佈損失（batch distribution loss）、迴環損失（loopback loss）和多視角身份損失（multi-view identity loss）。批分佈損失可使每個批的統計量與 3DMM 的統計量一致。迴環損失可保證生成的 3D 人臉模型的2D成像圖片重新進入編碼器得到的引數和原圖的引數儘量一致。多視角身份損失能使得模型學習到獨立於觀察角度的個體特徵。實驗結果說明，模型不僅僅可以生成與輸入影像高度相似的 3D 人臉，而且生成的人臉獨立於輸入的表情和姿態，甚至被遮擋的人臉也可以達到不錯的生成效果。

3.4 Mesoscopic Facial Geometry Inference Using Deep Neural Networks

本文由南加州大學、谷歌和 Pinscreen 聯合完成，是 CVPR 2018 的 spotlight 文章。本文提出了一個由散射人臉紋理圖（diffusely-lit facial texture maps）合成 3D 人臉的演算法。該演算法結合了影像到影像的轉換網路和超解析度網路。其中影像到影像的轉換網路分成兩個子網路，分別學習高頻和中頻資訊，使得模型可以捕捉更多細節。基於一系列不同角度拍攝的影像，演算法首先計算出基礎 mesh 和 1k 解析度的紋理圖。隨後通過條件對抗生成網路把輸入的紋理圖轉換成高頻和中頻兩種位移圖。高頻的位移圖通過超解析度網路提升到 4k 解析度，而中頻的位移圖通過升取樣提升到 4k 解析度。這兩種頻率的位移圖整合結束後，把資訊重新加到 mesh 上，得到最後的輸出。

3.5 Modeling Facial Geometry Using Compositional VAEs

本文由瑞士洛桑聯邦理工學院與 Facebook 聯合完成，是 CVPR 2018 的 spotlight 文章。對人臉建模而言，保證魯棒性是一個難點，抓住表情是另一個難點。為了解決這兩個難點，該論文提出了基於多層次變分自編碼器（compositional VAE）的深度神經網路模型。這個演算法只需要少量樣本就可以訓練出一個可以推廣到新個體和任意表情的模型。

現存的人臉建模演算法大部分基於線性模型，而線性的假設限制了模型的表達能力。為了增加模型的表達能力，該演算法使用神經網路對人臉進行非線性建模。它充分利用卷積神經網路對人臉進行整體和區域性的多層次建模，其中高層網路抓住整體和低頻資訊，底層網路抓住區域性和高頻資訊。模型採用了編碼器和解碼器結合的結構，並將 VAE 的思想融入 U-net 的跳轉連線，使模型更具有魯棒性。編碼器的每層輸出分成兩部分，一部分作為下一層的輸入，另一部分為該層隱變數後驗分佈的引數。解碼器的每層輸入包括了上一層的輸出，以及由該層先驗分佈抽樣得到的隱變數；它的輸出包括了下一層的輸入和下一冊隱變數的先驗分佈引數。此外，為了更好地使用這個框架，論文提出了一種新的 mesh 表示方法，使二維圖片上的近鄰畫素和三維拓撲的近鄰保持一致。作者表示這個框架可以應用於很多具體任務，包括3D mesh 的對應、2D 的標誌性特徵擬合、深度圖的重建等等。下圖為演算法對帶噪聲的深度圖進行重建的結果，而訓練資料只包括 16 個人。

3.6 Nonlinear 3D Face Morphable Model

本文由密西根州立大學完成，是 CVPR 2018 的 spotlight 文章。現有的基於 3DMM 的人臉重建方法大多是線性模型，線性模型的基向量通過對訓練資料做 PCA 得到。由於計算基向量的樣本量少，且線性模型的表達能力有限，所以生成效果提升會遇到瓶頸。本文提出了一個非線性人臉可變形模型，不需要採用事先已知的 3D Mesh 基向量，而是通過神經網路來將 3DMM 引數解碼出 3D Mesh。

該工作基於編碼器-解碼器模型。其中編碼器通過輸入圖片學習投影引數以及形狀和紋理引數。解碼器通過形狀和紋理引數直接學習 3D 的形狀和紋理，因此可以看做是一種 3D 人臉的非線性可變形模型。隨後，基於 z-buffer 演算法，渲染層使用投影引數以及 3D 形狀和紋理把 3D 模型渲染成一張 2D 圖片。模型的目標是最小化 3D 人臉的 2D 投影與輸入圖片的畫素級差異。為了讓生成的人臉更加真實，作者引入了 patchGAN 來學習高質量的紋理和區域性特徵，還利用與特徵標誌對齊相關的損失函式來調節編碼器。實驗結果表示，解碼器作為一種非線性變形模型有更強大的表示能力，可以重建出更多的人臉細節。

3.7 Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies

本文由卡內基梅隆大學和 Facebook 聯合完成，獲得了 CVPR 2018 的最佳學生論文獎（Best Student Paper Award）。本文提出了一個統一的變形模型，可在無標誌物（Marker）的情況下捕獲多個尺度的人體運動，包括大尺度的軀體動作以及微妙的臉部和手部動作。在沒有標誌物的情況下，此前還沒有系統可以同時捕獲軀體、面部、手部的運動，主要挑戰在於人體不同部分的尺度差距較大，比如在一張含有多個人的影像中，面部和手指所佔的解析度通常很小，造成難以捕獲其運動。為了解決此問題，作者提出了一種統一的變形模型，可以表達人體每個主要部分的運動情況。具體而言，通過將人體各個部分模型縫合到一個骨架層次結構中，形成初始的 Frank 模型，此單一模型可以完整地表達人體各個部位的運動，包括面部和手部。通過使用多攝像頭的捕捉系統大規模採集穿著日常服裝的人，進一步優化初始模型得到 Adam 模型。Adam 是一個經過校準的引數化模型，與初始模型享有相同的骨架層次結構，同樣包括軀體、面部、手部的模型，另外還可以表達頭髮和服裝的幾何形狀。Adam 模型可以像其它 3D 可變形模型（例如 SMPL 人體模型、BFM 人臉模型等）一樣用於基於單攝像頭的整個人體的引數化 3D 重建。

3.8 DensePose: Dense Human Pose Estimation in the Wild

本文由法國國家資訊與自動化研究所（INRIA）和Facebook AI 研究中心（FAIR）合作完成，是 CVPR 2018 的 oral 文章。本文提出了一個新的任務，提出密集人體姿態估計，併發布了一個人工標註的由 RGB 影像到 3D 模型密集對應的資料集 DensePose-COCO。傳統的人體姿態估計主要基於少量的人體關節點，比如手腕等。本文通過將人體表面切分成多個部分，然後在每個部分標註區域關鍵點的方法，將人體表面關鍵點擴充套件到 100-150 個。基於該資料集，本文嘗試了基於全卷積網路和基於 Mask-RCNN 的方法，發現基於 Mask-RCNN 的方法表現最優。該方法是在 Mask-RCNN 的基礎上，在最後連線一個分類器和迴歸函式。分類器用於將每一個點分類到屬於人體哪個部位，迴歸函式輸出每一個點在各部位表面的 UV 座標。本文展示的實驗結果表明，提出的基於 Mask-RCNN 的方法可以成功學習到由 RGB 影像到 3D 模型的密集對應。

3.9 DoubleFusion: Real-Time Capture of Human Performances with Inner Body Shapes From a Single Depth Sensor

本文由清華大學、北京航空航天大學等機構合作完成，是 CVPR 2018 的 oral 文章。本文研究的問題是單個深度攝像頭實時三維人體重建。此前最新的工作 BodyFusion 已經證明利用人體的骨架可以更好地重建三維人體模型。但是，BodyFusion 在跟蹤環節只利用了體表資訊，並且骨架資訊在初始化後是固定的。一旦骨架資訊的初始化沒有做好，BodyFusion 的效果就會受很大影響。本文提出了一種動態利用骨架資訊來約束三維人體模型重建的方法。將傳統的 DynamicFusion 的方法作為外部層（outer surface layer），利用 SMPL 來建模內部骨架層（inner body layer），內部層也是通過融合的方法來不斷迭代更新，因此該方法稱作 DoubleFusion。本文還提出一種利用現有的資訊來更新初始化 SMPL 引數的優化方法。實驗結果表明：1）本文提出的內部骨架層可以有效改善快速移動下的三維人體模型重建；2）更新初始化 SMPL 引數的優化方法可以有效提高三維重建的精度

3.10 Video Based Reconstruction of 3D People Models

本文由馬克斯-普朗克研究所和德國布倫瑞克工業大學合作完成，是 CVPR 2018 的 spotlight 文章。給定單個含有一個運動人體（此人從各個角度可見）的單目視訊，本文提出的方法首次實現了從中獲得精確的三維人體模型，包括頭髮、衣服及表面紋理。標準的視覺外形方法（visual hull methods）從多個檢視捕獲靜態形狀，但是視訊中的人體姿態是變化的，本文的核心是將視覺外形方法推廣到含有運動人體的單目視訊中，即將視訊中動態的身體姿勢轉化為規範的參照系。作者通過對動態人體輪廓對應的輪廓錐進行變換以“消除”人體動態姿勢，從而獲得公共參照系中的視覺外形，這使得能夠有效使用大量幀估計一個共同的人體三維形狀。為了對衣服和其他細節進行建模，本文在估計 SMPL 模型引數的基礎上增加一項三維位移的優化引數。在多個三維資料集上的實驗結果表明，此方法可以達到 4.5mm 的三維人體重建精度。

3.11 End-to-End Recovery of Human Shape and Pose

本文由加州大學伯克利分校、馬克斯-普朗克研究所和馬里蘭大學合作完成，提出了一種根據單張彩色影像端到端恢復人體三維模型的方法。目前大多數方法使用多步驟的方式估計三維人體姿態，首先估計二維關節點位置，然後基於此估計三維關節或者三維模型引數。本文提出的框架如下圖所示，不依賴中間二維關鍵點檢測，直接從單張圖片編碼特徵並回歸三維模型引數，藉助 SMPL 模型輸出人體三維網格。本文根據關鍵點投影構造損失函式，使得三維關鍵點投影后與真實二維關鍵點距離儘可能小。由於同一個二維投影面可以由多個三維模型經過投影得到，為了解決這種不確定性，作者還使用了一個判別器聯合監督訓練，判斷生成的引數是否是真實的人體。通過引入這種條件 GAN 的方式，使得可以在沒有任何成對的二維和三維資料的情況下進行訓練，為從大規模二維資料學習三維資訊提供了可能。此方法在估計三維關節精度方面超過了以前方法，並且在給定圖片中人體邊框的情況下可以實時執行。

3.12 Learning to Estimate 3D Human Pose and Shape from a Single Color Image

本文由賓夕法尼亞大學、北京大學和浙江大學共同合作完成。本文同樣提出了一種基於 SMPL 模型的端到端神經網路模型，可從單張彩色影像恢復人體三維模型。該模型首先由 RGB 圖片得到 2D 關鍵點和輪廓，然後利用 2D 關鍵點和輪廓資訊來分別估計 SMPL 中的 3D 姿態（pose）引數和形態（shape）引數。不同於上述前一篇文章（End-to-End Recovery of Human Shape and Pose）中由影像來直接估計 SMPL 中的引數，本文是通過 2D 關鍵點和輪廓來估計。對於 2D 關鍵點和輪廓，已有大量公開的資料集和成熟的模型；對於 SMPL 引數的估計，可以通過公開的運動捕捉資料和人體掃描資料來獲取三維模型資料，並且對映到 2D 影像來獲取 2D 關鍵點和輪廓。實驗結果表明該方法在三個公開資料集上取得很好的結果。根據論文中在 Human3.6M 資料集上的效能，之前的方法SMPLify的重建誤差是 82.3，本文的結果是 75.9，而前一篇文章能達到 56.8（注意重建誤差的數字是越小越好）。

3.13 CodeSLAM — Learning a Compact, Optimisable Representation for Dense Visual SLAM

本文由帝國理工學院 Andrew Davison 組完成，是CVPR 2018 榮譽提名獎（Honorable Mention Award）論文，主要關注場景幾何資訊的緊湊表示方法。場景幾何資訊的表示方式一直是三維視覺實時系統至關重要的研究問題。傳統的密集地圖的表示方式雖然可以描述完整的場景幾何資訊並加上語義標誌，但其缺點是密集地圖計算複雜高和儲存代價大，不利於進行嚴格的概率推理。相反，稀疏地圖的表示方式沒有這樣的問題，但其僅僅描述了稀疏的場景幾何資訊，這些資訊一般主要用於相機的定位。為了獲得密集地圖的優點和稀疏地圖的優點，本文提出了一種新的緊湊的密集地圖表示方法。作者從影像中學習深度圖和自編解碼器這些方法中獲得啟發，提出了一種場景幾何資訊的緊湊表示方法，這種方法可以通過將緊湊編碼與原始影像一起送進一個 CNN 解碼器中得到場景的密集深度圖。在基於關鍵幀的 SLAM 系統中，可以通過一起優化該編碼和相機的位姿來恢復場景的幾何資訊和相機的運動資訊。作者在文章中解釋瞭如何學習得到這個編碼，以及這個編碼在單目 SLAM 系統中的優點。

3.14 Left-Right Comparative Recurrent Model for Stereo Matching

本文由騰訊 AI Lab 和新加坡國立大學等機構合作完成，是 CVPR 2018 的 oral 文章。在立體視覺匹配問題中，充分利用左右雙目的視差資訊對於視差估計問題非常關鍵。左右一致性檢測是通過參考對側資訊來提高視差估計質量的有效方法。然而，傳統的左右一致性檢測是孤立的後處理過程，而且重度依賴人工設計。作者提出了一種全新的左右雙目對比的遞迴神經網路模型，同時實現左右一致性檢測和視差估計。在每個遞迴步上，模型同時為雙目預測視差結果，然後進行線上左右雙目對比並識別出很可能預測錯誤的左右不匹配區域。作者提出了一種“軟注意力機制”更好地利用學習到的誤差圖來指導模型在下一步預測中有針對性地修正更新低置信度的區域。通過這種左右對比的遞迴模型，生成的視差圖質量能夠不斷提高。在 KITTI 2015、Scene Flow 和 Middlebury 標準庫上的實驗驗證了本方法的有效性，並顯示本方法能取得很高的立體匹配視差估計效能。

3.15 Learning Depth from Monocular Videos Using Direct Methods

本文主要由卡內基·梅隆大學完成，提出了一種利用直接法進行無監督訓練的單目影像預測深度圖方法。作者受到了最近的直接法視覺里程計（DVO）的啟發，認為深度圖 CNN 可以在沒有相機姿態 CNN 的情況下學習得到。具體來講，由於深度估計和相機姿態估計是緊密聯絡在一起的問題，本文提出利用 CNN 預測深度圖和利用一種可求導的 DVO 計算相機姿態的方法來計算訓練損失，從而達到無監督式訓練。藉助一種有效的深度歸一化策略，本文的方法可以使得在單目資料訓練中的效能有很大的提升。

3.16 Geometry-Aware Learning of Maps for Camera Localization

本文由美國佐治亞理工學院和英偉達合作完成，是 CVPR 2018 的 spotlight 文章。該論文提出了一種叫 MapNet 的方法來進行單目 SLAM 的相機 6DOF 定位。 MapNet 跟之前的工作 PoseNet 類似，也是通過卷積神經網路直接預測相機的 6DOF 位姿，不同之處是在訓練的時候，除了像 PoseNet 一樣用相機位姿的基本真值計算損失之外，引入了兩幀影像之間的相對位姿計算損失。在此基礎上的 MapNet+ 方法可以利用無基本真值的資料進行訓練，方法是利用已有的視覺里程計例如 SVO 和 DSO 方法計算得到相對位姿作為訓練的基本真值位姿來計算損失。同時，IMU 或 GPS 等資料也可以作為額外的資料來加入訓練。另外，本文還提出使用 SLAM 常用的位姿圖優化（PGO/Pose Graph Optimization）技術作為後處理來進一步提高位姿估計的精度。本文的另一個創新點是提出用對數域的單位四元數來做位姿中旋轉的引數化，作者指出這種引數化方法更有利於深度學習。

3.17 Learning Less Is More - 6D Camera Localization via 3D Surface Regression

本文由德國海德堡大學完成，跟上面介紹的 MapNet 一樣，也是研究從單張影像恢復相機 6DOF 位姿的問題。在目前主流的基於深度學習進行相機 6DOF 定位的方法中，一般都採用端到端地學習整個相機定位的過程或者用學習相機定位的大部分流程。這篇文章與其它方法不太一樣，作者認為，其實只需要學習相機定位中的一個模組便足夠做到精準的定位。基於作者之前的 CVPR 2017 的可導 RANSAC 方法，作者提出了一種用全連線神經網路來稠密擬合“場景座標”的方法，建立輸入彩色影像和三維場景空間的聯絡。“場景座標”是指將影像中的區域性塊對映到三維空間中三維點，從而得到區域性塊的座標。由於區域性塊具有相對比較穩定的外觀，即對視角變化不太敏感，使得對齊影像和三維模型比較容易。作者提出的這種方法具有高效、精確、訓練魯棒、泛化能力強等優點，其在室內和室外的資料集上都一致地比當前領先的技術要好。最後值得一提的是，這種方法在訓練的時候不需要利用一個已知的三維場景模型，因為訓練的時候可以自動地從單目視覺約束中學習到這個三維場景的幾何資訊。從論文中描述的在 7Scenes 資料集上的效能來看，本篇論文的方法的精度比上面介紹的 MapNet 方法的精度要高出不少。

3.18 Semantic Visual Localization

本文由蘇黎世聯邦理工學院、MPI Tubingen 和微軟合作完成，主要研究在大範圍的視角變化下的相機定位問題。問題的設定是，假設系統中有一些已知影像及其深度圖和相機位姿，給定一個未見過的查詢影像，求出其相機的 6DOF 位姿。處理這個困難的問題不僅有挑戰性，而且非常實用。例如，擴增實境和自動駕駛的長期定位都需要面對這個問題。作者提出了一種新的基於三維幾何和語義的定位方法，這種方法可以克服過去方法失敗的情況。作者利用了一個新的生成模型來進行描述子學習。訓練描述子時，用一個語義場景補全任務作為輔助訓練任務。訓練得到的三維描述子對觀察不全的情況很魯棒，因為訓練的時候把高維的三維幾何和語義資訊編碼進去了。作者在幾個有挑戰性的大型定位資料集上表明瞭其方法在超大視角變化、光照變化和幾何變化的情況下的可靠定位效能。

3.19 Neural 3D Mesh Renderer

本文由東京大學完成，是 CVPR 2018 的 spotlight 論文。該論文提出了一種將三維 Mesh 渲染成二維影像的近似可求導模組，可以用於神經網路的反向傳遞中。如果用傳統方法直接將三維 Mesh 渲染成二維影像，會涉及一個光柵化的離散操作。這個操作是不能反向傳播的，也就是說，不能用於常用的神經網路中。為了解決這個問題，這篇文章提出了一種近似的光柵化梯度，使其可用於神經網路的渲染模組。作者使用這個方法展示了由單幅影像帶輪廓影像監督的三維 Mesh 重建，其效能優於目前的基於體素（Voxel）的方法。除此之外，作者在二維影像的監督下實現了基於梯度的三維網格編輯操作，例如二維到三維的風格轉換，三維的 DeepDream 等。這些應用表明了作者提出的這個網路渲染器在神經網路的潛在應用和有效性。

3.20 Factoring Shape, Pose, and Layout from the 2D Image of a 3D Scene

本文由加州伯克利大學完成。文章旨在提供一種從單張 2D 影像，通過預測立體場景的三個要素來重建場景 3D 結構的方法。其中三個要素包括：場景佈局（layout，牆面和地板）、物體的形狀（shape）以及姿態（pose）。文章首先提出基於三要素的場景 3D 結構表示方法，並展示了對比與兩種主要場景三維表示方法（深度影像和體素）的優勢。隨後作者給出了基於深度學習的場景重建網路結構（如下圖）。網路輸入為 2D 場景圖片和物體邊框，輸出為作者定義的三要素。

作者在合成資料集上進行了訓練，並證實了模型在合成資料和真實資料上都具有良好的表現。部分真實圖片的預測結果如下所示。本文方法的預測結果為場景 3D 結構理解提供了更好的解釋性。

3.21 Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net

本文由 Uber 公司與多倫多大學合作完成，是 CVPR 2018 的 oral 文章。作者首先指出自動駕駛任務通常被分割成四個步驟：物體檢測、物體追蹤、運動預測和路徑規劃。四個步驟通常獨立學習。這樣造成了後續步驟中的錯誤資訊無法反饋給之前的步驟並且執行時間長。在本文中，作者提出了一種名為 FaF（Fast and Furious，速度與激情）的端到端全卷積網路方法。該方法利用 3D 感測器提供的時空資料，可同時完成 3D 檢測，追蹤和運動預測。該方法不僅能在作者採集的大資料上取得最優結果，還可以實時（30ms 內）完成所有任務。值得注意的是，在對單幀點雲資料體素化之後，作者並未採用複雜的 3D 卷積操作，而是把高度量化後作為通道資訊，在寬度和深度上使用 2D 卷積。這樣既保證了網路的高效，又可以讓網路學習準確的高度資訊。對於時間資訊，作者提供了早期融合（early fusion）和延遲融合（later fusion）兩種模型（如下圖）。其中早期融合模型執行速度更快，延遲融合準確率更高。

在作者採集鐳射雷達資料集上，該方法在三個任務上表現優異。作者通過消融研究證實了三個任務同時學習的必要性。

3.22 3D Semantic Segmentation with Submanifold Sparse Convolutional Networks

本文由 FAIR 與牛津大學聯合完成，是 CVPR 2018 的 spotlight 文章。該論文提出的方法及其上一版本（A spatially-sparse convolutional neural network）已經在多個視覺任務比賽中名列前茅，如 2017 年 shapeNet 3D 物體語義分割比賽第一名和 2015 年 Kaggle 舉辦的糖尿病視網膜病變檢測第一名等。本文在利用三維稀疏結構的基礎上強調卷積操作不應減少原有稀疏特性（圖1）。為不改變 3D 資料稀疏特性（圖2），作者提出了子流形稀疏卷積操作子（SSC，Submanifold Sparse Convolution operator）。具體來說，首先對輸入的邊緣進行 0 值擴增，以保持操作後輸出與輸入同尺寸。然後只在以輸入樣本的啟用畫素為中心點的區域（圖 2，綠色畫素）進行卷積操作。這樣就保證了卷積操作不改變特徵的稀疏結構。

圖 1 左圖為原始輸入。中圖為一次卷積操作後結果。右圖為兩次卷積後結果。常規卷積運算減少了特徵的稀疏特性。特徵發生“膨脹（dilation）”

圖 2 SSC感受視野在不同位置示意圖。綠色為啟用畫素，紅色為忽略畫素。輸出啟用區域的模式與輸入保持不變。

在SSC的基礎上，作者又定義了對應的啟用函式，批歸一化和池化函式用以高效的搭建不同的深度學習網路。實驗表明，該方法計算高效且準確率高。

3.23 SPLATNet: Sparse Lattice Networks for Point Cloud Processing

本文由馬塞諸塞州大學、加州大學美熹德分校和英偉達公司共同完成，獲得本屆 CVPR 最佳論文榮譽提名獎（Best Paper Honorable Mention Award）。自動駕駛和機器人應用中，通常需要對鐳射雷達等 3D 感測器獲得的不規則資料（如點雲（point cloud）和表面（mesh）），進行處理和分析。點雲資料的稀疏和無序特性給直接運用卷積神經網路帶來了困難。為解決上述問題，本文通過引入雙邊卷積層（BCL/Bilateral Convolution layer），構建了一種適用於點雲資料的通用靈活的神經網路結構——稀疏晶格網路（SPLATNet, SParse LAttice Network）。該網路的核心是雙邊卷積層，由以下三個步驟完成：

a）Splat

該步驟首先把特徵從原空間（歐式空間）投影到Permutohedral Lattice 空間中。然後通過重心插值法（barycentric interpolation）將點特徵整合到晶格頂點。這樣就將不規則的點雲資訊表示在了規則的晶格頂點上。

b）Convolve

一旦將點雲投影到規則的晶格上，卷積操作就和平坦空間卷積類似了。

c）Slice

該操作可視為 Splat 的反操作。它通過質心插值法，將特徵對映回原空間。此時的輸出點雲可以和輸入點雲相同，也可以不相同。

在 BCL 的基礎，為解決語義分割問題，作者提供了 3D-3D 和 2D-3D 兩種網路結構，如下圖所示：

其實驗結果如下：

3.24 Tangent Convolutions for Dense Prediction in 3D

本文由弗萊堡大學和英特爾實驗室（Intel lab）共同完成，是 CVPR 2018 的 spotlight 文章。為在 3D 語義場景分析任務中使用深度卷積網路結構，作者提出一種新的卷積操作——切面卷積（Tangent Convolution）。作者首先提出了 3D 資料都是來源於區域性歐式表面（locally Euclidean ）取樣的假設。在此基礎上，每個點的區域性表面幾何結構可以投影到該點周圍的切平面上。每個切面影像可以認為是支援平面卷積的二維規則影像。所以對於 3D 資料，作者推匯出如下切面卷積公式：

其中 P 為 3D 輸入資料，u為該點在切平面的 K 近鄰點，c 為卷積核，w 為 u 的插值函式，g 為近鄰選擇函式。因為切平面影像只與輸入幾何結構有關，作者認為預計算切平面影像後，該方法可以適用於大規模點雲資料。

在切面卷積基礎上，作者搭建瞭如下全卷積 U 形網路來進行 3D 場景理解。

部分室內、室外對比實驗結果如下所示：

3.25 3D-RCNN: Instance-Level 3D Object Reconstruction via Render-and-Compare

本文由佐治亞理工和卡耐基梅隆大學合作完成，是 CVPR 2018 的 oral 文章。該論文提出了一種用深度卷積網路從 2D 影像中重建 3D 物體例項的方法。文中，作者首先解決了 3D 形狀（shape）和姿態（pose）如何表示的問題。對於 3D 形狀，作者通過對每一類物體的 CAD 模型進行 PCA 建模後，得到了該類物體的一組基向量。之後例項的 3D 形狀就可以用一組引數表示為對應基向量的線性組合。對於姿態，作者認為物體為中心的表示方式（allocentric orientation）相比較於相機為中心的表示方式（egocentric oritation）更加適合學習，因為這種表示方式與物體為中心的 2D 影像感興趣區域（RoI）的表示方式更加一致。在此基礎上，作者給出了名為 3D-RCNN 的網路結構：

網路結構的解渲染部分（De-render）從 2D 影像中預測出上述 3D 表示。為利用更易獲取的 2D 影像進行監督訓練，作者設計了渲染與對比損失函式。該部分將重建後的 3D 例項進行渲染得到對應 RoI 區域的分割掩膜和深度影像。在與真實結果對比後，利用有限差分法計算近似梯度進行訓練。作者首先在合成資料集上進行了訓練，然後在真實資料集上進行微調。該網路在真實影像上部分測試結果如下所示。

CVPR 2018 | 騰訊AI Lab關注的三大方向與55篇論文

相關文章