CVPR 2017完全指北:深度學習與計算機視覺融合的一年,未來又會是什麼?

機器之心發表於2017-08-06

當地時間 7 月 21 日到 16 日,夏威夷火奴魯魯迎來了 2017 年計算機視覺與模式識別會議(CVPR)。今年的會議收到了 2620 份有效提交,其中有 783 篇論文被接收,其中又有 215 篇將進行長和短的演講展示,分成了 3 個並行議程。本屆會議吸引了 127 家贊助商,贊助資金 859000 美元。參會者數量接近 5000 人,在幾年前才剛到 1000 人的基礎上實現了顯著的增長。本文帶你回顧這場學術嘉年華(咖啡很贊!),不要錯過!

作者 | QW、CZ

參與 | 王灝、Panda

CVPR 2017完全指北:深度學習與計算機視覺融合的一年,未來又會是什麼?

主會議

CVPR 是最有影響力的計算機視覺會議之一。4 天的主會議(7 月 22~25 日)覆蓋了以下主要主題:

1. 機器學習

2. 目標識別與場景理解——計算機視覺和語言

3.3D 視覺

4. 人物肖像分析

5. 低階視覺與中級視覺

6. 影像運動與跟蹤:影片分析

7. 影像處理計算數字化

8. 相關應用

前四大主題佔到了接收論文的 80% 以上。我們將首先介紹這四個主題。

機器學習

在機器學習 Session 中,大多數長和短演講的重點都是已有模型的效能限制上的突破進展,但也有少量傑出論文深入挖掘了對神經網路機制的理解:

1. 密集連線的神經網路(Densely Connected Convolutional Networks)。這是最佳論文獎的獲獎論文之一。這項工作介紹了 DenseNet——一種在網路越深度時網路架構變得越密集的全新網路。相對於 vanilla CNN,它有以下優勢:能保持更強的梯度流、顯著提升了計算效率等等。一位研究者評論說:「他們部分回答了有關神經網路工作方式的問題,而且他們透過探索未知進行了他們的研究,而不是僅僅調整一下神經網路架構。」對於這項研究的更多解讀,可參閱機器之心專欄文章《專欄 | CVPR 2017 最佳論文解讀:密集連線卷積網路》。

2. 神經網路訓練中的全域性最優性(Global Optimality in Neural Network Training)。這篇論文表明,只要網路輸出和正則化是網路引數的正齊次函式,就可以實現全域性最優。簡單來說,ReLU 函式可以被看作是齊次函式,因為 max(0, ax) = a * max(0, x);而 softmax 則不能被看作是齊次函式。此外,這篇論文還將該理論擴充套件到了多個並行連線的 AlexNet 上。這篇有趣的論文可以指導神經網路模型的設計和訓練。

另外還有一項研究值得一提:

使用生成對抗網路的無監督畫素級域適應 (Unsupervised Pixel-Level Domain Adaptation with Generative Adversarial Networks)。這項超解析度生成對抗網路工作提出用感知損失(perceptual loss)替代均方誤差。在 GAN 上,感知損失由內容損失和對抗損失組成;因此,這個損失函式讓 GAN 可以表徵高階內容,而不只是畫素級的內容。另外,該論文還提出了一個用於測量感知損失的新指標。

因為機器學習(尤其是其子領域深度學習)在處理計算機視覺問題上已經變得非常有效了,所以機器學習/深度學習成為了今年的主流議題(自 2012 年 AlexNet 震驚世界以來,機器學習/深度學習沒有給傳統的計算機視覺方法留下任何餘地。一位受訪者在喝咖啡的休息時間表達了他的狂熱熱情:「機器學習主宰了計算機視覺!這很振奮人心,而且未來還將有更多機會!」但也有一些人表達了擔憂:「只有非常少的研究者在關注推進機器學習/深度學習的理論發展,這可不好。」——因為深度學習僅僅被用作工具。不管你是否接受這一趨勢,機器學習和深度學習確實正在主導各個領域。

儘管深度學習已經變得相當流行,但只是實現單個深度學習模型還遠遠不夠。在所有與深度學習相關的論文中,機器學習的概念和方法都不能被忽視:在機器學習概念的幫助下,深度學習的能力已經得到了擴充套件,而且也更易於解釋;此外,機器學習指標和深度網路的融合也已經變得非常流行,因為這樣可以得到更好的模型。

3D 視覺

3D 視覺包含的主題有重建、分割等。與 2D 影像處理相比,額外的維度帶來了更多不確定性,例如遮擋和不同的相機角度。研究者在處理這些不同的情況上投入了大量精力。來自普林斯頓大學的兩個團隊帶來的兩個演講展示收穫了最熱烈的掌聲:

1. 根據單一深度影像的語義場景完成(Semantic Scene Completion from a Single Depth Image)。這項研究的主要目標是根據單一影像重建目標。但是,3D 場景中固有的模糊性與不確定性會降低重建的準確度。為了解決這一問題,這篇論文提出了一種資料驅動的方法:使用作為知識庫的大型資料集學習來構建神經網路。這種先驗知識可以緩解物體被遮擋後識別率降低的痛苦。這個新模型可以透過識別周圍的其它物體來推斷一個物體;而先驗知識可以極大地提升準確度。

2. 3DMatch:根據 RGB-D 重建學習區域性幾何描述(Learning Local Geometric Descriptors From RGB-D Reconstructions)。這篇論文也引入了用於先驗知識的資料驅動的模型。為了應對訓練資料不足的問題,他們使用了自監督學習(self-supervised learning)來生成資料,即從不同的角度,獲取長程的對應關係 (correspondence)。

正如前面提到的,3D 維度的本質給研究者帶來了噪聲、低解析度和掃描資料不完整的難題。當前的研究工作已經開始在獲取全域性語義含義並將它們與區域性幾何模式進行匹配。但是,當前資料集的規模大小可能已經無法支援前沿研究。因此下一步研究目標可能會轉向為 3D 視覺開發設計合理的資料集。《使用環差濾波器的從焦點的噪聲魯棒深度(Noise Robust Depth From Focus Using a Ring Difference Filter)》、《使用最小監督來學習有噪聲的大規模資料集(Learning From Noisy Large-Scale Datasets With Minimal Supervision)》、《用於 6D 物體姿態估計的全域性假設生成(Global Hypothesis Generation for 6D Object Pose Estimation)》、《用作用於單眼深度估計的序列深度網路的多尺度連續 CRF(Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation)》等其它論文則旨在解決有噪聲資料和估計問題。一位博士生說:「我的興趣在於幾何深度學習 (Geometric Deep Learning),這將是新的趨勢。」

目標識別與場景理解

目標識別是今年的又一主要主題。過去,研究者在識別單個物體和理解整體場景上投入了大量工作。但現在研究目標已經轉向了識別單張影像中多個物體之間的關係。以論文《使用深度關係網路檢測視覺關係(Detecting Visual Relationships with Deep Relational Networks》為例,這項研究提出了一種整合框架——不僅可用於分類單個物體,而且還能探索不同物體之間的視覺關係。

1. 走近看可以看得更好:用於細粒度影像識別的迴圈注意卷積神經網路 (Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition)。這篇論文探討了細粒度影像識別的兩個難題:判別區域定位(discriminative region localization)和細粒度特徵學習(fine-grained feature learning)。為了解決這些問題,論文作者引入了迴圈注意卷積神經網路以利用注意機制(這樣網路就可以迭代式地越來越近地觀察目標物體)來判別細微的差異。

2. 使用 Polygon-RNN 標註目標例項(Annotating Object Instances with a Polygon-RNN)。這篇論文榮獲最佳論文榮譽提名獎。這項工作創造性地將物體標註問題形式化為了多邊形預測問題,而不是傳統的畫素標註問題。當資料規模變成了深度學習的瓶頸時,快速獲取資料就變得非常重要了;他們的研究成果為研究者提供了一種靈活的標註方法。

我們在 poster session 期間還發現了另一個有趣的研究成果:

影像和影片廣告的自動理解(Automatic Understanding of Image and Video Advertisements)。廣告的目的是要暗示性地勸說客戶採取特定的行動。理解廣告不僅需要識別實體內容。這項研究覆蓋了 38 個主題和 30 種情緒,可以透過象徵意義將實體內容與抽象概念連結起來。

人物肖像分析

因為公共安全受到的威脅日益增大,對人員識別和行人檢測的需求也正快速增長。幸運的是,與這一領域相關的大量應用和擴充套件理論正在持續湧現。

這兩篇論文在演示期間收穫了非常熱烈的掌聲:

1. 自然環境中的人物再識別(Person Re-Identification in the Wild)。之前的研究都只是重在人物 re-ID 本身,而這項研究則將人物檢測和人物 re-ID 結合了起來。他們提出了 ID 判別嵌入(IDE:ID-discriminative Embedding),因為這易於訓練和測試。關於檢測如何有助於人物 re-ID 的見解包括:

  • 在 re-ID 應用下評估檢測器的表現;
  • 一種級聯 IDE 微調策略:首先微調檢測模型,然後微調 re-ID 模型。

2. 迴圈 3D 姿態序列機(Recurrent 3D Pose Sequence Machines)。由於人類外觀變化多端,而且還有各種各樣的相機角度和視線阻擋,再加上固有的模糊性,3D 姿態估計是比 2D 問題遠遠更有挑戰性的問題。這篇論文提出了一種全新的迴圈 3D 姿態序列機(RPSM)模型,可以使用多個階段的序列最佳化來迴圈式地整合豐富的空間和時間長程依賴。

但是,在日常生活中人們被相機對準時,隱私又變成了另一個熱門主題。一位學者表達了自己的擔憂:「我看到有很多研究工作出現,而這些可能會成為監管部門的巨大挑戰。對於人物識別這樣的任務,個人隱私可能會承受風險。」

研究趨勢和觀察

1. 計算機視覺領域的機器學習和深度學習。也有不同的聲音,一位來自 EE 的學者說:「我認為計算機視覺和深度學習的結合並不是非常好,儘管它得到了許多成功的應用和論文。傳統上,從訊號處理的角度看,我們知道計算機視覺的物理含義,比如尺度不變特徵轉換(SIFT:Scale-Invariant Feature Transform)和加速的穩健特徵(SURF:Speeded Up Robust Features)方法,但深度學習無法得到這樣的含義,你只需要更多資料就可以了。這可以被視為向前的一大步發展,也可以被看作是向後的一步倒退。從基於規則到資料驅動,我們需要重新評估我們的方法。」


2. 資料驅動的模型。模型不再由人工設計模式設計(這種方法通常只能覆蓋一個特定資料集的一兩個特徵,但在其它資料集上則表現很差),而是重在資料驅動的模型,這意味著特徵是從饋送給模型的成千上萬張影像中學習到的。一些影像可能是高度對應的(但可能是不同的角度),所以該模型可以透過測量這種對應關係(對於定位問題)來自己學習相似度。簡而言之,大規模資料可以得到更好的結果。但一個帶有大量資料的簡單演算法不會是未來最好的方法。成功的模型源自足夠的強大的演算法以及高質量和足夠大的訓練資料集。此外,還需要找到適用的場景。

3. 資料集


問題:在 2D 和 3D 視覺領域,許多新型別的研究往往會遇到沒有合適(足夠)的訓練資料的問題。

方法:


  • 尋找生成或增強訓練資料的新方法,一些是弱監督學習或自監督學習;
  • 將需求放在 Amazon Mechanical Turk 等平臺上。

結論:自 2009 年以來,ImageNet 主導了計算機視覺研究,大部分模型都是在 ImageNet 上訓練的。現在,資料已然成為了先進演算法的瓶頸,研究者不可避免地需要構建更大的通用資料集。此外,資料的質量也很重要,因為低質量的資料可能會嚴重拉低模型的表現,即使模型本身可能已經足夠好了。有監督方法無法滿足資料需求,社群需要找到新的出路。比如,利用不可靠的資料、應用弱監督方法和在環境中主動學習可能是下一波浪潮的可行方向。

4. 弱監督方法。今年有近 30 篇論文談及了弱監督方法。這一趨勢和資料不足問題緊密相關。「弱監督」這個術語是指帶有不完整標籤的影像。標籤在影像中的物體上沒有很好的劃分,比如一個帶有汽車標籤的邊界框沒有圈到汽車,但也未經處理就被輸入了模型。這一趨勢說明靠人力標註資料集是不可行的。


5. 資料與模型的結合。這會是未來的一大趨勢。當前研究中本質的問題是:在特定應用上再也無法為先進的演算法或模型提供足夠的資料。所以很多研究者的研究結果不僅有演算法或架構,還包含了資料集或積累資料的方法。

教程、研討會和挑戰賽

在所有的研討會中,有至少 14 個都是針對某個挑戰賽的。許多企業實驗室和大學研究團隊已經參與到了這些挑戰賽中。除了發表研究論文,這些挑戰賽也已經變成了研究團隊和企業展示自身研究和工程實力的地方。


CVPR 2017 上的挑戰賽


  • ActivityNet 大規模活動識別挑戰賽 2017,連結:http://activity-net.org/challenges/2017/index.html
  • Beyond ImageNet 大規模視覺識別挑戰賽,連結:http://image-net.org/challenges/beyond_ilsvrc
  • 第二屆 NTIRE:影像恢復與增強新趨勢之超解析度研討會和挑戰賽,連結:http://www.vision.ee.ethz.ch/ntire17/
  • 計算機視覺的明暗面:隱私與安全的挑戰和機遇,連結:http://vision.soic.indiana.edu/bright-and-dark-workshop-2017/
  • DAVIS 影片目標分割挑戰賽 2017,連結:http://davischallenge.org/challenge2017.html
  • 視覺問答挑戰賽 2017,連結:http://www.visualqa.org/workshop.html
  • YouTube-8M 大規模影片理解挑戰賽,連結:https://research.google.com/youtube8m/workshop.html
  • 群體場景中對人類的視覺理解與第一屆 Look Into Person (LIP) 挑戰賽,連結:https://vuhcs.github.io/
  • 關於計算機視覺在汽車技術與自動駕駛挑戰賽的聯合研討會,連結:http://cvpr2017.tusimple.ai/portal.html
  • 自然環境中的人臉問題研討會-挑戰賽,連結:https://ibug.doc.ic.ac.uk/resources/first-faces-wild-workshop-challenge/
  • 關於場景理解和 LSUN 挑戰的聯合研討會,連結:http://jointscene.csail.mit.edu/
  • 交通監控研討會和挑戰賽,連結:http://podoce.dinf.usherbrooke.ca/challenge/tswc2017/
  • PASCAL IN DETAIL 研討會挑戰賽,連結:https://sites.google.com/view/pasd
  • 透過從網路資料學習的視覺理解挑戰賽,連結:http://www.vision.ee.ethz.ch/webvision/challenge.html
  • 連線 3D 視覺研討會與 NRSfM 挑戰賽,連結:https://sites.google.com/view/cvpr2017-bridges-nrsfm/home
  • ...


由李飛飛博士發起的 ImageNet 是計算機視覺領域最知名的挑戰賽之一。在 CVPR 2017 期間,李飛飛博士和鄧嘉博士談論了 ImageNet 過去八年取得的成就,並且還宣佈 Kaggle 將會取代 ImageNet,參閱機器之心報導《CVPR 2017 李飛飛總結 8 年 ImageNet 歷史,宣佈挑戰賽最終歸於 Kaggle》。


ImageNet 之後,用於大規模評估計算機視覺演算法的值得關注的挑戰賽是哪個?來自 WebVision(透過從網路資料學習的視覺理解挑戰賽)獲獎團隊碼隆科技的研究員黃偉林博士認為:「WebVision 是最有希望的一個。」

CVPR 2017完全指北:深度學習與計算機視覺融合的一年,未來又會是什麼?

在這個 CVPR 研討會上,李飛飛代表這個比賽的贊助商 Google Research 向 碼隆科技頒發了 WebVision Award。

WebVision 和 ImageNet 的主要區別可以分為兩大部分:

1. 不平衡的類分佈:WebVison 的類分佈取決於查詢,這意味著常見的物體更容易出現,而 ImageNet 的類分佈一直是相似的。

2. 有噪聲的資料:WebVision 的所有影像都來自谷歌和 Flickr 上的查詢,而 ImageNet 的影像都是人工標註的。所以在 WebVision 資料集上訓練時,不完整和錯誤的標籤可能會構成阻礙。

CVPR 2017完全指北:深度學習與計算機視覺融合的一年,未來又會是什麼?

為了解決上面兩個問題,Malong 採用了一種並不新穎,但還很少使用的正規化,稱為課程學習 (Curriculum Learning),這是 Bengio 最早在 ICML 2009 上提出的方法。Curriculum Learning 可以使用複雜度不斷增長的樣本來訓練 CNN。碼隆科技相信這種方法可以極大地提升模型的表現。因為有噪聲的資料可以被過濾並且以一種特定順序輸入該網路(如下圖所示),所以可以實現微調 (fine-tuning)。他們的架構包含一個在後設資料上訓練的基線模型,之後又在這個經過 Curriculum 設計的資料集上進行了訓練。

CVPR 2017完全指北:深度學習與計算機視覺融合的一年,未來又會是什麼?

設計 curriculum 的方法是在每個類上實現 K-means 分類。這樣做之後,帶有錯誤標籤的有噪聲影像會被聚類,其它帶有正確標籤或中間標籤的聚類保留下來,並根據相關性降序排列。只要 curriculum 設計良好,我們就可以看到每個聚類都帶有不同的固有的複雜度,從而可用於進一步的訓練過程。

CVPR 2017完全指北:深度學習與計算機視覺融合的一年,未來又會是什麼?

然後根據 Curriculum Learning 正規化訓練該模型:首先輸入清潔的資料,然後再輸入有噪聲的資料。

最後,比較結果之後,碼隆科技的這個帶有 Curriculum Learning 的架構在 WebVision 挑戰賽獲勝,取得兩項任務的冠軍。

CVPR 2017完全指北:深度學習與計算機視覺融合的一年,未來又會是什麼?

除了挑戰賽,大多數研討會也有受邀演講和小組討論。


今年 CVPR 上最有前途的未來行業方向是自動駕駛。在研討會的第一天,有一個關於計算機視覺在汽車技術與自動駕駛挑戰賽的聯合研討會。上午半場是汽車技術領域的計算機視覺研討會。受邀嘉賓談論了他們的願景並分享了他們在這一領域的經驗。英偉達公司贊助了這個最佳論文獎,獲獎論文為《一百層的提拉米蘇:用於語義分割的全卷積 DenseNet(The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for semantic segmentation)》,作者為:Simon Jegou, MILA;Michal Drodzal, Imagia;David Vazquez, Computer Vision Center;Adriana Romero, MILA;Yoshua Bengio, MILA;論文地址:https://arxiv.org/abs/1611.09326。下午半場是關於「自動駕駛挑戰賽」,包含了 5 個受邀演講和一個小組討論。其中大部分演講都不是純學術驅動的,這也是下午研討會的獨特之處。

我們和一位來自史丹佛大學的博士生 Fisher Yu 聊了聊。他是 CVPR 2017 自動駕駛挑戰賽研討會的組織者之一。據 Fisher 說,組織這樣一個研討會和挑戰賽的目的是搭建產業界和學術界之間的橋樑,因此受邀演講的主題同時覆蓋了這兩者。學術界更專注如何最終解決自動駕駛問題,而產業界則更加實際,致力於透過工程上的努力來解決一些具體問題。這個挑戰賽研討會既邀請到了著名的計算機視覺研究者和創業公司產業領袖:來自約翰·霍普金斯大學的 Alan Yuille 教授,他為視覺問題的解決做出了巨大的貢獻;KITTI 的負責人 Andreas Geiger,他是研究定義自動駕駛問題、設定對應資料集和基準的早期視覺研究者之一;也請到了有很強學術背景的產業界實踐者,比如圖森互聯的侯曉迪(Xiaodi Hou)博士、AutoX 的肖健雄(Jianxiong Xiao)博士、Pony AI 的 James Peng 和 Apex.AI 的 Jan Becker 博士。Alan Yuille 和 Andreas Geiger 都很關注如何使用模擬資料做研究以及如何更好地研究和分析 3D 資料。據該挑戰賽的主辦方圖森未來的 CTO 侯曉迪博士介紹,這個挑戰賽側重於車道檢測和速度估計,以填補基準缺失的空白。

作為 Berkely Deep Drive 的成員之一,Fisher Yu 在他的演講展示中介紹了伯克利的 DeepDrive 專案。BDD 專案組已經開發出了 Berkely Deep Drive Data(BDDD,連結:https://deepdrive.berkeley.edu ),提供了數十萬小時的駕駛資料。其中大多數資料都來自相機、GPS 和 IMU 等移動裝置。BDDD 具有例項級的語義分割特徵,並且得到了良好的標註。BDDD 團隊還開發了一種端到端的駕駛策略,相關論文也出現在了今年的 CVPR(End-to-end Learning of Driving Models from Large-scale Video Datasets, https://arxiv.org/abs/1612.01079)。他們同時也對如何用更小的模型來提升效率進行了研究。巨量資料需要更加高效的模型——規模更小且執行和推理的時間更短。

參與展覽會的產業公司

今年,CVPR 共有 127 家贊助商。一般來說當會議在夏威夷舉辦時,贊助商總數會下降。但今年的情況不是這樣,反而比起 CVPR 2016 還多了 30% 的贊助商。當被問及為何參展時,大多數公司都回答說為了招聘,也有少數回答說是為了營銷。

CVPR 2017完全指北:深度學習與計算機視覺融合的一年,未來又會是什麼?

相關文章