CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽

機器之心發表於2018-06-20

機器之心原創,作者:Tony Peng。

美國時間 6 月 18 日,為期五天的計算機視覺(CV)三大頂級會議之一的 CVPR 2018 在美國猶他州首府城市鹽湖城(Salt Lake City)拉開序幕。雖然不是大會的第一個正式日,但當日的 26 個研討會(Workshop)以及 11 個挑戰賽也足夠讓現場的數千名參會者飽足眼福。

機器之心現場記者挑選並總結了幾個值得關注的研討會內容,於第一時間和讀者分享。

前伯克利 CS 系主任 Jitendra Malik:研究 SLAM 需要結合幾何和語義

在今年的 CVPR 上,首屆 SLAM(即時定位與地圖構建) 與深度學習的國際研討會受到了極大的關注,這也得益於 SLAM 技術在自主機器人和自動駕駛領域中日益重要的地位。

第一場演講的主講人是計算機視覺(CV)領域的宗師級大牛、加州大學伯克利分校前電腦科學系主任 Jitendra Malik。去年年末,Malik 加入了 Facebook 的人工智慧研究院(FAIR)。

Malik 首先簡述了過去幾十年在目標識別、定位和 3D 重建的研究發展程式——從以 DPM(Deformable Parts Model) 為代表的傳統演算法開始,隨後介紹了 2015 年前後開始流行的影像分割重要演算法 Fast R-CNN,以及其進一步衍生出的 Mask R-CNN,最後到目前最新的有關 3D 物體形狀的研究。

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽

隨後,Malik 推薦介紹了三篇他所參與的、分別被 NIPS 2017 以及近兩年的 CVPR 所接收的論文,都是有關基於二維影像重建三維結構:

  • Factoring Shape, Pose, and Layout from the 2D Image of a 3D Scene,本文的目的是獲取場景的單個 2D 影像,並根據一組小的因素恢復 3D 結構:一個表示封閉表面的佈局以及一組以形狀和姿態表示的物件。論文提出了一種基於卷積神經網路的方法來預測這種表示,並在室內場景的大資料集上對其進行基準測試。
  • Learning Category-Specific Mesh Reconstruction from Image Collections:本文提出了一個學習框架,用於從單個影像中重建真實世界物體的三個方面:3D 形狀、Camera 和紋理(Texture)。該形狀被表示為物件類別的可變形 3D 網格模型。該論文允許利用註釋影像集合進行訓練,而不依賴於地面真實 3D 或多檢視監督。
  • Learning a Multi-View Stereo Machine:本文提出了一個多視點立體視覺學習系統。並採用了一種端到端的學習系統,使得比經典方法所需少得多的影像 (甚至單個影像) 重建以及完成不可見表面成為可能。

最後,Malik 提到了在 SLAM 領域一些新進展。在他看來,傳統的繪圖和規劃方法十分低效,因為它需要重建整個區域內的結構,這並不是人類所採用的方法。同時,傳統的 SLAM 技術只關注幾何結構(geometry)的註釋卻忽視了語義(semantics),比如人類在看到一個帶著「出口」的門時,他自然而然地就會理解為「從這兒走可以出去」,但機器沒有這個概念。

「研究 SLAM 需要從語義和幾何結構兩個角度同時出發,」Malik 說道。隨後他介紹了史丹佛大學研究的資料集——Stanford Large-Scale 3D Indoor Spaces Dataset (S3DIS),出自CVPR 2016年的一篇論文。該論文提出了一種分層方法對整個建築物的三維點雲進行語義分析。論文強調,室內空間結構元素的識別本質上是一個檢測問題,而不是常用的分割。論文作者們在S3DIS這個資料集上驗證了他們的方法,該資料集覆蓋面積超過6,000平方米的建築,並且涵蓋了超過2.15億個點。

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽


Malik & R-CNN 奠基人 Ross Girshick:視訊問答系統需要更好的資料集

依舊是 Malik,他在主題為「視覺問答 (Visual Question Anwersing,簡稱 VQA) 和對話系統」的研討會上強調了視覺問答系統對目前人工智慧研究的重要性,以及它目前存在的挑戰。

VQA 是目前視覺和語言的一個重要的交叉學科領域。系統根據圖片上的資訊,回答來自提問者的任何問題。在此基礎上,視覺對話系統(在去年的 CVPR 上被提出)則要求機器可以回答後續問題,比如「輪椅中有多少人?」「他們的性別是什麼?」

為什麼語言對於視覺理解(visual understanding)這麼重要?一篇題為「語言有助於分類」的研究論文表明,對嬰兒來說,語言在獲取物件類概念的過程中發揮著非常重要的作用,文字可以作為一種本質佔位符,它能幫助嬰兒更快地建立對不同物件的認識和表示。

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽

但是,Malik 認為解決 VQA 很難,遠比物體識別困難的多。系統可以通過物體識別或者獲取圖片上的一些基本資訊,也有不少此類的標註資料集,但是沒有資料集是能夠標註圖片中的人類行為、目標、動作和事件等元素,而這些元素恰恰是視覺理解的關鍵。

另一位值得一提的演講嘉賓是 FAIR 的高階研究員、同樣也是提出 R-CNN 和 Fast R-CNN 的學術大牛 Ross Girshick。他在演講中提出了目前在 VQA 存在的問題:答案矛盾。

舉一個例子:CloudCV: Visual Question Answering (VQA) 是一個雲端的視覺問答系統,給出一張圖,使用者可以隨意提出問題,系統會給出不同答案的準確率。當一些精明的使用者提出不同的問題來「調戲」這個系統時,他們發現這個系統有時會對截然不同的問題作出相同的答案。

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽
之心記者一臉懵逼

一般的視覺問答資料集裡都含有這麼三個元素——一張圖片,對應的問題和對應的答案,即為(I, Q, A)。Girshick 認為,測量一個 VQA 的準確性不應該是檢查孤立的(I, Q, A),而是應該考量結構化的資料集合,即在同一張圖片下,每一個問題 Q 都意味著另一個答案 A 的值。

「建立這樣的資料集毫無疑問是相當的困難的,但我們需要資料集對演算法和模型的要求更高一些,」Girshick 說。

一個小插曲:Malik 今天講了一個段子:「一位警察駕著警車沿街巡邏。他發現路燈下有黑影晃動,看起來像是個醉鬼,於是警察上前盤問:『請問你在這兒幹嘛?』『我在找鑰匙,剛剛開門時不小心掉了。』『你把鑰匙掉在路燈下了?』『不是,鑰匙掉在門口旁的樹叢裡!』『那你為什麼在路燈下面找呢?』『因為這裡光線比較亮啊!』」

雖是老梗,Malik 卻認為這個故事和如今的科學研究頗為相似。近年來大量標註資料、強大的算力以及大規模模擬環境給當前的監督學習提供了很好的研究環境,這就如同那個路燈下,快速地提升研究成果,但這或許不是通往強人工智慧的正確道路。


吳恩達高徒 Honglak Lee: 視訊預測和無監督學習

在 CV 領域,深度學習在視訊分析領域,包括動作識別和檢測、運動分析和跟蹤、淺層架構等問題上,還存在許多挑戰。在今年的 CVPR 上,主題為「視訊理解的大膽新理念」的研討會將來自視訊分析領域的研究人員聚集在一起,討論各種挑戰、評估指標、以及基準。

研討會邀請到了密歇根教授、谷歌大腦研究員 Honglak Lee,他也是吳恩達在史丹佛大學的高徒。

Lee 帶來的是有關視訊(動作)預測和無監督學習方面的研究。

Lee 介紹說,目前研究視訊分析的一個關鍵挑戰是將產生影像的許多變異因素分開,場景方面包括姿勢、形狀、照明,視訊方面則是後景和前景物件的區分,以及畫面中不同物體的互動。他的研究方向是在視訊上進行復雜的推理,比如預測未來並對其採取行動。

Lee 主要介紹了他最新的一篇被 ICML 18 接收的論文:Hierarchical Long-term Video Prediction without Supervision。該論文旨在提供一種用於解決長期視訊預測的訓練方法,無需高階監督就可以訓練編碼器、預測器和解碼器。通過在特徵空間中使用對抗性損失來訓練預測變數來做進一步改進。Lee 研究的方法可以預測視訊未來約 20 秒,並在 Human 3.6M 資料集上提供更好的結果。

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽


自動駕駛座談會:挑戰,機遇,安全

本屆 CVPR 的自動駕駛研討會算得上是陣容強大:Tesla 的人工智慧主管 Andrej Karpathy、Uber 自動駕駛主管、也是多倫多大學 CV 領域的權威 Raquel Urtasun、伯克利自動駕駛產業聯盟的聯合創始人 Kurt Keutzer 等。

儘管他們各自的演講並不甚出彩,主要就是給自家公司「打廣告」,但在當天最後的座談會上,受邀的八位嘉賓(Karpathy 除外)之間卻迸發出了難得一見的精彩辯論。

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽

這也難怪,自動駕駛領域和 CVPR 絕大多數的研討會主題都不同。視覺理解也好,SLAM 也罷,它們並不太牽涉到生與死的問題。但在自動駕駛領域,研究者們的一舉一動和數以億計的人們的身家性命息息相關,這讓話題內容的高度和意義往往被拔高。同時,各家對自動駕駛的理解也都不太一樣,各執己見下所引發的爭辯反倒是給底下的觀眾提供了更多的思考。

長達一個小時的座談會上,機器之心記者總結了其中三個比較重要的議題:


什麼是自動駕駛最大的挑戰?

Lyft 的工程副總裁 Luc Vincent 認為計算(compute)還沒有準備好,同時社會對自動駕駛的接納程度還不夠高。

伯克利的 Keutzer 教授認為是感知(perception), 這個觀點得到了 Urtasun 的支援,不過兩人在隨後的問題上產生了意見分歧:Urtasun 認為解決了感知,規劃(planning)也就不成問題了。Keutzer 卻認為,這兩者是兩回事兒,即使感知的問題解決了,還是無法解決在特定場景上出現的規劃上的困境。

同樣是伯克利的博士後研究員 Bo Li 認為自動駕駛領域依然存在許多未收集到的角落場景(corner case),這會引發一些安全隱患。


如果你是一名 CV 的博士生想要做自動駕駛的研究,你應該做什麼?

「做地圖!」Urtasun 搶先說道,她認為目前在高精度地圖上,業內沒有衡量的標準以及可靠的解決方案,技術上難度也比較大。

結果,Urtasun 的回答馬上遭到了幾位同行的駁斥。「千萬不要做(地圖)!」密歇根大學副教授、May Mobility 的 CEO Edwin Olson 趕緊搶過話來。「我們正在處於一個在自動駕駛領域中非常愚蠢的時間點——對地圖有著過分的依賴。我認為地圖的短板也非常明顯,而且最終我們會慢慢地減少對地圖的依賴。」

其他人也都表達了類似的觀點:「演算法上去了,你自然不那麼需要地圖。」「未來製作高精地圖的技術也會越來越可靠,需要標記地圖資料的人力也會逐步降低。」


未來將如何衡量不同自動駕駛車輛安全性?

這是一個讓不少現場嘉賓卡殼的問題,業界似乎也沒有一個統一的衡量標準。Olson 倒是提出了很有新意的觀點:「車險」,從車險的高低或許能看出公司對安全性的信心到底有多少。

隨後,Bo Li 提出,未來或許可以通過建模,將自動駕駛後臺系統的程式碼輸進去做基準評估。不過,加州自動駕駛公司 Nuro.ai 的高階工程師 Will Maddern 告訴機器之心記者,這個想法短期內還很難實現,他認為比較可行的方法是讓不同的車輛在同一環境裡跑來做一些比較。


挑戰賽結果出爐:中國軍團的進擊

除了研討會上的嘉賓演講外,大會首日的另一大亮點則是挑戰賽。據機器之心記者瞭解到,中國學者們在挑戰賽上有著很出色的發揮,以下是目前獲悉的比賽結果(不完全):


DeepGlobe 衛星影像理解挑戰賽

DeepGlobe 衛星影像理解挑戰由 Facebook、Uber、IEEE 下的 GRSS 機構等聯合贊助。衛星影像是一個強大的資訊來源,因為它包含更多結構化和統一的資料。雖然計算機視覺社群已經開發出許多日常影像資料集,但衛星影像最近才引起人們對地圖和人口分析的關注。

因此,組織者提出了該項挑戰賽,圍繞三種不同的衛星影像理解任務進行構建,分別是道路提取、建築檢測,和土地覆蓋分類。本次比賽建立和釋出的資料集可作為未來衛星影像分析研究的參考基準。

最終,來自北京郵電大學的 Lichen Zhou 團隊在道路提取任務上獲得第一,而來自哈爾濱工業大學和 Chao Tian 團隊則贏得了土地覆蓋分類任務的第一名。

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽

連結:deepglobe.org/workshop.ht…


Look Into Person (LIP) 挑戰賽

Look Into Person(LIP)挑戰賽由中山大學和卡內基梅隆大學聯合舉辦。該挑戰賽旨在提高計算機視覺在野外場景中的應用,比如人類解析和姿態估計問題。該挑戰賽一共有 5 個 track,來自京東人工智慧研究院的 Wu Liu 團隊獲得了其中單人和多人姿態估計任務的第一名。

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽

連結:sysu-hcp.net/lip/pose_lb…


影像壓縮挑戰賽(CLIC)

CHALLENGE ON LEARNED IMAGE COMPRESSION 挑戰賽由 Google、Twitter、Amazon 等公司聯合贊助,是第一個由計算機視覺領域的會議發起的影像壓縮挑戰賽,旨在將神經網路、深度學習等一些新的方式引入到影像壓縮領域。

據大會官方介紹,此次挑戰賽分別從 PSNR 和主觀評價兩個方面去評估參賽團隊的表現。不久之前,比賽結果公佈:在不同基準下,來自國內創業公司圖鴨科技的團隊 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上獲得第一名,騰訊音視訊實驗室和武漢大學陳震中教授聯合團隊 iipTiramisu 在 PSNR(Peak Signal-to-Noise Ratio,峰值訊雜比)指標上佔據領先優勢,位列第一。

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽

比賽結果:www.compression.cc/results/


Moments in Time 視訊行為理解挑戰賽

Moment 是由 MIT-IBM Watson AI Lab 開發的研究專案。該專案致力於構建超大規模資料集來幫助 AI 系統識別和理解視訊中的動作和事件。如今,該資料集已包含了一百萬部標記的 3 秒視訊,涉及人物、動物、物體或自然現象,捕捉了動態場景的要點。

此挑戰賽分為 Full Track 和 Mini Track,比賽的前三名均為中國團隊所得:

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽

比賽結果:moments.csail.mit.edu/results2018…

在 Full Track 類別中,來自海康威視的 DEEP-HRI 獲得了第一名,曠視科技第二,七牛雲團隊第三名。在 Mini Track 中,來自中山大學的 SYSU_isee 團隊獲得第一名,北航與臺灣大學的團隊分別是二三名。

在大會第一天,機器之心觀察、記錄到了以上內容,但這些並不能代表全部精彩內容。接下來幾天,我們將會繼續為大家報導 CVPR 2018 大會,讀者中有參與大會的同學也可以為我們投稿,從而把更多精彩內容分享給大家。

CVPR 2018第一天:精彩的Workshop與被中國團隊進擊的挑戰賽



相關文章