華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

機器之心發表於2019-06-19
剛剛,CVPR 2019 頒發了今年的所有獎項。來自 CMU 的辛書冕等人獲得了最佳論文獎,而最佳學生論文獎被 UCSB 王鑫等人獲得。李飛飛、李佳等人因 ImageNet 的貢獻獲得最具影響力論文獎。

作為計算機視覺領域內最負盛名的學術會議,今年的 CVPR 已於當地時間 6 月 16 日在美國加州長灘開幕。

與很多討論 AI 技術的會議相同,CVPR 如同往屆一樣異常火熱,吸引了大量來自學術界、產業界的研究員、開發者以及非技術人員的參與,以至於今年大會官方不得不「因註冊人數太多」而提前截止了註冊,並取消現場註冊。

當然,這並沒有難倒我們,機器之心的小編還是成功註冊了這一盛會,為大家帶來最及時、全面的報導。

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

大會主席之一朱鬆純教授開場

朱鬆純教授介紹,今年大會共有 9227 人註冊參會,突破歷屆記錄,其中來自國內的參會人數達到 1044 位,僅次於大會舉辦地美國(4743 位)。

在論文方面,CVPR 作為計算機視覺領域的頂級學術會議,今年論文提交與接收數量也突破記錄:來自全球 14,104 位作者提交了 5160 篇論文(這個數字比 CVPR 2018 增加 56%),最終接收了 1294 篇,接收率約為 25%。

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

照這個增長速度預計,在 CVPR 2028 年就會有 108 億篇投稿了?

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

和去年一樣,CVPR 2019 投稿論文作者中來自中國的最多,佔 39%。

在介紹完資料情況之後,就進入了今天的重頭戲:獲獎論文。

最佳論文

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

今年的最佳論文由卡耐基梅隆大學、倫敦大學學院、多倫多大學獲得,論文一作辛書冕是卡耐基梅隆大學機器人研究院的博士二年級學生,主要研究方向是計算機視覺和計算機圖形學,師從 Srinivasa Narasimhan 和 Ioannis Gkioulekas 教授。

辛書冕本科就讀於西安交大,畢業後赴美讀書,並於 2016 年 12 月在 CMU 獲得電子與計算機工程碩士學位。

最佳論文解決了什麼問題?

據獲獎詞所言,這篇最佳論文對於非視距(non-line-of-sight/NLOS)重建作出了重大貢獻,特別是為智慧體賦予了看到角落的能力。

那麼什麼是非視距問題呢?就是我們不再假設攝像頭能直接看到某些場景,很多光子會因為散射或反射等情況朝著與鏡頭相反的方向前進。

而這些光子又會因為不可見場景的反射,重新回到鏡頭前,它們會帶有不可見場景的各種資訊。

這些不可見場景返回的資訊對於重建該場景非常重要。例如圖 1 顯示了一個硬幣浮雕的微米級估計,該硬幣可以從拐角處看到,也可以通過厚紙(漫射器)看到。

例如在 a 圖中,本來紅色的 detector 是觀察不到隱藏的硬幣的,它只能直接觀察到可見的表面。但是有一些光子會因為漫射而觀察到硬幣,並反回 detector,從而能獲取隱藏目標的資訊。

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

圖 1:非視距成像。研究人員考慮了一些重建物體表面的情況:a)處於感測器的視野之外;b)被漫射器遮擋。在 c)中,研究人員對比了他們的重建結果,和對物體進行深度掃描的真實結果。

值得一提的是,機器之心昨天釋出的一篇論文也與非視距成像有關,但是那項研究使用的是聲學系統,即利用聲波「看到」牆角後面的物體。

與光學成像相比,該聲學系統的硬體系統沒有那麼昂貴,但重建影像所用的時間較短,距離卻比光學方法高出 2 倍。有興趣的讀者可以對比一下兩篇論文。(參見:誰說偷窺一定要趴牆頭?這個系統可用聲波「看見」牆後物體

  • 論文:A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

  • 論文連結:http://imaging.cs.cmu.edu/fermat_paths/assets/cvpr2019.pdf

摘要:研究者提出了一種新的光費馬路徑(Fermat path)理論,該光在已知的可見場景和不處於瞬態攝像機視線範圍內的未知物體之間。這些光的路徑要麼從鏡面反射,要麼被物體的邊界反射,因此編碼了隱藏物體的形狀。

研究者證明,費馬路徑對應於瞬態測量中的不連續性。然後他們推匯出一個新的約束,該約束將這些不連續處路徑長度的空間導數與曲面法線聯絡起來。

基於該理論,研究者提出了一個名為 Fermat Flow 的演算法,來估計非視距物體的形狀。該方法首次精確恢復複雜物體的形狀,從漫反射到鏡面反射,這些物體隱藏在角落裡,也隱藏在漫射器後面。

最後,該方法與瞬態成像使用的特定技術無關。因此,研究者用 SPAD 和超快鐳射展示了從微微秒尺度瞬態實現毫米尺度的形狀恢復,以及使用干涉法實現從飛秒尺度瞬態到微米尺度的重建。

最佳學生論文

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

今年的 CVPR 最佳學生論文是加州大學聖巴巴拉分校(UCSB)王威廉組(William Yang Wang)與微軟研究院的合作文章《Reinforced Cross-Modal Matching & Self-Supervised Imitation Learning for Vision-Language Navigation》,第一作者王鑫。

本文是 CVPR 滿分文章(3 個 Strong Accept),在 5160 篇投稿文章中審稿得分排名第一,在獲獎之前被程式委員會和領域主席評審團確定為 CVPR 2019 口頭報告論文。

在這一研究中,作者在視覺語言導航任務上提出了一種新的方法以探索未知的環境。值得一提的是,王威廉組主攻自然語言處理,這是一次跨方向研究的成功典範。

最佳學生論文講了什麼?

「向右轉,到達廚房後再左轉,轉過桌子進入走廊……」使用新技術後的機器人可以根據這樣的路線指令行事了,就像人類一樣。

這篇論文主要解決的是視覺-語言導航(VLN)問題,即研究如何通過自然語言告訴智慧體該怎麼運動,智慧體需要像問路者那樣根據自然語言導航至目的地。

因為自然語言是完整路徑的指導,而智慧體只能觀察到當前區域性視野,因此重要的是智慧體需要知道當前區域性視覺對應著語言指導的哪一步。

為了解決視覺-語言導航中出現的各種問題,這篇論文提出結合強化學習(RL)和模仿學習(IL)的解決方案。

如下圖 1 所示為 VLN 任務的示例,左側的 Instruction 是用於指導智慧體該怎麼走的自然語言,除了接收指令外,智慧體只能看到 Local visual 所示的區域性影像視野。

因為智慧體並不能獲取全域性軌跡的俯檢視,所以它只能將自然語言指令「想象」成全域性的視覺軌跡,然後再根據區域性視野一點點探索並導航至目標。

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

圖 1:VLN 任務演示。圖中展示了指令、區域性視覺場景和俯檢視的全域性軌跡,智慧體並不能獲取俯檢視資訊。路徑 A 是遵照指令的演示路徑,路徑 B 和 C 是智慧體執行的兩個不同路徑。

在這篇論文中,作者主要通過增強型跨模態匹配(RCM)和自監督模仿學習(SIL)處理 VLN 任務。

其中 RCM 會決定當前智慧體應該關注自然語言中的哪一個子指令,以及區域性視野哪個畫面與之相對。

同時 RCM 還會評估已走的路徑到底和自然語言指令相不相匹配。而 SIL 主要是探索未見過的環境,從而模仿過去的優良經驗而走向目的地。

經典論文:PAMI Longuet-Higgins 獎

Longuet-Higgins 獎是 IEEE 計算機協會模式分析與機器智慧(PAMI)技術委員會在每年的 CVPR 頒發的「計算機視覺基礎貢獻獎」,表彰十年前對計算機視覺研究產生了重大影響的 CVPR 論文。該獎項以理論化學家和認知科學家 H. Christopher Longuet-Higgins 命名。

今年的 Longuet-Higgins 獎由 Jia Deng、Wei Dong、Richard Socher、李佳、Kai Li 和李飛飛於 2009 年發表在 CVPR 大會的論文《ImageNet: A Large-Scale Hierarchical Image Database》摘得。

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

如今,ImageNet 是每個人工智慧從業者都耳熟能詳的名詞。這篇論文可以說開啟了一個時代,它在 Google Scholar 上的引用量高達 11508 次。不過 ImageNet 論文在 CVPR 2009 被大會收錄時還僅僅是一篇「普通」的 Poster 論文。這篇論文誕生的第二年,計算機視覺領域盛大賽事 ImageNet 挑戰賽拉開序幕,ImageNet 成為計算機視覺識別領域的標杆,並促進該領域取得巨大突破。

此外,它還催生了深度學習的大發展。著名的卷積神經網路 AlexNet 在奪得了 2012 年 ImageNet LSVRC 冠軍,且準確率遠超第二名,引起了巨大轟動。之後,沉寂許久的神經網路重煥生機,取得了長足進步。

在頒獎儀式後,機器之心對李飛飛、李佳、鄧嘉進行了簡單的採訪。談到此次獲獎,李飛飛認為,「做研究要做長遠的有影響的,不要只看眼前的潮流,大家還是致力於做踏踏實實有影響力的研究。」

回顧過去 10 年 ImageNet 的發展,李佳表示,「09 年的時候,參加 CVPR 的人沒有像現在這麼多。我們挺想讓更多人知道 ImageNet 的,我們還做了 ImageNet 的筆,到處去宣傳去推廣。鄧嘉在這上面花了非常多的時間,最早的時候我們在想怎麼用自動化的方法去網頁上收集所有的影像,包括我在 07 年的時候有一篇論文叫《OPTIMOL: A Framework for Online Picture Collection via Incremental Model Learning》,我們以前假設用 OPTIMOL 演算法就可以來構建包含整個 web 上面影像的資料庫。飛飛也非常有遠見,想和史丹佛的語言學家合作構建這樣的 web size 影像資料庫,最後演算法還是被人類打敗了哈哈。很多工作是通過 mechanical turk 平臺做得。我們實驗室的一位同事和我們講,mechanical turk 是一個非常強大的工具,可以吸引很多人通過眾包的方式來構建這個 web-based 知識相簿。鄧嘉一直專注於研究計算機視覺和機器學習和系統,最後才有 ImageNet。」

鄧嘉告訴機器之心,「這個專案很說明一件事情,當時做 ImageNet 不是最主流的工作,但是我們所有做此專案的人都相信它會有很大的影響,所以我們就花了很大力氣做這個事情。確實,它給我自己的一個啟示是,你不一定要做最流行的事情,但要做自己相信會有影響的事情。」

李佳補充說,「當時主流思想不是這方面工作,當時大家主要做理論的、手動編碼的機器學習,用數學的方法去解決通用難題。其實很多髒活苦活需要做,鄧嘉的堅持我們都有目共睹。」

談到這個歷程中最大的困難,鄧嘉說,「現在看來該怎麼做很清楚,但當時想做一個資料集需要做很多決定——到底應該從什麼來源收集資料?資料應該是什麼樣的?你需要什麼標籤?整個過程有很多決策需要做。現在看來,這些問題的答案都是很顯然的,每一步你都是對的,但實際上不是這樣,我們很多決定都是經過許多反覆,最後才達成了我們想要的效果,這個中間其實有很多思考的。」

「當時我們經過了很多思考,我們無法預測你做了這個以後,社群會怎麼利用它,具體會在什麼問題上產生巨大影響……但是,這件事情在當時看來顯然是必須要做的。」

「因為資料本身還是要解決某些問題,我們其實是在做一個問題,計算機視覺領域和其他一些領域之間的差別就是我們需要去解決根本問題。不管是建立資料庫還是演算法,最終都是為了解決問題。所以開始的時候我們有想要解決的問題,想要得到這個領域的認同則是之後的事情了。」李佳表示。

最佳論文榮譽提名

獲得最佳論文榮譽提名的論文有兩篇,分別是:

  • A Style-Based Generator Architecture for Generative Adversarial Networks

  • 作者:Tero Karras、Samuli Laine、Timo Aila

  • 論文連結:https://arxiv.org/abs/1812.04948


  • 論文:Learning the Depths of Moving People by Watching Frozen People

  • 作者:Zhengqi Li、Tali Dekel、Forrester Cole、Richard Tucker、Ce Liu、Bill Freeman、Noah Snavely

  • 論文連結:https://arxiv.org/abs/1904.11111

計算機先驅獎(Computer Pioneer Award)

計算機先驅獎於 1981 年由 IEEE 計算機協會設立,用於表彰至少在十五年以前對計算機領域發展做出突出貢獻的個人。

今年獲得計算機先驅獎的是 Jitendra Malik,是加州大學伯克利分校電氣工程和電腦科學專業的一位教授。他同時也是生物工程專業的一位教授。

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

Malik 教授的主要研究領域是計算機視覺,特別是在人類視覺、計算機圖形學和生物影像分析方面有很多突出成果。

一些知名的理論和演算法出自 Malik 教授和他領導團隊的研究,包括各向異性擴散(anisotropic diffusion)、歸一化分割(normalzied cut)、高動態範圍成像(high dynamic range imaging)等。

根據 Google Scholar 的資料,Malik 教授有 6 篇論文平均被引用超過千次。

論文新工具與 310 萬美元贊助

比較有趣的是,CVPR 官網釋出了一個互動式資料視覺化的工具,讓我們能夠通過主題或者機構查閱論文,以及檢視這些論文相關日程。

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

從上圖中我們可以看出,深度學習、識別、人體姿態等是今年大會最為熱門的技術主題,收到了大量的論文。通過這個工具,使用者可以檢視自己感興趣主題的論文。

此外,使用者還可以從機構入手檢視論文。例如,搜尋「Baidu」、「Kwai」(快手)這些關鍵詞,就能夠查到這兩家公司的論文資訊,包括論文主題、論文標題、大會上的日程安排。

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

百度的論文資訊。

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

快手的論文資訊

在小編看來,隨著論文接收數量越來越多,學術會議提供這樣的工具能為社群提供極大的便利。下一屆我們就需要有關大會論文的資料集了。

最後,本屆 CVPR 也收穫了共計 310 萬美元的贊助,共有 284 家贊助商、104 家展商。眾多贊助商包括曠視、商湯、百度、華為、快手和大疆等國內科技公司。

華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典

計算機視覺頂會自然少不了科技公司的參與,在本次大會開幕前不久,IEEE「限制華為審稿」事件引發了學界震動,同屬 IEEE 旗下的 CVPR 是否會受影響也曾是人們討論的話題。

不過,PAMI TC 主席 Bryan Morse,CVPR 2019 大會主席 Larry Davis、Philip Torr 與朱鬆純聯名釋出了一份宣告,歡迎包括華為員工在內的所有學界、業界人士前來參會,收穫了人們的廣泛好評。

相關文章