CVPR 2018現場見聞

PaperWeekly發表於2018-07-07

關於作者:萬緯韜,本科畢業於清華大學電子工程系,現於清華大學資訊認知與智慧系統研究所攻讀博士二年級,主要研究方向包括基於深度學習的人臉檢測與識別,對抗樣本,影像語義分割。

計算機視覺頂級會議 CVPR 於 2018 年於 6 月 18 日在美國鹽湖城召開。一年一度的 CVPR 收錄了來自全球學者的最新研究,這裡不僅是學術界交流的盛會,還是產業界展示成果的平臺。隨著演算法與硬體的飛速發展,計算機視覺、人工智慧等技術在我們的生產和生活中的應用越來越普及,與此同時,CVPR 會議本身也在不斷地發展和變化。

CVPR 如同一個風向標,向我們展示了在最近一年裡該領域的關注熱點和最優秀的成果。筆者全程參與了本屆 CVPR 會議,在這裡與大家分享本屆會議的特點、最新的研究熱點和該領域相關企業的動向。

會議規模顯著擴大

今年 CVPR 的論文投遞數逾 3359 篇,相比去年增長約 25%。而論文接收率幾乎不變(約 29%),最終被接收的論文多達 979 篇。從如此大量的論文中挑選出符合 CVPR 品質的論文絕非易事,會議組織了 2385 名來自世界各地的優秀審稿人進行評審。同時,參會人數多達 6500 餘人,比去年增長約 30%。

因此,正如會議的 general chair,Michael Brown 教授所說,參會者不可能在 5 天的時間裡顧全所有的事情,你必須做出取捨,這樣才能充分的利用時間。的確如此,在主會議期間,每天都會並行地開展 3 場 oral/spotlight 報告,參會者需要提前瞭解並從中選擇自己最感興趣的話題來聽。

CVPR 2018現場見聞

CVPR 2018現場見聞

▲ 圖說:CVPR的參會人數和投稿數都出現了大幅增長

除了論文數量明顯增長,今年贊助商的數量和贊助金額也明顯增長。會議擁有來自全世界的 149 家贊助商,共接收贊助/展示費用達 200 萬美元。可以看到,產業界對 CVPR 這一學術會議顯示出了極大的興趣,這也從側面反映了計算機視覺、人工智慧等方面的研究在實際場景中有巨大應用價值。贊助商除了在會場以豐富的形式展示各自的產品和研究成果以外,還提供了大量的招聘和實習崗位,希望吸引來自該領域的精英加入他們。一部分參會者就是衝著這些名企的招聘來,對他們來說這裡也相當於是一場招聘會。

值得注意的是,無論是論文發表還是贊助商方面,華人都貢獻了巨大的力量。在已接收的論文中,華人作者所佔比重相當可觀。在 9 家鑽石贊助商中,中國企業就有 3 家;在 20 家鉑金贊助商中,中國企業佔到 9 家。一個最直觀的感受是,在會議現場,中國人面孔非常普遍。在參加 poster 展覽時,常常一篇 poster 面前全是中國學者,這個時候作者也許會索性用中文給大家講解。參會的人面前都掛著自己的名牌,上面寫有姓名和學校/單位,會議現場常常有人看了一眼筆者的名牌,然後就開始用中文打招呼。在這種氛圍下,雖然身處美國,也有一種賓至如歸的感覺

企業參與度極高

相關領域的企業透過多種方式深度參與了本次會議。

首先,在主會期間,大量贊助商在會場展示區透過多種形式展示了各自的研究和應用。有以影片 Demo 形式展示的,比如位元組跳動(ByteDance),他們以世界盃比賽影片為例展示了基於計算機視覺的足球比賽理解技術。該技術能夠對球員和足球進行實時的追蹤和分割,並且能自動生成鳥瞰圖。目前正值俄羅斯世界盃期間,這樣的展示很容易吸引參觀者圍觀。公司旗下的短影片應用非常火爆,他們也展示了對於短影片中多人物的實時姿態檢測,以及基於這些技術的有趣應用,比如抖音尬舞機,讓人印象深刻

CVPR 2018現場見聞

▲ 位元組跳動的系統可以基於計算機視覺,理解足球比賽技術

現場還有以影片或實體模型形式來展示的公司,比如 Momenta、圖森科技、AURORA 等。京東展示了倉庫巡邏機器人等無人倉庫場景下的智慧產品。還有以使用者互動形式來展示的公司,比如商湯科技允許使用者坐在模擬駕駛位,展示其對司機駕駛狀態、目光注意力以及司機手勢的識別能力;Adobe 則允許使用者在觸控板上畫出一個人像,然後演算法會對其自動上色。會場中,各個企業展示了涵蓋智慧監控、自動駕駛、無人商店和智慧理療等多個重要領域的 AI 應用,顯示出 AI 落地的廣闊前景。

除了在主會展示,各大企業都在不同場所分別組織了 party,邀請 CVPR 的參會者參與。筆者參與了商湯、位元組跳動(旗下有今日頭條和抖音等產品)和 Momenta 的聚會。在活動中,企業詳細介紹了自己的企業文化、主要產品和研究方向,以及未來的發展規劃以位元組跳動為例,作為國內發展勢頭迅猛的 AI 企業,它已經開始了全球佈局,例如在包括美國矽谷在內的全球各地設立 AI 實驗室,從而招募更多的行業精英。以資料探勘、內容推薦為驅動的今日頭條吸引了大量使用者。基於影片理解技術,它在短影片、影片直播等應用上也推出了極具創新的應用,助使其打造 AI+ 娛樂應用新模式。在宴會期間,筆者與同一桌的參會者進行了交流。他們都是來自中國的在讀博士,除了一位來自英國帝國理工大學,一位來自同濟大學,其餘都來自美國的各個不同大學

值得注意的是,企業同時也是 CVPR 會議中重要的論文發表者。據統計,論文發表數名列前茅的是,谷歌發表 45 篇,商湯科技發表 44 篇,Facebook 發表 35 篇,騰訊 AILab 發表 21 篇。可以看到,相關 AI 企業展示出越來越強大的科研實力和科研熱情。產業界在實際應用中會第一時間發現問題、提出問題並迅速尋找解決方案。透過學術論文的發表,產業界與學術界共同分享新的思路和想法,這對學術的發展起到了很好的推動作用。如今,產業界和學術界的聯絡越來越緊密,在 AI 領域,真正做到了高效的產學研結合,這對整個 AI 生態的高效可持續發展是至關重要的。

研究熱點概覽

深度學習計算機視覺領域繼續發揮重要作用。眾所周知,深度學習是資料驅動的,在這個資料為王的時代,收集和標註大量的資料來訓練模型往往是實際場景中提升效能最簡單有效的辦法。然而,即便是有大量人力物力的企業,也很難對手頭的海量資料完全標註,因此,半監督/弱監督學習是一個十分重要的課題。

以語義分割任務為例,研究者往往會採用影像類別標籤進行弱監督學習。利用類別機率的響應熱圖(class activation map 或 peak response map)產生初始分割,不同的文章在後續進行各自的處理,從而實現弱監督的影像語義分割。

關於資料的另一個問題是,即使我們在一個龐大的資料集上訓練得到了很好的模型(以驗證集為評價依據),當我們將其投入實際應用時,可能會因為該場景下的資料分佈與已有的資料分佈有較大差異,效能明顯下降。例如,這一問題在行人再識別中尤其明顯,由於攝像頭引數、光照等原因,實際場景可能會遇到分佈很不相同的資料。遷移學習(Transfer Learning)是解決這一問題的常用思路,這也是本次會議論文的一個重要方向。 

生成對抗網路(GAN)依然火熱,在多種應用中都發揮了重要作用。比如,本屆 CVPR 的 oral 文章《Finding Tiny Faces in the Wild with Generative Adversarial Network》,想要解決人臉檢測中尺度多變的問題。為了更好地檢測影像中較小的人臉,它利用生成器將低解析度影像轉換為高解析度影像,並設計了兩路的判別器,對高解析度/低解析度、人臉/背景進行判斷。該方法能有效地對低解析度的 proposal 進行超解析度變換,並且能保持其原有的類別(人臉或背景),從而有效地幫助檢測影像中解析度很低的人臉。在其他方面,我們也看到了許多關於 GAN 的應用。

隨著深度學習應用落地,在很多場景下可利用的儲存和計算資源受限,比如在手機端、自動駕駛車輛上。因此,關於模型壓縮、計算加速的文章也是非常重要的課題。比如 UC Berkeley 提出的《Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions》,提出了透過平移feature map和使用卷積的方式,來取代傳統的卷積,從而極大地縮小模型尺寸、減小計算量,並且由於去除了隱層特徵中的冗餘資訊,該方法還能帶來識別率上的提升

筆者來到這篇文章的 poster 面前時,發現圍觀的人群已經擠滿了位置。展板前面一位面似中國人的帥小夥在聲情並茂地為大家講解,而且他的口語十分地道。後來等到人群散去,我與他交流才發現原來他是美國人,不會說中文。他看到我的名牌後說,他的 mentor,即本文的第一作者,也來自清華。我與這位學長溝通後知道,原來他也是清華電子系畢業,在伯克利讀博,已經五年級了。他向我介紹了他們實驗室目前在於自動駕駛公司合作,做的專案專注於深度學習的模型壓縮、加速,以及基於鐳射雷達的語義分割等。他們還舉辦了本屆 CVPR 的一場 workshop:Efficient Deep Learning for Computer Vision。筆者參加了這場 workshop,有許多大牛來講解了在硬體資源受限的情況下,高效地設計和使用神經網路的相關技術和研究。 

獲得了 ImageNet 2017 冠軍的 Squeeze-and-Excitation Networks 也在現場進行了講解,Oral 的時間雖然是早晨 8 點多,但依舊吸引了大批觀眾,Poster 前更是聚攏了一大群交流的學者。SE 架構大幅提升了模型的精度。透過引入全域性影像的資訊自動對卷積特徵重新分配權重,增強對分類有用的特徵,而抑制無效或收益甚微的特徵。在只引入極少的計算量和引數量的情況下,可以將現有的絕大多數 CNN 的效能進行大幅提升。

相關文章