編者按:計算機視覺領域的頂級會議CVPR 2018上個月在美國鹽湖城舉辦。微軟亞洲研究院實習生鮑建敏參與了這次CVPR 2018之旅,為我們帶回了本次大會上新鮮出爐的計算機視覺前沿研究和他的參會成果分享。
2018年6月18日至22日,計算機視覺的頂級會議CVPR 2018在美國的猶他州首府鹽湖城(Salt Lake City)舉辦。
本屆CVPR吸引了來自世界各地的3309篇論文投稿,最終錄用論文979篇,投稿數量和接受數量都創下了歷史新高。本屆大會的論文涉及的內容也非常廣泛,涵蓋三維視覺、機器學習與視覺、物體識別與理解、計算機視覺理論、影片分析、計算機視覺應用、低中層視覺等等多個熱門計算機視覺領域。除了如火如荼的論文投稿,本屆CVPR的註冊參會人數也達到了破紀錄的6512位,會場坐滿了來自世界各地的學者們。
主會場盛況
除了盛況空前的會場,論文海報區也是人山人海,大家都熱情地向參會來賓分享自己的研究成果。
今年,微軟亞洲研究院視覺計算組共有7篇文章發表在CVPR 2018上,分別與風格遷移、影像/影片目標檢測、影像分解、高效CNN架構、GAN等方向相關:
· Dongdong Chen; Lu Yuan; Jing Liao; Nenghai Yu; Gang Hua. “Stereoscopic Neural Style Transfer”.
· Shuyang Gu; Congliang Chen; Jing Liao; Lu Yuan. “Arbitrary Style Transfer With Deep Feature Reshuffle”.
· Han Hu; Jiayuan Gu; Zheng Zhang; Jifeng Dai; Yichen Wei. “Relation Networks for Object Detection”.
· Xizhou Zhu; Jifeng Dai; Lu Yuan; Yichen Wei. “Towards High Performance Video Object Detection”.
· Qingnan Fan; Jiaolong Yang; Gang Hua; Baoquan Chen; David Wipf. “Revisiting Deep Intrinsic Image Decompositions”.
· Guotian Xie; Jingdong Wang; Ting Zhang; Jianhuang Lai; Richang Hong; Guo-Jun Qi. “Interleaved Structured Sparse Convolutional Neural Networks”
· Jianmin Bao; Dong Chen; Fang Wen; Houqiang Li; Gang Hua. “Towards Open-Set Identity Preserving Face Synthesis”
中科大與微軟亞洲研究院聯合培養博士古紓暘同學在分享論文成果
隨著計算機視覺技術的發展,CVPR在工業界的影響力也是越來越大,今年的大會共吸引了100多家企業贊助與參會。展臺區更是熱鬧非凡,微軟也在會場也設有一個偌大的展臺,展示了CVPR 2018中微軟參與的工作以及它們的技術演示。其中有HoloLens推出的針對研究人員開放的研究模式,及其HoloLens在計算機視覺的研究任務中使用,同時還演示瞭如何高效地設計,開發,維護一個針對計算機視覺問題的系統。
科技範十足的微軟展臺
在展臺區展示的眾多技術中,自動駕駛技術無疑是本屆CVPR 2018的新寵兒,許多自動駕駛公司都將自己的汽車開到了會場中。
現場展示的自動駕駛汽車
本屆CVPR的最佳論文獎頒給了史丹佛大學(Stanford University)和加州大學伯克利分校(UC Berkeley)的Amir R. Zamir等。他們提出了一個解決多視覺任務的框架Taskonomy,嘗試使用任務之間的相關性來避免重複學習,從而使得模型可以使用更少的資料來學習相關的任務。
為了找到最優的學習策略,Taskonomy採用了量化視覺任務相關性的方法。如果兩個視覺任務A和任務B之間具有相關性,那麼在學習過程中,任務A和任務B可以相互幫助對方學到更好的表達。舉個例子,任務A是物體檢測,任務B是物體分割,這兩個典型的視覺任務在Mask-RCNN中被驗證他們可以相互幫助,相互提升對方的準確率。Taskonomy透過遷移學習計算了26個不同視覺任務的相關性,基於這些相關性,我們可以得到對於一組任務的最優學習策略。
論文連結:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf
今年的最佳學生論文獎(Best Student Paper Award)由來自卡耐基梅隆大學(CMU)的Hanbyul Joo等獲得。該研究提出了一種3D的可變形模型,除了能夠追蹤身體的整體動作,它還能夠追蹤人們臉上的表情、手勢等微小的動作。
為了實現這樣的運動追蹤,他們提出了Frank模型和Adam模型兩個模型,Frank模型可以將人體各部位的模型進行區域性組合,並能透過單個無縫模型完整表達人體部位的動作,包括人臉和手的動作。Adam模型與初始模型具備同樣的基礎層級,但是它可以表現頭髮和衣服的幾何形狀,直接檢視衣服和人是否相配。兩個模型結合在一起不僅可用於整體動作追蹤,而且可以同時捕捉一個人的大規模身體動作和細微的面部、手部動作。
論文連結:https://arxiv.org/pdf/1801.01615.pdf
在本屆CVPR的參會論文中,生成對抗網路(GAN)是引人關注的一大熱門技術,被應用於圖片合成、風格遷移、小臉檢測、圖片去霧等越來越多的問題中。生成對抗網路由Ian Good fellow首先提出,在近四年的發展中,GAN在越來越多的領域中發揮著至關重要的作用,越來越多的人認為GAN正在取代深度學習,成為新的關注焦點。
GAN由生成網路G和判別網路D兩個網路構成。在訓練過程中,判別網路D嘗試對生成網路G生成的圖片和真實圖片進行分類,生成網路G則儘可能使自己生成的圖片接近真實圖片,使判別網路D難以辨別生成圖片和真實圖片,這樣就形成了對抗的局面,最後的訓練結果是判別網路D無法辨別生成網路G生成的圖片,生成網路G生成圖片的資料分佈和真實資料的分佈達到一致。GAN網路原理如下圖所示。
由於GAN在深度學習領域的火熱,與GAN相關的論文也是層出不窮。過去三年裡,光是名字中帶有GAN的論文就呈現出指數型增長態勢。
(圖片來自:https://github.com/hindupuravinash/the-gan-zoo)
GAN的研究專案如此之多,要歸功於它廣泛的應用場景。
首先,GAN可以用於簡單的基於條件生成圖片,比如由文字描述去生成圖片,比如由一段鳥的描述去生成鳥。如下圖中CVPR 2018論文“AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks”的結果,AttnGAN在GAN中引入attention的概念,使網路能夠更加有重點地生成圖片,生成結果將更加清晰、自然。
論文連結:https://arxiv.org/pdf/1711.10485.pdf
其次,GAN可以用於轉換存在對應關係的圖片。例如將標籤轉換為實景,將灰度圖片轉換為彩色圖片,將航拍地圖轉換為二維地圖等等。
下圖是CVPR 2018論文“High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs”的結果,從街景標籤到街景實景的生成過程使用了由粗粒度到細粒度的思想,先生成低解析度的圖片,然後再逐步生成高解析度的圖片。
論文連結:https://arxiv.org/abs/1711.11585
另外,GAN還可以被用於小臉檢測。對於圖片中我們感興趣的區域,可以利用GAN來進行放大,從而更好地判斷該區域是否存在人臉,提升小人臉檢測的準確率。如下圖中CVPR 2018論文“Finding Tiny Faces in the Wild with Generative Adversarial Network”結果所示。
論文連結:http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/0565.pdf
在本屆CVPR上,微軟亞洲研究院視覺計算組也利用GAN網路貢獻了一些有趣的研究。在論文“Towards Open-Set Identity Preserving Face Synthesis”中,我們希望解決開放資料集中人臉生成的問題,合成保留圖中人臉原始特點的影像。如下圖所示:
針對一張輸入的人臉圖片,我們希望從中得到身份和屬性資訊。在這個例子中,A(蒙娜麗莎)和B(赫本)為輸入,我們的模型從A和B中分別得到身份資訊和屬性資訊,然後透過重組,得到一個和原赫本圖片相同屬性的蒙娜麗莎圖片A’,和一個和原蒙娜麗莎圖片相同屬性的赫本圖片B’。
為了實現這種“改頭不換面”的效果,我們提出了一個基於GAN的框架,如下圖所示:
其中,I網路用來提取圖片的身份資訊,A網路用來提取網路的屬性資訊,G透過提取的資訊生成一張新的圖片,C網路用來保證生的圖片和提供身份資訊的圖片的身份資訊一致,D網路用來保證生成的圖片是一張真實的圖片。
透過在MS-Celeb-1M上的訓練,我們的模型能夠在開放資料集上生成保持身份資訊的圖片。在開放資料集上得到的結果如下圖所示:
圖中,(a)是提供身份資訊的圖片,(b)是提供屬性資訊的圖片,(c)是模型生成的結果,同一行的圖片具有相同的身份資訊,同一列的圖片具有相同的屬性資訊。從生成圖片中可以看到,我們的模型既保持了與(a)相同的身份資訊,又保持了與(b)相同的屬性資訊。
論文連結:https://arxiv.org/pdf/1803.11182.pdf
CVPR作為計算機視覺的頂級會議,正吸引著越來越多的來自學術界和工業界的關注。會場裡隨處可見的學術大牛,不期而遇的昔日好友,展臺區各家公司的黑科技和領不完的禮物,世界盃期間會場還貼心地同步比賽直播,這樣的CVPR,讓人去了還想去。