NIPS 2018 | 中科院自動化所兩篇入選論文:高清真實影象生成領域及GAN研究在人臉識別領域的進展...

演算法與數學之美發表於2018-11-01
【論文一】自動化所在高清真實影象生成領域獲得新突破

IntroVAE: Introspective Variational Autoencoders for Photographic Image Synthesis

原文地址:https://arxiv.org/abs/1807.06358


自動化所智慧感知與計算研究中心提出一種新的深度生成模型——自省變分自編碼器(IntroVAE),用來實現高清影象等高維資料的無條件生成。該模型不僅在不引入額外的對抗判別器的情況下,克服了變分自編碼器固有的合成影象趨於模糊的問題,而且在不使用常用的多階段多判別器策略下,實現了高解析度影象合成的穩定訓練。該論文被今年人工智慧頂級會議神經資訊處理系統大會(NIPS2018)所收錄,在生成指標上超過了英偉達在ICLR18上的工作。


生成模型包含無條件生成(unconditional generation)和條件生成(conditional generation)兩種,高解析度影象生成一般指的是從噪聲中生成資料的無條件生成。Yoshua Bengio在CVPR2017論文中講到,"生成高解析度照片級影象已成為機器學習領域的一個長期目標。"麻省理工大學的人工智慧領域知名學者Max Tegmark在IJCAI2018特邀報告中提到,"以對抗生成網路為代表的深度生成模型是人工智慧研究的重要前沿方向。"高解析度真實影象的生成由於問題困難,計算複雜度大,一直以來只有英偉達(INVIDIA)、英國牛津(Oxford)和麻省理工(MIT)等知名科研機構在研究。


論文概要

近日,自動化所智慧感知與計算研究中心提出一種新的深度生成模型——自省變分自編碼器(Introspective Variational Autoencoder,IntroVAE),用來實現高清影象等高維資料的無條件生成(unconditional generation)。該模型一方面在不引入額外的對抗判別器的情況下,克服了變分自編碼器固有的合成影象趨於模糊的問題;另一方面在不使用常用的多階段多判別器策略下,實現了高解析度影象合成的穩定訓練。實驗結果表明,該模型不僅能夠穩定生成高解析度照片級影象(比如1024x1024的人臉影象),而且在生成模型常用的量化指標上取得了目前最好的結果。


640?wx_fmt=gif


變分自編碼器 VS 對抗生成網路

深度生成模型是無監督學習最有前景的方法之一,一直是學術界研究的熱點問題。目前最為流行的兩種深度生成模型是變分自編碼器(VAEs)和對抗生成網路(GANs)。變分自編碼器是自動編碼器的生成版本,通過優化一個變分下界來實現資料到先驗分佈的近似對映。VAEs的訓練穩定,能夠進行隱變數推斷和對數似然估計,但是生成的樣本比較模糊。對抗生成網路通過生成器和判別器之間的對抗,來學習真實資料的分佈。GANs可以生成逼真的清晰影象,但是存在訓練不穩定的問題,這個問題在合成高解析度影象上尤其嚴重。


自省變分自編碼器的結構和訓練流程

目前主流的高解析度影象合成方法(比如英偉達公司提出的PGGAN模型)通過將高解析度影象分解,從低解析度出發,分多個階段使用多個判別器逐步合成高解析度影象。這種訓練方式增加了模型設計的複雜度,提高了模型收斂的難度。與已有的方法不同,本文采用了一種更為簡單有效的方式,能夠實現對高解析度影象的一步到位直接合成。該方法將對抗學習引入VAE內部,實現了一種自省的學習,即模型自身能夠判斷其生成樣本的質量並作出相應改變以提高效能。具體的實現方式是訓練編碼器使得真實影象的隱變數接近先驗分佈,合成影象的隱變數偏離先驗分佈;與之相反的是,訓練生成器使得合成影象的隱變數接近先驗分佈。同時,與GAN不同的是,編碼器和生成器除了對抗外還要協同保證對輸入影象的重建誤差儘量小。對於真實資料來說,該方法的訓練目標跟傳統VAE完全一致,這極大得穩定了模型訓練;對於合成資料來說,對抗的引入提高了樣本的質量。

640?wx_fmt=png

IntroVAE的體系結構與訓練流程


實驗結果

實驗結果顯示,自省變分自編碼器能夠穩定合成高解析度照片級的影象,比如1024x1024大小的人臉影象,256x256大小的臥室、教堂、狗等自然影象。該模型不僅在影象質量上,而且在量化指標上都取得了當前最好的結果。


640?wx_fmt=png

CelebA-HQ上訓練,生成的1024x1024人臉影象


640?wx_fmt=png

LSUN BEDROOM上訓練,生成的256x256臥室影象


640?wx_fmt=png

LSUN CHURCHOUTDOOR上訓練,生成256x256教堂影象


640?wx_fmt=png

ImageNet上訓練,生成的256x256狗影象


和其他方法的量化指標對比,可以看出在大部分指標上自省變分編碼器都取的了最好的結果。


640?wx_fmt=png

兩種方法的定量比較


【論文二】自動化所生成對抗網路GAN研究在人臉識別領域再獲新進展

Learning a High Fidelity Pose Invariant Model for High-resolution Face Frontalization

原文地址:https://arxiv.org/abs/1806.08472


自動化所智慧感知與計算研究中心在生成對抗網路(GAN)基礎上提出高保真度的姿態不變模型來克服人臉識別任務中最為經典的姿態不一致問題。該模型不僅在多個基準資料集的視覺效果和定量指標都優於目前已有的基於生成對抗網路的方法,而且將生成影象的解析度在原有基礎上提升了一倍。該論文已被神經資訊處理系統大會(NIPS)收錄。


GAN緣何入選2018年"全球十大突破性技術"?

日前,《麻省理工科技評論》正式公佈了2018年“全球十大突破性技術”(10 Breakthrough Technologies 2018),涵蓋:實用型金屬3D列印、人造胚胎、智慧感測城市、面向每一個人的人工智慧、對抗性神經網路/生成對抗網路、巴別魚實時翻譯耳塞、零碳天然氣、完美的網路隱私保護、基因占卜、材料的量子飛躍。這也是這份指南第17次釋出。


640?wx_fmt=png

來自網路


回看過去幾年的上榜技術,越來越多的人工智慧相關技術入選榜單,其中包括:2008 年機器學習、2009 年的 Siri、2013 年的深度學習、2014 年的神經形態晶片、2016 年的語音介面與知識分享型機器人,以及 2017 年的自動駕駛卡車與強化學習。


2018年,最具突破性的人工智慧技術之一就是對抗性神經網路(Dueling Neural Networks) / 生成對抗網路(GAN)——通過兩個AI系統的競爭對抗,極大化加速機器學習的過程,進而賦予機器智慧過去從未企及的想象力。


自動化所改良後的GAN,效能更優越

Ian Goodfellow發明出GAN後,獲得Yann LeCun、黃仁勳、吳恩達等人的讚賞,吸引了諸多的機構及企業開始研究。在中國,部分學術機構致力於研究GAN理論的近一步改良及優化,其中中科院自動化所孫哲南、赫然研究團隊已經取得了一系列進展,受人類視覺識別過程的啟發,提出了雙路徑GAN(TP-GAN)用於正面人臉影象合成,已發表於2017年國際計算機視覺大會(ICCV)。隨後又提出了基於姿態資訊指導的共軛判別器GAN(CAPG-GAN),用於多姿態人臉影象合成,並進一步提高了跨姿態識別精度,已發表於2018年IEEE國際計算機視覺與模式識別會議(CVPR)。


近日,自動化所曹傑、胡一博、張鴻文、赫然、孫哲南在論文Learning a High Fidelity Pose Invariant Model for High-resolution Face Frontalization中提出了高保真度的姿態不變模型(High Fidelity Pose Invariant Model, HF-PIM)來克服人臉識別任務中最為經典的姿態不一致問題。


實驗結果表明,該方法在多個基準資料集的視覺效果和定量指標都優於目前已有的最好方法。此外,HF-PIM所支援的生成影象解析度也在原有方法的基礎上提升了一倍。該論文已被人工智慧領域頂會神經資訊處理系統大會(NIPS)收錄。

640?wx_fmt=jpeg

高保真度的姿態不變模型示意圖


論文解析

在該論文中,作者總結了先前工作中存在的一些限制,例如,過於依賴低維資訊約束,不能很好地保持原圖的語義資訊等。為了解決這些問題,作者對其具體做法進行如下總結:


①引入了一種能反映三維人臉模型和二維人臉影象之間點到點關聯的稠密關聯場,讓網路能夠在二維影象的指導下學習到隱含的三維人臉資訊。


②設計了一種全新的紋理扭曲(warping)過程,可以有效地把人臉紋理對映到影象域,同時又可以最大程度地保持輸入的語義資訊。


③提出了一種對抗殘差字典學習過程,從而可以在不依賴三維資料的情況下更有效地學習人臉紋理特徵。


④實驗表明,該方法不僅在定量和定性指標上明顯地超過了已有方法,並且把生成影象的解析度提高了一倍。


640?wx_fmt=png

來自論文


上圖是在CelebA資料庫的HQ子集上的視覺化結果,第一行為輸入影象,第二行為通過HF-PIM模型進行人臉正面化後的結果。HF-PIM是首個支援生成256*256視覺化結果的模型。


640?wx_fmt=png

來自論文


上圖在IJBA資料庫上的視覺化結果,第一行為輸入影象,第二行為通過HF-PIM模型進行人臉正面化後的結果。


640?wx_fmt=png

在LFW(左圖)資料庫和IJB-A(右圖)資料庫上和已有方法的對比結果。ACC: 準確率。AUC:ROC曲線下面積。FAR:錯誤接受率。Rank-1:第一次命中識別率。


640?wx_fmt=png

在Multi-PIE資料庫上在不同的視角下對第一次命中識別率的對比。

∑編輯 | Gemini

來源 | 極市平臺

更多精彩:

☞  哈爾莫斯:怎樣做數學研究

☞  祖克伯2017年哈佛大學畢業演講

☞  線性代數在組合數學中的應用

☞  你見過真的菲利普曲線嗎?

☞  支援向量機(SVM)的故事是這樣子的

☞  深度神經網路中的數學,對你來說會不會太難?

☞  程式設計需要知道多少數學知識?

☞  陳省身——什麼是幾何學

☞  模式識別研究的回顧與展望

☞  曲面論

☞  自然底數e的意義是什麼?

☞  如何向5歲小孩解釋什麼是支援向量機(SVM)?

☞  華裔天才數學家陶哲軒自述

☞  代數,分析,幾何與拓撲,現代數學的三大方法論

640?wx_fmt=jpeg

演算法數學之美微信公眾號歡迎賜稿

稿件涉及數學、物理、演算法、計算機、程式設計等相關領域,經採用我們將奉上稿酬。

投稿郵箱:math_alg@163.com

相關文章