NIPS 2018 | 中科院自動化所兩篇入選論文:高清真實影象生成領域及GAN研究在人臉識別領域的進展...
【論文一】自動化所在高清真實影象生成領域獲得新突破
IntroVAE: Introspective Variational Autoencoders for Photographic Image Synthesis
原文地址:https://arxiv.org/abs/1807.06358自動化所智慧感知與計算研究中心提出一種新的深度生成模型——自省變分自編碼器(IntroVAE),用來實現高清影象等高維資料的無條件生成。該模型不僅在不引入額外的對抗判別器的情況下,克服了變分自編碼器固有的合成影象趨於模糊的問題,而且在不使用常用的多階段多判別器策略下,實現了高解析度影象合成的穩定訓練。該論文被今年人工智慧頂級會議神經資訊處理系統大會(NIPS2018)所收錄,在生成指標上超過了英偉達在ICLR18上的工作。
生成模型包含無條件生成(unconditional generation)和條件生成(conditional generation)兩種,高解析度影象生成一般指的是從噪聲中生成資料的無條件生成。Yoshua Bengio在CVPR2017論文中講到,"生成高解析度照片級影象已成為機器學習領域的一個長期目標。"麻省理工大學的人工智慧領域知名學者Max Tegmark在IJCAI2018特邀報告中提到,"以對抗生成網路為代表的深度生成模型是人工智慧研究的重要前沿方向。"高解析度真實影象的生成由於問題困難,計算複雜度大,一直以來只有英偉達(INVIDIA)、英國牛津(Oxford)和麻省理工(MIT)等知名科研機構在研究。
論文概要
近日,自動化所智慧感知與計算研究中心提出一種新的深度生成模型——自省變分自編碼器(Introspective Variational Autoencoder,IntroVAE),用來實現高清影象等高維資料的無條件生成(unconditional generation)。該模型一方面在不引入額外的對抗判別器的情況下,克服了變分自編碼器固有的合成影象趨於模糊的問題;另一方面在不使用常用的多階段多判別器策略下,實現了高解析度影象合成的穩定訓練。實驗結果表明,該模型不僅能夠穩定生成高解析度照片級影象(比如1024x1024的人臉影象),而且在生成模型常用的量化指標上取得了目前最好的結果。
變分自編碼器 VS 對抗生成網路
深度生成模型是無監督學習最有前景的方法之一,一直是學術界研究的熱點問題。目前最為流行的兩種深度生成模型是變分自編碼器(VAEs)和對抗生成網路(GANs)。變分自編碼器是自動編碼器的生成版本,通過優化一個變分下界來實現資料到先驗分佈的近似對映。VAEs的訓練穩定,能夠進行隱變數推斷和對數似然估計,但是生成的樣本比較模糊。對抗生成網路通過生成器和判別器之間的對抗,來學習真實資料的分佈。GANs可以生成逼真的清晰影象,但是存在訓練不穩定的問題,這個問題在合成高解析度影象上尤其嚴重。
自省變分自編碼器的結構和訓練流程
目前主流的高解析度影象合成方法(比如英偉達公司提出的PGGAN模型)通過將高解析度影象分解,從低解析度出發,分多個階段使用多個判別器逐步合成高解析度影象。這種訓練方式增加了模型設計的複雜度,提高了模型收斂的難度。與已有的方法不同,本文采用了一種更為簡單有效的方式,能夠實現對高解析度影象的一步到位直接合成。該方法將對抗學習引入VAE內部,實現了一種自省的學習,即模型自身能夠判斷其生成樣本的質量並作出相應改變以提高效能。具體的實現方式是訓練編碼器使得真實影象的隱變數接近先驗分佈,合成影象的隱變數偏離先驗分佈;與之相反的是,訓練生成器使得合成影象的隱變數接近先驗分佈。同時,與GAN不同的是,編碼器和生成器除了對抗外還要協同保證對輸入影象的重建誤差儘量小。對於真實資料來說,該方法的訓練目標跟傳統VAE完全一致,這極大得穩定了模型訓練;對於合成資料來說,對抗的引入提高了樣本的質量。
IntroVAE的體系結構與訓練流程
實驗結果
實驗結果顯示,自省變分自編碼器能夠穩定合成高解析度照片級的影象,比如1024x1024大小的人臉影象,256x256大小的臥室、教堂、狗等自然影象。該模型不僅在影象質量上,而且在量化指標上都取得了當前最好的結果。
CelebA-HQ上訓練,生成的1024x1024人臉影象
LSUN BEDROOM上訓練,生成的256x256臥室影象
LSUN CHURCHOUTDOOR上訓練,生成256x256教堂影象
ImageNet上訓練,生成的256x256狗影象
和其他方法的量化指標對比,可以看出在大部分指標上自省變分編碼器都取的了最好的結果。
兩種方法的定量比較
【論文二】自動化所生成對抗網路GAN研究在人臉識別領域再獲新進展
Learning a High Fidelity Pose Invariant Model for High-resolution Face Frontalization
原文地址:https://arxiv.org/abs/1806.08472
自動化所智慧感知與計算研究中心在生成對抗網路(GAN)基礎上提出高保真度的姿態不變模型來克服人臉識別任務中最為經典的姿態不一致問題。該模型不僅在多個基準資料集的視覺效果和定量指標都優於目前已有的基於生成對抗網路的方法,而且將生成影象的解析度在原有基礎上提升了一倍。該論文已被神經資訊處理系統大會(NIPS)收錄。
GAN緣何入選2018年"全球十大突破性技術"?
日前,《麻省理工科技評論》正式公佈了2018年“全球十大突破性技術”(10 Breakthrough Technologies 2018),涵蓋:實用型金屬3D列印、人造胚胎、智慧感測城市、面向每一個人的人工智慧、對抗性神經網路/生成對抗網路、巴別魚實時翻譯耳塞、零碳天然氣、完美的網路隱私保護、基因占卜、材料的量子飛躍。這也是這份指南第17次釋出。
來自網路
回看過去幾年的上榜技術,越來越多的人工智慧相關技術入選榜單,其中包括:2008 年機器學習、2009 年的 Siri、2013 年的深度學習、2014 年的神經形態晶片、2016 年的語音介面與知識分享型機器人,以及 2017 年的自動駕駛卡車與強化學習。
2018年,最具突破性的人工智慧技術之一就是對抗性神經網路(Dueling Neural Networks) / 生成對抗網路(GAN)——通過兩個AI系統的競爭對抗,極大化加速機器學習的過程,進而賦予機器智慧過去從未企及的想象力。
自動化所改良後的GAN,效能更優越
Ian Goodfellow發明出GAN後,獲得Yann LeCun、黃仁勳、吳恩達等人的讚賞,吸引了諸多的機構及企業開始研究。在中國,部分學術機構致力於研究GAN理論的近一步改良及優化,其中中科院自動化所孫哲南、赫然研究團隊已經取得了一系列進展,受人類視覺識別過程的啟發,提出了雙路徑GAN(TP-GAN)用於正面人臉影象合成,已發表於2017年國際計算機視覺大會(ICCV)。隨後又提出了基於姿態資訊指導的共軛判別器GAN(CAPG-GAN),用於多姿態人臉影象合成,並進一步提高了跨姿態識別精度,已發表於2018年IEEE國際計算機視覺與模式識別會議(CVPR)。
近日,自動化所曹傑、胡一博、張鴻文、赫然、孫哲南在論文Learning a High Fidelity Pose Invariant Model for High-resolution Face Frontalization中提出了高保真度的姿態不變模型(High Fidelity Pose Invariant Model, HF-PIM)來克服人臉識別任務中最為經典的姿態不一致問題。
實驗結果表明,該方法在多個基準資料集的視覺效果和定量指標都優於目前已有的最好方法。此外,HF-PIM所支援的生成影象解析度也在原有方法的基礎上提升了一倍。該論文已被人工智慧領域頂會神經資訊處理系統大會(NIPS)收錄。
高保真度的姿態不變模型示意圖
論文解析
在該論文中,作者總結了先前工作中存在的一些限制,例如,過於依賴低維資訊約束,不能很好地保持原圖的語義資訊等。為了解決這些問題,作者對其具體做法進行如下總結:
①引入了一種能反映三維人臉模型和二維人臉影象之間點到點關聯的稠密關聯場,讓網路能夠在二維影象的指導下學習到隱含的三維人臉資訊。
②設計了一種全新的紋理扭曲(warping)過程,可以有效地把人臉紋理對映到影象域,同時又可以最大程度地保持輸入的語義資訊。
③提出了一種對抗殘差字典學習過程,從而可以在不依賴三維資料的情況下更有效地學習人臉紋理特徵。
④實驗表明,該方法不僅在定量和定性指標上明顯地超過了已有方法,並且把生成影象的解析度提高了一倍。
來自論文
上圖是在CelebA資料庫的HQ子集上的視覺化結果,第一行為輸入影象,第二行為通過HF-PIM模型進行人臉正面化後的結果。HF-PIM是首個支援生成256*256視覺化結果的模型。
來自論文
上圖在IJBA資料庫上的視覺化結果,第一行為輸入影象,第二行為通過HF-PIM模型進行人臉正面化後的結果。
在LFW(左圖)資料庫和IJB-A(右圖)資料庫上和已有方法的對比結果。ACC: 準確率。AUC:ROC曲線下面積。FAR:錯誤接受率。Rank-1:第一次命中識別率。
在Multi-PIE資料庫上在不同的視角下對第一次命中識別率的對比。
∑編輯 | Gemini
來源 | 極市平臺
更多精彩:
☞ 曲面論
演算法數學之美微信公眾號歡迎賜稿
稿件涉及數學、物理、演算法、計算機、程式設計等相關領域,經採用我們將奉上稿酬。
投稿郵箱:math_alg@163.com
相關文章
- 自動識別技術的發展及應用領域
- 人臉識別技術在金融領域應用廣泛
- 阿里雲視訊雲人臉生成領域最新研究成果入選 CVPR2022阿里
- 人臉識別應用領域以及未來的行業發展趨勢行業
- 自動生成特定領域模型和圖表模型
- 美顏sdk人臉識別技術在其它領域有哪些作用?
- 影象格式轉化在人臉識別應用中的實踐
- 人臉識別技術突飛猛進 為應用領域擴充奠定基礎
- 如何寫/審AI領域的論文AI
- Totoro 在自動化測試領域的深耕與收穫
- 影像識別(CV)在房地產領域的應用
- ICLR2021對比學習(Contrastive Learning)NLP領域論文進展梳理ICLRAST
- 近期值得讀的10篇GAN進展論文
- 盤點:2019下半年人臉識別領域重大事件事件
- 人臉識別技術難點是什麼,主要應用在哪些領域?
- AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文AI自然語言處理
- 在銀行領域證件識別儀的應用
- 收藏|精選11篇AI領域論文(附程式碼、資料集連結)AI
- 什麼是人工智慧領域的 GAN人工智慧
- 3D資產生成領域福音:自動化所、北郵團隊聯合打造材質生成新正規化3D
- C#人臉識別入門篇-STEP BY STEP人臉識別--入門篇C#
- DDD領域驅動設計:領域事件事件
- 涵蓋18+ SOTA GAN實現,這個影像生成領域的PyTorch庫火了PyTorch
- 在微服務領域Spring Boot自動伸縮如何實現微服務Spring Boot
- 無人機將進入多個領域,惠及全城無人機
- 如何實時接收某一領域的最新科研論文
- 計算機視覺領域如何從別人的論文裡獲取自己的idea?計算機視覺Idea
- 車牌識別一體機在智慧領域的應用
- 領域知識增強的預訓練語言模型在藥電商搜尋領域的實踐模型
- Serverless 在 SaaS 領域的最佳實踐Server
- 領域驅動模型DDD(二)——領域事件的訂閱/釋出實踐模型事件
- 專訪戴金權:英特爾在AutoML領域的最新進展TOML
- 乾貨分享:Totoro 在自動化測試領域的深耕與收穫
- 《實現領域驅動設計》筆記——領域、子域和限界上下文筆記
- 領域驅動設計戰術模式--領域事件模式事件
- 讀書系列-《解構領域驅動》-領域概念
- 戲說領域驅動設計(廿五)——領域事件事件
- 騰訊AI Lab副主任俞棟:語音識別領域的現狀與進展AI