讓機器“析毫剖釐”：影像理解與編輯|VALSE2018之三

深度学习大讲堂發表於2018-05-08

原文網址 : https://www.jiqizhixin.com/articles/2018-06-20-19

編者按：李白在《秋登宣城謝脁北樓》中曾寫道：

“江城如畫裡，山曉望晴空。
兩水夾明鏡，雙橋落彩虹。”

通過對視野內景物位置關係的描寫，一幅登高遠眺的秋色美景圖宛在眼前。而在計算機視覺領域，這幾句詩其實體現了場景內物體之間的關係，對於場景理解的重要性。

今天，來自中科院資訊工程研究所的劉偲副研究員，將從生成對抗網路（GAN）講起，講述如何通過對場景內物體及物體之間關係的梳理，讓機器“析毫剖釐”，以實現對場景的理解以及對影像的編輯。

文末，大講堂提供文中提到所有參考文獻的下載連結。

影像理解與編輯涉及兩方面的內容：首先獲取影像中蘊含的豐富資訊，然後按照需求對影像進行編輯。下圖展示了影像理解問題的具體示例，對於某個場景，我們提取影像中的背景，如牆壁、桌椅等物體的資訊，也可以解析影像中的重要元素——人，即對人的身體、服飾等部件進行分類、分割，進一步的還可對人臉進行解析，定位頭髮、五官等部位。影像理解與編輯具有廣泛的應用場景，比如自動駕駛、娛樂產品、視訊監控和擴增實境等方面。

本文將主要介紹以人為主體目標的影像理解與編輯任務。首先介紹人臉編輯。在影像編輯方面，生成對抗網路(GAN)發揮著重要的作用，所以這裡首先介紹一下GAN的基本原理以及當前的主要發展方向。GAN由Ian Goodfellow在2014年提出，採用了兩個網路相互對抗的訓練模式，已成為生成模型中里程碑式的工作。GAN包含生成網路G和判別網路D，G生成資料，D判斷資料是否來自真實的資料。在訓練時，G儘可能生成的資料迷惑D，而D儘可能區分出資料是否來自真實的分佈，通過這種對抗式學習，模型最終能夠生成非常真實的圖片。這一工作也得到了Yann Lecun的高度評價，被其稱為近十年來機器學習領域中最有趣的想法之一。

從2014年GAN的提出，實現了從噪聲生成圖片功能後，生成對抗網路的研究方向越來越多。原始的GAN只是從隨機噪聲生成影像，缺少對生成圖片的控制，所以緊隨其後就有研究者提出了Conditional Generative Adversarial Nets。其通過改變輸入條件，可以控制圖片的生成結果。同時，以DCGAN為代表的一系列工作探索了適用於GAN的網路結構。也有研究者為了解決模式坍塌等問題，提出了更多的網路形式進行對抗學習的研究，如GMAN。修正GAN的對抗損失函式的工作也在一直進行中，WGAN是其中非常引人矚目的工作。此外，要擬合真實資料背後的分佈度量，常常需要對D網路進行正則化， SN-GAN提出的譜歸一化是其中的代表性工作，其可在IMAGENET資料庫上訓練成功，生成1000類的影像。最後，提高大影像的生成質量也是GAN的一個重點的研究方向。英偉達提出的PG-GAN即是這樣的工作，可以生成1024x1024的高清真實影像。

總而言之，GAN由最開始的隨機噪聲生成圖片，逐漸在眾多領域得到發展。有研究者使用GAN研究半監督學習問題，也有研究者進行影像到影像的生成探索，如給定輪廓圖生成正常的圖片，另外還有文字到影像的生成以及域自適應任務。域自適應任務旨在提升模型對跨域資料的泛化能力，如在一個資料集上訓練好影像分析的模型，通過域適應的方法，在其他不同的資料集上仍然能夠表現出較強的能力。此外還有人用GAN來做對抗樣本的攻防，旨在解決生成模型的正確性和安全性的問題。

基於GAN，在人臉影像編輯方面，我們課題組主要進行了智慧美妝方面的研究，屬於影像到影像的生成領域的探索。首先我們構建了一個較大的美妝資料庫，包括東方風格和西方風格的子資料庫。東方風格包括復古妝、韓妝、日妝、素顏和煙燻妝，西方風格包括彩妝、素顏和煙燻妝。如圖所示，每種妝容都有明確的定義。

除資料庫外，我們基於生成對抗網路對智慧美妝模型做了一定的改進，這項工作目前還在進行中。具體包括兩方面改進，第一基於大規模的人臉資料庫輔助生成更高質量的美妝影像，目前是基於20萬張的celebA人臉影像資料，選取包括是否為濃妝在內的總共三個人臉相關的屬性，利用粗標註資料庫完成智慧美妝任務的輔助訓練，從而使美妝屬性的編輯更加細緻。此外我們提出了新的網路結構。因為人臉編輯任務更多是人臉的微調，希望化完妝人的身份資訊保持不變，我們的網路強調保持妝前妝後基本一致，更好的保持了影像的主體資訊，更專注地編輯妝容條件。

觀察實驗結果，各種妝容的編輯結果比較真實、自然，沒有明顯的網格。各種妝容的特點也比較明顯，如亞洲風格妝容中復古妝的腮紅、韓妝漸變的咬脣妝，比較淡的日妝以及特徵明顯的素顏和煙燻妝，同樣歐美風格的妝容也有較好的編輯效果。值得一提的是，由於素顏類別的存在，我們的方法也可以實現卸妝的功能。

針對人臉編輯的另一個應用是人臉老化。下圖中間是當前給定圖片，通過人臉老化演算法可以生成7個不同年齡段的人臉影像，即可以變年輕如10歲以下，也可以變老如一直到60歲以上。它的應用很廣泛，比如可以輔助跨年齡段的人臉識別。身份證照片常常是很多年前拍攝的，長時間沒有更新導致人證對比存在一定的難度，那麼此時人臉老化的就可以輔助身份證的人證識別。另外比較有用的應用是尋找丟失的兒童，比如小孩走丟了，只有他很小的照片，人臉老化可以輔助生成長大後的樣子，我們希望可以通過這樣的演算法，能夠實現跨年齡的身份識別。此外人臉老化編輯還可以應用到互動娛樂應用中。

我們提出的方法也是基於GAN的。在傳統的conditional GAN的基礎上，我們綜合考慮了不同年齡段人臉的形狀和紋理變化。具體實現細節可參考我們的相關論文。下圖是我們的結果，第一列是原始圖片，右邊七列分別是不同年齡條件下的生成結果。可以看到年齡較小時，臉型都相對較小，皮膚也很光滑，而從30歲到60歲，鬍子越來越白，同時會出現魚尾紋或者皺紋。例如第四行輸入是一個老太太，模型能夠生成她比較小的樣子，皮膚非常光滑，同時很像這個人。

接下來介紹整個框架第二部分，就是人的部分。人體解析定義是這樣的，給定一張圖，去解析人的頭髮、人臉、胳膊（手）等部位，以及上衣、褲子、鞋等衣著。人體解析的相關工作非常多，由於篇幅限制不再詳細說明。而資料集方面主要是中山大學發表在CVPR2017上的Look into person，它應該是目前最大的人體解析資料庫。

我們在人體解析方面的最新研究是有關跨域人體解析。因為比如想在多個城市建立影像分析系統，不可能在每個場景都標註很多資料，但是不同應用場景很多條件確實不一樣。所以我們希望一旦建立了較好的模型，通過跨域的方法，該模型放在其他的特定場景中也可以使用。比如資料庫標了很細緻畫素級的分類，這些庫姿態多變，光照很多，資料量大。我們在實際應用的時候，比如想應用在室內餐廳，或者室外街道，這種情況下重新標註資料的代價是非常大的，而直接使用預先訓好的模型效果又不是特別好。我們想研究的就是已經訓練好的模型怎麼使用。

跨域學習是近年來的一個研究熱點，相關論文很多。比如，Ganin等人提出了一種新的基於深度網路結構的方法來做域變換，該方法促進網路學習一種深度特徵：既能對主要的學習任務上得到區分，又能在不同域之間達到一致。MY Liu等人提出了一個耦合生成對抗網路(coupled generative adversarial network, CoGAN)來學習關於多個域圖片的聯合分佈。Long等人提出的一種新的深度變換網路框架，通過MK-MMD將適應於特定任務的深度特徵進行變換，而Chen等人提出了對抗姿態網路，潛在地考慮到了人物的結構。

當前已經存在的域變換方法，都是單一考慮特徵變換或者簡單地考慮結構性的標籤變換，而我們同時考慮了特徵變換和結構性的標註變換。首先一方面，每個域的特徵空間是不同的。例如餐廳中的圖片光照比室外中的光照要暗很多，監控圖片的視角和手持相機拍攝也是不同。因此我們通過對抗特徵變換最小化這種差異。然後另一方面源域和目標域中的人物都有著固有的相同點，例如人體部件的關係大概是相同的，左右胳膊、腿分佈在身體的兩側等。因此我們通過對抗式結構標籤變換來最大化這種共性。

最後一個任務是綜合考慮到人和場景。今年ECCV的一項競賽就是我們和奇虎360公司以及新加坡國立大學（NUS）一起舉辦的。比賽的主要任務還是集中於人這一目標，希望能夠獲取影像中最重要的元素——人的資訊。

Person In Context (PIC) 2018 （http://www.picdataset.com/）將於2018年9月9日在德國慕尼黑的ECCV 2018的workshop "1st Person in Context (PIC) Workshop and Challenge" 上舉辦。我們從真實場景收集了約1.5萬張影像，平均每張圖包含4個人。這些影像包含複雜的人的姿態、豐富的拍攝視角、不同程度的遮擋和影像解析度。每一張圖片都包含了人和物體畫素級別的語義分割、場景分割以及人和人/物體的關係標註。在客觀世界不計其數的類別中，人是最特殊的一類。因此本競賽在任務設定過程中，著重考量了以人為中心的關係分割 (relation segmentation)。傳統的關係預測，比如Visual Genome，以及Google 的Open Image Challenge 的關係都是定義在矩形框(bounding box)上的。PIC競賽的特別之處是，其關係是定義在分割區域(segmentation)上的。

以人為中心的關係分割包括該人的和周圍物體的動作關係、位置關係等。以左圖為例，人A在人B的旁邊。再比如右圖，人A在人C的後面。關係分割的形式是<主語，關係，賓語> 形式的三元組。值得一提的是，關係都是建立在人和物體的場景畫素級別分割之上的。

以下為資料庫的標註展示，可以看到該資料庫涵蓋了豐富的全景分割和關係分割。

上圖是PIC跟現有資料庫的區別。Visual Genome是知名的關聯式資料庫。其關係是定義在bounding-box上，PIC庫的關係是定義在畫素級別的分割之上。這種更細粒度的標註，使得定義的關係更為精確，也更符合實際應用的要求。

我們競賽時間安排及競賽資訊如下，同時我們還提供了眾多顯示卡作為競賽獎品。冠軍隊伍可以獲得2塊TitanV 顯示卡。

總結一下，我們的工作由小及大，包含了人臉，人以及人-物關係三個層面的內容。我們會在這些領域繼續進行探索。

文中提到參考文獻的下載連結為：

https://pan.baidu.com/s/1L-zbu8Sbtcf1mou2DYhjhg

密碼：1282

讓機器“析毫剖釐”：影象理解與編輯|VALSE2018之三
2018-05-08
GraphicConverter 11 for mac(影像編輯器)
2022-11-07
Mac
Pixelmator Pro - 超越想象的影像編輯器
2023-11-10
Photo Image Editor Pixelstyle for Mac(影像編輯器)
2023-09-20
Mac
Photo Image Editor Pixelstyle for Mac 影像編輯器
2022-06-07
Mac
Luminar Neo(超強AI影像編輯器)
2022-10-12
AI
影像編輯器：Pixelmator Pro mac中文版
2024-01-22
Mac
Capture One 22 Pro 影像編輯轉換器
2022-09-21
APT
淺析富文字編輯器框架Slate.js
2021-07-08
框架JS
如何讓sublime編輯器執行python程式？
2019-08-27
Python
js裡<extarea 如何讓 adminArticleEdit編輯器生效
2020-04-04
JS
Luminar Neo 1.19.0 (macOS Universal) - 創新 AI 影像編輯器
2024-05-07
MacAI
Capture One 23 Pro Mac(RAW影像編輯轉換器)
2023-02-03
APTMac
影像處理的基礎知識(9)——編輯與修飾影像(1)
2020-11-10
讓機器“答問如流”：從視覺到語言|VALSE2018之四
2018-05-10
視覺
讓機器“察言作畫”：從語言到視覺|VALSE2018之二
2018-05-04
視覺
Pixelmator Pro for Mac(影像編輯工具)
2022-09-23
Mac
輕鬆編輯影像資訊
2021-10-25
20210125-1 文字編輯器與計算機基本使用
2021-01-25
計算機
影像後設資料編輯器：MetaImage for Mac 中文版
2024-01-12
AIMac
RAW影像編輯轉換器Capture One 22 Pro Mac/Windows
2022-09-06
APTMacWindows
專業影像編輯器Pixelmator Pro啟用中文版
2022-09-13
影像OCR年度進展|VALSE2018之十一
2018-05-31
Adobe 影像編輯 Photoshop 2024 (ps) 最新
2023-10-17
Vegas Pro 19,專業影像編輯
2021-11-29
FrameMagic Mac影像編輯處理工具
2022-09-13
Mac
Pixelmator Pro for Mac(影像編輯軟體)
2022-06-29
Mac
直播與點播之三_測試、理解
2020-11-07
vim 讓人愛不釋手的編輯器之神
2021-10-29
ps/lr濾鏡raw影像編輯器：ON1 Photo RAW 2022
2022-06-22
我與編輯器的不解之緣
2024-10-03
安川機器人撤銷編輯
2024-05-13
機器人
mac影像編輯軟體:JixiPix Pastello Pro
2020-10-30
MacAST
Mac影像瀏覽編輯工具：GraphicConverter 11
2022-05-11
Mac
2024 年 13 個適用於 Linux 的最佳照片影像編輯器
2024-09-01
Linux
ON1 Photo RAW 2022 for Mac(ps/lr濾鏡raw影像編輯器)
2021-10-08
Mac
Luminar AI for mac(AI影像編輯器) v1.0.1(8548)啟用版
2021-01-28
AIMac
Luminar AI for mac(AI影像編輯器) v1.0.0 (8388)啟用版
2020-12-16
AIMac

讓機器“析毫剖釐”：影像理解與編輯|VALSE2018之三

相關文章