生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

机器之心發表於2021-08-26

當逐漸後移的髮際線和日益稀疏的劉海成為焦慮的源頭, 為了滿足這屆使用者對於濃密秀髮的嚮往,多年深耕人工智慧領域的美圖公司技術大腦——美圖影像實驗室(MT Lab)基於在深度學習領域積累的技術優勢,落地了多個頭發生成專案並實現了高畫質真實的頭髮紋理生成,目前已率先在美圖旗下核心產品美圖秀秀及海外產品 AirBrush 上線劉海生成、髮際線調整與稀疏區域補發等功能,滿足使用者對髮型的多樣化需求


其中,劉海生成功能可以基於自定義的生成區域,生成不同樣式的劉海(如圖 1.1-1.3)。

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 1.1:劉海生成(左:原圖,右:全劉海生成效果圖)

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 1.2:劉海生成(左:原圖,右:全劉海生成效果圖)

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 1.3:多款劉海生成效果圖

髮際線調整功能在保持原有髮際線樣式的情況下,可以對髮際線的不同高度進行調整(如圖 2.1-2.2):

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 2.1:髮際線調整前後對比圖

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 2.2:髮際線調整對比圖

頭髮生成任務面臨的挑戰

頭髮編輯作為一般的生成任務,在落地實踐過程中仍面臨以下幾個亟待突破的關鍵技術瓶頸:

  • 首先是生成資料的獲取問題。以劉海生成任務為例,在生成出特定款式的劉海時,一個人有無劉海的資料是最為理想的配對資料,但這種型別的真實資料獲取的可能性極低。與此同時,如果採用針對性收集特定款式劉海資料,以形成特定屬性非配對資料集的方式,那麼獲取高質量且多樣式的資料就需要耗費較高的成本,基本不具備可操作性;

  • 其次是高畫質影像細節的生成問題。由於頭髮部位擁有複雜的紋理細節,透過 CNN 難以生成真實且達到理想狀態的髮絲。其中,在有配對資料的情況下,雖然可以透過設計類似 Pixel2PixelHD[1]、U2-Net[2] 等網路進行監督學習,但目前透過該方式生成的影像清晰度仍然非常有限;在非配對資料情況下,一般透過類似 HiSD[3]、StarGAN[4]、CycleGAN[5] 的方式進行屬性轉換生成,利用該方式生成的圖片不僅清晰度不佳,還存在目標效果生成不穩定、生成效果不真實等問題。


針對上述情況,MT Lab 基於龐大的資料資源與突出的模型設計能力,藉助 StyleGAN[6] 解決了頭髮生成任務所面臨的配對資料生成與高畫質影像細節兩大核心問題。StyleGAN 作為當前生成領域的主要方向—GAN(生成式對抗網路)在影像生成應用中的主要代表,是一種基於風格輸入的無監督高畫質影像生成模型。StyleGAN 能夠基於 7 萬張 1024*1024 的高畫質人臉影像訓練資料 FFHQ,透過精巧的網路設計與訓練技巧生成清晰逼真的影像效果。此外,StyleGAN 還能基於風格輸入的方式擁有屬性編輯的能力,透過隱變數的編輯,實現影像語意內容的修改。

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 3:基於 StyleGAN 生成的圖片

美圖基於 StyleGAN 的頭髮編輯方案
1. 配對資料生成

StyleGAN 生成配對資料最為直接的方式就是在 w + 空間直接進行相關屬性的隱向量編輯,生成相關屬性,其中隱向量編輯方法包括 GanSpace[7]、InterFaceGAN[8] 及 StyleSpace[9] 等等。但是,這種影像生成方式通常隱含著屬性向量不解耦的情況,即在生成目標屬性的同時往往伴隨其他屬性(背景和人臉資訊等)產生變化。

因此,MT Lab 結合 StyleGAN Projector[6]、PULSE[10] 及 Mask-Guided Discovery[11] 等迭代重建方式來解決生成頭髮配對資料的問題。該方案的主要思路是透過簡略編輯原始圖片,獲得一張粗簡的目標屬性參考影像,將其與原始影像都作為參考影像,再透過 StyleGAN 進行迭代重建。

以為頭髮染淺色髮色為例,需要先對原始圖片中的頭髮區域染上統一的淺色色塊,經由降取樣獲得粗略編輯簡圖作為目標屬性參考影像,在 StyleGAN 的迭代重建過程中,生成圖片在高解析度尺度下與原始圖片進行相似性監督,以保證頭髮區域以外的原始資訊不發生改變。

另一方面,生成圖片透過降取樣與目標屬性參考影像進行監督,以保證生成的淺色髮色區域與原始圖片的頭髮區域一致,二者迭代在監督平衡下生成期望中的影像,同時也獲得了一個人有無淺色頭髮的配對資料(完整流程參考下圖 4)。

值得強調的是,在該方案執行過程中既要保證生成圖片的目標屬性與參考影像一致,也要保證生成影像在目標屬性區域外與原始圖片資訊保持一致;還需要保證生成影像的隱向量處於 StyleGAN 的隱向量分佈中,才能夠確保最終的生成影像是高畫質影像。

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 4 :染淺色頭髮 StyleGAN 迭代重建示意圖

此外,基於該方案的思路,在頭髮生成領域還能獲取到髮際線調整的配對資料(如下圖 5)、劉海生成的配對資料(如下圖 6)以及頭髮蓬鬆的配對資料(如下圖 7)。

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 5:髮際線配對資料

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 6:劉海配對資料

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 7:頭髮蓬鬆配對資料

2. 配對資料增益

基於迭代重建,還能夠獲得配對資料所對應的 StyleGAN 隱向量,透過隱向量插值的方式還能實現資料增益,進而獲得足夠數量的配對資料。

以髮際線調整的配對資料為例,如下圖 8 所示,(a)和(g)是一組配對資料,(c)和(i)是一組配對資料,在每一組配對資料間,可以透過插值獲得髮際線不同程度調整的配對資料。如(d)和(f)分別是(a)和(g)、(c)和(i)之間的插值

同樣地,兩組配對資料間也可以透過隱向量插值獲得更多配對資料。如(b)和(h)分別是(a)和(c)、(g)和(i)透過插值獲得的配對資料。此外,透過插值獲得的配對資料也能夠生成新的配對資料,如(e)是(b)和(h)透過差值獲得的配對資料,基於此可以滿足對理想的髮際線調整配對資料的需求。

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 8:配對資料增益

3. image-to-image 生成

基於 StyleGan 的迭代重建獲得配對資料後,就可以透過 pixel2piexlHD 模型進行有監督的學習訓練,這種 image-to-image 的方式相對穩定且具有穩健性,但生成影像的清晰度還無法達到理想的效果,因此選擇透過在 image-to-image 模型上採用 StyleGAN 的預訓練模型來幫助實現生成細節的提升。傳統的 StyleGAN 實現 image-to-image 的方式是透過 encoder 網路獲得輸入圖的影像隱向量,然後直接編輯隱向量,最後實現目標屬性影像生成,但由這種方式生成的影像與原影像比對往往相似度較低,無法滿足基於原影像進行編輯的要求。

因此 MT Lab 對這種隱向量編輯的方式進行了改進,一方面直接將原影像 encode 到目標屬性的隱向量,省去進行中間隱向量編輯的步驟;另一方面將 encoder 網路的特徵與 StyleGAN 網路的特徵進行融合,最終透過融合後的特徵生成目標屬性影像,以最大限度保證生成影像與原影像的相似度,整體網路結構與 GLEAN[12] 模型非常相似,該方式兼顧了影像高畫質細節生成與原圖相似度還原兩個主要問題,由此也完成了高畫質且具有真實細節紋理的頭髮生成全流程,具體如下圖 9:

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 9:頭髮生成網路結構

基於 StyleGAN 編輯生成方案的擴充

基於 StyleGAN 編輯生成方案能夠在降低生成任務方案設計難度的同時,提高生成任務的研發效率,實現生成效果的大幅度提升,同時也具有很高的擴充套件性。其中,結合 StyleGAN 生成理想頭髮配對資料的方式極大地降低了影像編輯任務的難度,比如將該方案關注的屬性擴充到頭髮以外,就能夠獲得更多屬性的配對資料,例如五官更換的配對資料(如下圖 10),藉此可以嘗試對任何人臉屬性編輯任務進行落地實踐。

此外,藉助 StyleGAN 預訓練模型實現 image-to-image 的方式能夠保證生成影像的清晰度,因此還可以將其推廣到如影像修復影像去噪、影像超解析度等等更為一般的生成任務中。

生成劉海、調整發際線,讓你告別頭禿煩惱的竟然是AI「生髮」神器

圖 10:五官更換的配對資料:原圖(左),參考圖(中),結果圖(右)

目前, MT Lab 已在影像生成領域取得新的技術突破,實現了高畫質人像生成並達到精細化控制生成。在落地頭髮生成以外,MT Lab 不僅實現了牙齒整形、眼皮生成、妝容遷移等人臉屬性編輯功能,還提供了 AI 換臉、變老、變小孩、更換性別、生成笑容等等風靡社交網路的新鮮玩法,一系列酷炫玩法為使用者帶來了更有趣、更優質的使用體驗,也展現了其背後強大的技術支援與研發投入。

未來,深度學習仍將是 MT Lab 重點關注的研究領域之一,也將持續深入對前沿技術的研究,不斷深化行業技術創新與突破。

參考文獻:
[1] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao,Jan Kautz, and Bryan Catanzaro. High-resolution image syn-thesis and semantic manipulation with conditional gans. In CVPR, 2018.
[2] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R Zaiane, and MartinJagersand. U2-net: Going deeper with nested u-structure for salient object detection. Pattern Recognition, 2020.
[3] Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji. Image-to-image Translation via Hierarchical Style Disentanglement. InProc. In CVPR, 2021.
[4] Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan: Unified genera-tive adversarial networks for multi-domain image-to-image translation. In CVPR, 2018.
[5] Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan: Unified genera-tive adversarial networks for multi-domain image-to-image translation. In CVPR, 2018.
[6] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila. Analyzing and improvingthe image quality of StyleGAN. InProc. In CVPR, 2020.
[7] Erik H ̈ark ̈onen, Aaron Hertzmann, Jaakko Lehtinen, andSylvain Paris. Ganspace: Discovering interpretable gancontrols. In NIPS, 2020.
[8] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Inter-preting the latent space of gans for semantic face editing. In CVPR, 2020.
[9] Zongze Wu, Dani Lischinski, and Eli Shecht-man. StyleSpace analysis: Disentangled controlsfor StyleGAN image generation. In arXiv, 2020.
[10] Sachit Menon, Alexandru Damian, Shijia Hu, Nikhil Ravi,and Cynthia Rudin. Pulse: Self-supervised photo upsam-pling via latent space exploration of generative models. In CVPR, 2020.
[11] Mengyu Yang, David Rokeby, Xavier Snelgrove. Mask-Guided Discovery of Semantic Manifolds in Generative Models. In NIPS Workshop, 2020.
[12] K. C. Chan, X. Wang, X. Xu, J. Gu, and C. C. Loy, Glean: Generative latent bank for large-factor image super-resolution, In CVPR, 2021.

相關文章