「生髮」那些事兒:媽媽再也不用擔心我禿頭了!

美图影像研究院發表於2021-09-29

美圖影像實驗室(MT Lab)利用 StyleGAN 技術落地了多個頭發生成專案並在美圖秀秀及海外產品 AirBush 上線劉海生成、髮際線調整與稀疏區域補發等功能。

無論是「中國有超過2.5億人飽受脫髮困擾」、「第一批90後已經禿了」等話題所引發的一波又一波對髮量的熱議;還是在樓宇間隨處可見的「上午植髮,下午上班」植髮廣告標語;亦或是從BOBO頭、八字劉海到鎖骨發、羊毛卷,從莫西幹到大背頭、飛機頭所掀起的一場場時尚熱潮,毫無疑問,頭髮已經一躍成為現代人最為關注的形象問題之一。

為了滿足這屆使用者對於濃密秀髮的嚮往,美圖影像實驗室(MT Lab)基於在深度學習領域積累的技術優勢,落地了多個頭發生成專案並實現了高畫質真實的頭髮紋理生成,目前已率先在美圖旗下核心產品美圖秀秀及海外產品AirBrush上線劉海生成髮際線調整稀疏區域補發等功能,滿足使用者對髮型的多樣化需求。

其中,劉海生成功能可以基於自定義的生成區域,生成不同樣式的劉海(如圖1.1-1.3)

「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖 1.1:劉海生成(左:原圖,右:全劉海生成效果圖)
「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖 1.2:劉海生成(左:原圖,右:全劉海生成效果圖)
「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖 1.3:多款劉海生成效果圖

髮際線調整功能在保持原有髮際線樣式的情況下,可以對髮際線的不同高度進行調整(如圖2);稀疏區域補發則可以在指定區域或者智慧檢測區域中,自定義調整稀疏區域的頭髮濃密程度。

「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖2:髮際線調整對比圖(左:原圖,右:髮際線生成效果圖)

美圖頭髮生成任務全流程

頭髮生成任務面臨的挑戰

頭髮編輯作為一般的生成任務,在落地實踐過程中仍面臨幾個亟待突破的關鍵技術瓶頸:

  • 首先是生成資料的獲取問題。以劉海生成任務為例,在生成出特定款式的劉海時,一個人有無劉海的資料是最為理想的配對資料,但這種型別的真實資料獲取的可能性極低。與此同時,如果採用針對性收集特定款式劉海資料,以形成特定屬性非配對資料集的方式,那麼獲取高質量且多樣式的資料就需要耗費較高的成本,基本不具備可操作性。
  • 其次是高畫質影像細節的生成問題。由於頭髮部位擁有複雜的紋理細節,透過CNN難以生成真實且達到理想狀態的髮絲。其中,在有配對資料的情況下,雖然可以透過設計類似Pixel2PixelHD[1]、U2-Net[2]等網路進行監督學習,但目前透過該方式生成的影像清晰度仍然非常有限;而在非配對資料情況下,一般透過類似HiSD[3]、StarGAN[4]、CycleGAN[5]的方式進行屬性轉換生成,利用該方式生成的圖片不僅清晰度不佳,還存在目標效果生成不穩定、生成效果不真實等問題。

針對上述情況, MT Lab基於龐大的資料資源與突出的模型設計能力,藉助StyleGAN[6]解決了頭髮生成任務所面臨的配對資料生成與高畫質影像細節兩大核心問題。StyleGAN作為當前生成領域的主要方向——GAN(生成式對抗網路)在影像生成應用中的主要代表,是一種基於風格輸入的無監督高畫質影像生成模型。

能夠基於7萬張1024*1024的高畫質人臉影像訓練資料FFHQ,透過精巧的網路設計與訓練技巧生成清晰逼真的影像效果。此外,StyleGAN還能基於風格輸入的方式擁有屬性編輯的能力,透過隱變數的編輯,實現影像語意內容的修改。

「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖3:基於StyleGAN生成的圖片

美圖基於StyleGAN的頭髮編輯方案

  1. 配對資料生成

StyleGAN生成配對資料最為直接的方式就是在w+空間直接進行相關屬性的隱向量編輯,生成相關屬性,其中隱向量編輯方法包括GanSpace[7]、InterFaceGAN[8]及StyleSpace[9]等等。但這種影像生成方式通常隱含著屬性向量不解耦的情況,即在生成目標屬性的同時往往伴隨其他屬性(背景和人臉資訊等)產生變化。

因此,MT Lab結合StyleGAN Projector[6]、PULSE[10]及Mask-Guided Discovery[11]迭代重建方式來解決生成頭髮配對資料的問題。該方案的主要思路是透過簡略編輯原始圖片,獲得一張粗簡的目標屬性參考影像,將其與原始影像都作為參考影像,再透過StyleGAN進行迭代重建。

以為頭髮染淺色髮色為例,需要先對原始圖片中的頭髮區域染上統一的淺色色塊,經由降取樣獲得粗略編輯簡圖作為目標屬性參考影像,在StyleGAN的迭代重建過程中,生成圖片在高解析度尺度下與原始圖片進行相似性監督,以保證頭髮區域以外的原始資訊不發生改變。

另一方面,生成圖片透過降取樣與目標屬性參考影像進行監督,以保生成的淺色髮色區域與原始圖片的頭髮區域一致,二者迭代在監督平衡下生成期望中的影像,與此同時也獲得了一個人有無淺色頭髮的配對資料(完整流程參考下圖4)。

值得強調的是,在該方案執行過程中既要保證生成圖片的目標屬性與參考影像一致,也要保證生成影像在目標屬性區域外與原始圖片資訊保持一致;還需要保證生成影像的隱向量處於StyleGAN的隱向量分佈中,才能夠確保最終的生成影像是高畫質影像。

「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖4:染淺色頭髮StyleGAN迭代重建示意圖

此外,基於該方案的思路,在頭髮生成領域還可以獲取到髮際線調整的配對資料(如下圖5)、劉海生成的配對資料(如下圖6)以及頭髮蓬鬆的配對資料(如下圖7)。

「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖5:髮際線配對資料
「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖6:劉海配對資料
「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖7:頭髮蓬鬆配對資料

2.配對資料增益

基於迭代重建,還能夠獲得配對資料所對應的StyleGAN隱向量,透過隱向量插值的方式還能實現資料增益,進而獲得足夠數量的配對資料。以髮際線調整的配對資料為例,如圖8所示,(a)和(g)是一組配對資料,(c)和(i)是一組配對資料,在每一組配對資料間,可以透過插值獲得髮際線不同程度調整的配對資料。如(d)和(f)分別是(a)和(g)、(c)和(i)之間的插值。同樣的,兩組配對資料間也可以透過隱向量插值獲得更多配對資料。如(b)和(h)分別是(a)和(c)、(g)和(i)透過插值獲得的配對資料。此外,透過插值獲得的配對資料也能夠生成新的配對資料,如(e)是(b)和(h)透過差值獲得的配對資料,基於此可以滿足對理想的髮際線調整配對資料的需求。

「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖8:配對資料增益

3.image-to-image生成

基於StyleGan的迭代重建獲得配對資料後,就可以透過pixel2piexlHD模型進行有監督的學習訓練,這種image-to-image的方式相對穩定且具有魯棒性,但生成影像的清晰度還無法達到理想的效果,因此選擇透過在image-to-image模型上採用StyleGAN的預訓練模型來幫助實現生成細節的提升

傳統的StyleGAN實現image-to-image的方式是透過encoder網路獲得輸入圖的影像隱向量,然後直接編輯隱向量,最後實現目標屬性影像生成,但由這種方式生成的影像與原影像比對往往相似度較低,無法滿足基於原影像進行編輯的要求。

因此MT Lab對這種隱向量編輯的方式進行了改進,一方面直接將原影像encode到目標屬性的隱向量,省去進行中間隱向量編輯的步驟,另一方面將encoder網路的特徵與StyleGAN網路的特徵進行融合,最終透過融合後的特徵生成目標屬性影像,最大限度保證生成影像與原影像的相似度,整體網路結構與GLEAN[12]模型非常相似,該方式兼顧了影像高畫質細節生成與原圖相似度還原兩個主要問題,由此也完成了高畫質且具有真實細節紋理的頭髮生成全流程。(如下圖9)

「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖9:頭髮生成網路結構

基於StyleGAN編輯生成方案的擴充

基於StyleGAN編輯生成方案能夠在降低生成任務方案設計難度的同時,提高生成任務的研發效率,實現生成效果的大幅度提升,與此同時也具有很高的擴充套件性

其中,結合StyleGAN生成理想頭髮配對資料的方式極大地降低了影像編輯任務的難度,如將該方案關注的屬性擴充到頭髮以外,就能夠獲得更多屬性的配對資料,例如五官更換的配對資料(如下圖10),藉此可以嘗試對任何人臉屬性編輯任務進行落地實踐。

此外,藉助StyleGAN預訓練模型實現image-to-image的方式能夠保證生成影像的清晰度,因此還可以將其推廣到如影像修復、影像去噪、影像超解析度等等更為一般的生成任務中。

「生髮」那些事兒:媽媽再也不用擔心我禿頭了!
圖10:五官更換的配對資料 原圖(左),參考圖(中),結果圖(右)

目前, MT Lab已在影像生成領域取得新的技術突破,實現了高畫質人像生成並達到精細化控制生成。在落地頭髮生成以外還實現了牙齒整形、眼皮生成、妝容遷移等人臉屬性編輯功能,還提供了AI換臉、變老、變小孩、更換性別、生成笑容等等風靡社交網路的新鮮玩法,一系列酷炫玩法為使用者帶來了更有趣、更優質的使用體驗,也展現了其背後強大的技術支援與研發投入。

未來,深度學習仍將是MT Lab重點關注的研究領域之一,也將持續深入對前沿技術的研究,不斷深化行業技術創新與突破。


參考文獻:

[1] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao,Jan Kautz, and Bryan Catanzaro. High-resolution image syn-thesis and semantic manipulation with conditional gans. In CVPR, 2018.

[2] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R Zaiane, and MartinJagersand. U2-net: Going deeper with nested u-structure for salient object detection. Pattern Recognition, 2020.

[3] Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji. Image-to-image Translation via Hierarchical Style Disentanglement. InProc. In CVPR, 2021.

[4] Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan: Unified genera-tive adversarial networks for multi-domain image-to-image translation. In CVPR, 2018.

[5] Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan: Unified genera-tive adversarial networks for multi-domain image-to-image translation. In CVPR, 2018.

[6] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila. Analyzing and improvingthe image quality of StyleGAN. InProc. In CVPR, 2020.

[7] Erik H ̈ark ̈onen, Aaron Hertzmann, Jaakko Lehtinen, andSylvain Paris. Ganspace: Discovering interpretable gancontrols. In NIPS, 2020.

[8] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Inter-preting the latent space of gans for semantic face editing. In CVPR, 2020.

[9] Zongze Wu, Dani Lischinski, and Eli Shecht-man. StyleSpace analysis: Disentangled controlsfor StyleGAN image generation. In arXiv, 2020.

[10] Sachit Menon, Alexandru Damian, Shijia Hu, Nikhil Ravi,and Cynthia Rudin. Pulse: Self-supervised photo upsam-pling via latent space exploration of generative models. In CVPR, 2020.

[11] Mengyu Yang, David Rokeby, Xavier Snelgrove. Mask-Guided Discovery of Semantic Manifolds in Generative Models. In NIPS Workshop, 2020.

[12] K. C. Chan, X. Wang, X. Xu, J. Gu, and C. C. Loy, Glean: Generative latent bank for large-factor image super-resolution, In CVPR, 2021.



美圖影像研究院MT Lab
美圖影像研究院MT Lab

美圖影像研究院(MT Lab, Meitu Imaging & Vision Lab)是美圖公司致力於計算機視覺、機器學習、擴增實境、雲端計算等領域的演算法研究、工程開發和產品化落地的團隊。美圖AI開放平臺由MTlab提供技術支援和保障。

相關文章