美圖影像研究院(MT Lab)正式推出美圖畫質修復演算法V2(升級版),全新迭代版本取得重大技術突破,能夠在保留人臉身份資訊(identity),保持人臉不發生形變的同時,實現人像細節修復能力的大幅度提升,有效解決圖片畫質壓縮、模糊、失焦、噪聲、馬賽克等多個畫質修復核心痛點問題。目前已在美圖秀秀證件照、工具箱及影片剪輯(照片)中上線該演算法。
美圖畫質修復演算法推出V2升級版
攝影技術的廣泛普及與飛速發展深刻地改變了大眾的生活,不知不覺中早已對隨時隨地拿出手機拍攝記錄習以為常。但對很多人而言,老照片卻承載著心中綿長的歲月和難忘的回憶,凝滯著時光與那些不經意間被遺忘的美好瞬間,翻閱老照片就像是在與遙遠過去進行的一場隔空對話。昔日舊照的分享也頻登熱門話題榜,帶人們坐上時光穿梭機,掀起一場又一場的「復古風潮」。但由於年限久遠,早期攝影裝置的技術受限,手機搭載的攝像頭畫素較低,老照片的清晰度往往不高,許多照片還因經過數次轉載與壓縮導致畫質受損嚴重。
美圖深悉使用者需求,2019年美圖核心技術研發部門——美圖影像研究院(MT Lab)正式推出人像畫質修復技術,透過便捷的一鍵操作就能實現老照片中低畫質人像的高畫質還原。與此同時,還能修復模糊、失焦以及因壓縮所導致的畫質受損等各類低清影像場景。此後,針對目前人像畫質修復所面對的兩個關鍵性挑戰,其一是如何更好地去除影像上導致畫質受損的噪聲、馬賽克、模糊等影響因素;其二是在人像畫質修復過程中如何保留人臉身份資訊(identity)並保持人臉不發生形變,MT Lab持續迭代升級AI影像生成技術,基於深度學習方法自主與前沿技術,自主研發全新生成網路結構MTIR-GAN,並在此基礎上憑藉美圖數億量級資料對模型進行訓練學習,令MTIR-GAN具備優異的人像修復能力。
圖(1):美圖畫質修復演算法V2效果(上為原圖,下為效果圖)
基於MTIR-GAN的美圖畫質修復演算法V2(升級版)最終實現了對睫毛、眉毛、髮絲和膚質等臉部細節最大程度地還原修復,並保留人臉身份資訊(identity)保持人臉不發生形變。同時,有效解決因影像多次壓縮所導致的畫質受損以及由於拍攝環境如夜拍、抓拍和拍攝過程抖動等造成的照片模糊、失焦、噪聲、馬賽克等畫質修復方面的關鍵問題。不僅如此,還透過演算法升級不斷最佳化美圖自研神經網路推理框架,有效提升修復效率,使用者在1.5秒以內即可看到單人像修復後的驚豔效果,最大限度地節省了使用者的等待時間。
圖(2):美圖畫質修復演算法V2效果(上為原圖,下為效果圖)
美圖畫質修復演算法V2影像修復全流程
美圖畫質修復演算法V2採取三個步驟對待修復影像進行處理。首先,基於MT Lab的人臉技術對人臉點進行精準定位,針對人臉面部細節多,需要精細化處理的情況,單獨對臉部畫質進行修復與還原。與此同時,同步對全圖進行去彩噪、去噪、去馬賽克、去jpeg壓縮、去模糊、去輕微抖動等畫質修復操作,實現全圖畫質效果的增強,其中包括低解析度修復和高解析度增強。此外,針對解析度較高的影像處理耗時較為嚴重的問題,美圖畫質修復演算法V2採取先將待修復圖縮小到一定尺度,再進行分塊、去噪等畫質修復操作,最後透過guided-filter網路結構的畫質增強方案將其恢復為原始解析度,從而高效提升計算效率,大幅壓縮處理所需的等候時長。上述臉部修復工作和全圖修復工作並行處理完成,修復後的臉部將被貼回影像中,合成完整的修復圖。最後,利用超分網路對合成的完整修復圖進行處理,實現影像整體畫質的清晰度提升。美圖畫質修復演算法V2完整流程如下圖(3)所示:
圖(3):美圖畫質修復V2全流程
圖(4):修復效果對比
圖(5):修復效果對比
人臉修復具體流程解析
人臉修復是本次美圖畫質修復演算法升級的核心部分,人臉修復具體流程包括人臉裁框和臉部生成修復兩個部分。
1、基於最小包圍盒矩形框的人臉裁框
MT Lab在人臉裁框上舍棄了以往單純利用眼睛間距進行人臉裁切的方式,而採用最小包圍盒矩形框對人臉進行裁切,以最大限度保證人臉的完整性,具體步驟為:
(a)基於自研的人臉檢測和人臉對齊技術實現對影像中人臉點集FP的高速讀取,並計算其外接矩形,透過向外擴充得到人臉的裁切矩形。
(b)基於人臉的裁切矩形獲得人臉的旋轉角度,並從原圖中裁取擺正後的人臉影像F。
2、基於MTIR-GAN網路設計的臉部生成修復
目前,StyleGAN2可以生成逼真且高畫質的人臉,但其生成的人臉是隨機的,因而會導致人像身份資訊發生改變,無法直接用於人像畫質修復。對此,MTLab透過自研的 Encoder網路提取待修復人像的結構資訊和紋理,基於結構資訊保持人像五官形狀,防止發生形變。同時,紋理資訊可以用來引導人像髮絲、膚色、睫毛等細節生成,繼而再輸入StyleGAN2的生成網路,就能夠獲得修復完好且保留人臉身份資訊(identity),保持人臉不發生形變的人像照片,即實際上整個流程即透過替代StyleGAN2的w+空間向量和輸入其生成網路的常量實現。例如,輸入一張大小為1024 x 1024待修復的人像圖,經過Encoder網路的8次下采樣,可以得到4x4x32的結構特徵和512維度的紋理向量,再經過StyleGAN2的生成網路即可得到1024x1024的修復臉部圖,具體網路結構如下圖(6)所示:
圖(6):MTIR-GAN 網路框架圖
損失函式包括:L1 loss、Perceptual loss、Identity loss、Global D Loss、Facial D Loss。
透過修復後影像和target求得L1Loss,L1 Loss可以使影像恢復得更加清晰。Perceptual Loss採用vgg-19網路進行計算,可以更好地恢復人像膚色、質感、細節等資訊。
為更好地實現人像身份資訊的保留,採用美圖影像研究院(MT Lab)自研的人臉識別演算法對人像圖進行特徵提取求得loss。
判別網路型別主要分為全域性和區域性,基於該分類可以確保修復後的人臉呈現更加真實的狀態,區域性五官資訊則更加清晰並具有豐富細節。其中,全域性網路採用類似StyleGAN2的合成方法;區域性網路基於人臉點裁剪出眼睛、嘴巴、眉毛三個部位,然後統一resize到256x256尺度再輸入判別網路求得loss。
MT Lab深耕AI領域,聚焦技術應用
目前,美圖畫質修復演算法V2已於美圖秀秀上線,滿足使用者對照片修復的多元需求,在實現對人像五官、髮絲、眉毛、睫毛等人臉細節的進一步最佳化修復,提升皮膚真實、細膩質感的同時,也解決了在夜間拍攝、昏暗環境、拍攝抖動、抓拍等不同場景下對畫質清晰度提升的關鍵需求。
MT Lab在自研人像畫質修復演算法上實現了最佳化升級與不斷突破,作為美圖公司的頂級研發團隊,在人臉技術、美顏技術、美妝技術、人體技術、影像分割、影像生成等多個技術領域處於世界先進水平,以核心技術創新推動美圖公司的業務發展,並透過美圖AI開放平臺(ai.meitu.com)與行業共享AI領域最前沿的專業演算法服務與解決方案。未來,MT Lab也將繼續深耕AI領域,積極推動前沿技術研究和應用落地。