FSRNet：端到端深度可訓練人臉超分辨網路

PaperWeekly發表於2019-02-15

原文網址 : https://www.jiqizhixin.com/articles/2019-02-15-17

這篇文章 FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors 是 CVPR 2018 的文章（spotlight），主要思想是通過人臉影像的特殊性，從人臉影像中提取幾何先驗資訊來提高超解析度的效果，同時，為了生成更逼真的人臉影像，作者還提出了“人臉影像超解析度生成對抗網路”。

FSRNet：端到端深度可訓練人臉超分辨網路面部超解析度（SR）是特定的一類影像超解析度問題。目前大多數人臉影像超分辨演算法是由通用的影像超分辨演算法加以適當修改得到的。文章提出，可以利用特定的面部先驗知識來獲得更好的超分辨面部影像。

文章提出了一個端到端的深度可訓練面部超分辨網路，充分利用人臉影像的幾何先驗資訊，即面部 landmark 的 heatmap 和人臉解析圖，來對低解析度人臉影像進行超解析度。

網路結構及思想

具體而言，文章提出的網路的整體結構如下：首先構建粗的 SR 網路來生成粗的 HR 影像。然後，粗的 HR 影像會被送到兩個分支去：

1. 精細的SR 編碼器，提取影像特徵。

2. 先驗資訊預測網路，估計 landmark heatmap 和解析圖。

最終，影像特徵和先驗資訊會送到一個精細的 SR 解碼器來恢復 HR 影像。

整個網路的結構如下圖所示：

FSRNet：端到端深度可訓練人臉超分辨網路 ▲ 整體網路結構，標號解釋：k3n64s1：kernel size：3×3，number of channels：64，stride：1

這裡主要有兩個思想：

1. 為什麼不直接從低解析度影像得到人臉的幾何先驗資訊呢？

由於直接從 LR 輸入中估計面部的 landmark 以及解析圖是有一定複雜度的，所以首先構建一個粗糙的 SR 網路，來生成粗糙的 HR 影像。然後粗糙的 SR 影像就會被送到一個精細的 SR 網路，這個網路中，一個精細的 SR 編碼器和一個先驗資訊的估計網路會共同以粗糙的 HR 影像作為輸入，然後後面接上一個精細的 SR 解碼器。

精細的 SR 編碼器提取影像特徵，而先驗資訊的估計網路則通過多工學習同時估計 landmark heatmap 和解析圖，這樣操作的話，得到的效果會更好。

2. 幾何先驗特徵的選取

任何真實世界的物體在其形狀和紋理上都有不同的分佈，包括臉部。比較面部形狀和紋理，我們選擇建模並利用形狀先驗資訊基於兩個考慮因素。

第一，當影像從高解析度到低解析度時，相比於紋理資訊，形狀資訊會更好地儲存下來，因此更有可能被提取出來促進超解析度的效果。

第二，形狀先驗資訊比紋理先驗資訊更容易表現。例如，面部解析估計不同面部元件的分割，landmark 則提供面部關鍵點的準確位置。兩者都可以表示面部形狀，而面部解析則帶來更多粒度。相反，目前尚不清楚如何對一張特定的人臉的高維度紋理先驗進行表示。

網路細節

粗糙的SR網路（第一階段）

FSRNet：端到端深度可訓練人臉超分辨網路 ▲ 3個殘差單元，kernel size和stride的設定使得特徵圖的大小始終不變

精細的SR網路（第二階段）

FSRNet：端到端深度可訓練人臉超分辨網路 ▲ 第二階段網路，HG Block指的就是HourGlass結構

1. 先驗資訊估計網路

從最近成功的疊加熱圖迴歸在人體姿勢估計中受到啟發，文章提出在先驗資訊估計網路中使用一個 HourGlass 結構來估計面部 landmark 的 heatmap 和解析圖。因為這兩個先驗資訊都可以表示 2D 的人臉形狀，所以在先驗資訊估計網路中，特徵在兩個任務之間是共享的，除了最後一層。

為了有效整合各種尺度的特徵並保留不同尺度的空間資訊，HourGlass block 在對稱層之間使用 skip-connection 機制。最後，共享的 HG 特徵連線到兩個分離的 1×1 卷積層來生成 landmark heatmap和解析圖。

2. 精細的SR編碼器

受到 ResNet 在超分辨任務中的成功的啟發，文章使用 residual block 進行特徵提取。考慮到計算的開銷，先驗資訊的特徵會降取樣到 64×64。為了使得特徵尺寸一致，編碼器首先經過一個 3×3，stride為 2 的卷積層來把特徵圖降取樣到 64×64。然後再使用 ResNet 結構提取影像特徵。

3. 精細的SR解碼器

解碼器把先驗資訊和影像特徵組合為輸入，首先將先驗特徵 p 和影像特徵 f 進行 concatenate，作為輸入。然後通過 3×3 的卷積層把特徵圖的通道數減少為 64。然後一個 4×4 的反摺積層被用來把特徵圖的 size 上取樣到 128×128。然後使用 3 個 residual block 來對特徵進行解碼。最後的 3×3 卷積層被用來得到最終的 HR 影像。

損失函式

FSRNet

FSRNet 包含四個部分：粗糙的 SR 網路，精細的 SR 編碼器，先驗資訊估計網路，精細的 SR 解碼器。設 x 為輸入的低解析度影像，y 和 p 是高解析度影像和估計得到的先驗資訊。

由於直接從低解析度影像中得到影像的先驗資訊的效果不是那麼好，所以首先構建一個粗糙的 SR 網路來得到一個粗糙的 SR 影像：

FSRNet：端到端深度可訓練人臉超分辨網路

C 代表對映（LR 輸入到粗糙的 HR 影像輸出之間的對映）。然後，Yc 會被送入先驗資訊的估計網路 P 和精細的 SR 編碼器 F：

FSRNet：端到端深度可訓練人臉超分辨網路

f 為從網路 F 提取得到的特徵。在編碼以後，SR 解碼器則會利用影像特徵 f 和影像先驗資訊 p 得到最終的 HR 影像 y:

FSRNet：端到端深度可訓練人臉超分辨網路

給定訓練集 FSRNet：端到端深度可訓練人臉超分辨網路，FSRNet的損失函式如下（和為 ground truth）：

FSRNet：端到端深度可訓練人臉超分辨網路

FSRGAN

對於 FSRGAN（人臉超分辨生成對抗網路），作者參考 CVPR 2017 用於影像轉換的條件生成對抗網路 cGAN [1]：

FSRNet：端到端深度可訓練人臉超分辨網路

並引入了感知域損失（high-level 的特徵圖之間的損失，文章使用預訓練的 VGG-16 來得到高層特徵圖）：

FSRNet：端到端深度可訓練人臉超分辨網路

得到最終的損失函式為：

FSRNet：端到端深度可訓練人臉超分辨網路

訓練設定

Dataset：Helen & celeA

對於 Helen 資料集，2330 張影像，後 50 張影像作為測試，其他作為訓練，並且使用資料增強（旋轉 90°，180°，270°，以及水平翻轉，所以每張圖都有 7 張資料增強圖），Helen 資料集的每張影像都有 194 個 landmark 和 11 個解析圖。

對於 celeA 資料集，用前 18000 張影像進行訓練，後 100 張影像進行評價。celeA 資料集的 ground truth landmark 數只有 5 個，所以要用一些方法得到 68 個 landmark，以及使用 GFC 方法來估計解析圖的 ground truth。

訓練設定

根據面部區域粗略裁剪訓練影像，在沒有任何預先對齊的情況下裁剪到 128 × 128，彩色影像訓練。低解析度影像首先經過bicubic插值到高解析度影像大小，再進行訓練。

框架：Torch 7

優化器：RMSprop

初始學習率： FSRNet：端到端深度可訓練人臉超分辨網路

Mini-batch size：14

FSRNet：端到端深度可訓練人臉超分辨網路

在 Helen 資料集上訓練 FSRNet 大約需要 6 小時（Titan X）。

與SOTA方法的比較

FSRNet：端到端深度可訓練人臉超分辨網路

放大 8 倍後的效能比較，雖然 FSRGAN 的兩項指標（PSNR/SSIM）都不如 FSRNet，但是從視覺效果上看更加真實。

這也與目前的一個共識相對應：基於生成對抗網路的模型可以恢復視覺上合理的影像，但是在一些指標上（PSNR , SSIM）的值會低。而基於 MSE 的深度模型會生成平滑的影像，但是有高的 PSNR/SSIIM。

總結

本文提出了深度端到端的可訓練的人臉超分辨網路 FSRNet，FSRNet 的關鍵在於先驗資訊估計網路，這個網路不僅有助於改善 PSNR/SSIM，還提供從非常低解析度的影像精確估計幾何先驗資訊（landmark heatmap 和解析圖）的解決方案。實驗結果表明 FSRNet 比當前的 SOTA 方法要更好，即使在未對齊的人臉影像上。

未來的工作可以有以下幾個方面：1）設計一個更好的先驗資訊估計網路；2）迭代地學習精細的 SR 網路；3）調研其他有用的臉部先驗資訊。

參考文獻

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros, Image-to-Image Translation with Conditional Adversarial Networks, CVPR 2017.

ICLR 2019 | 用淺度學習訓練深度網路：避開端到端深度學習難題
2018-10-11
ICLR深度學習
曠視科技提出新型端到端可訓練網路Mask TextSpotter：可檢測和識別任意形狀的文字
2018-09-04
什麼是端到端的訓練或學習？
2020-11-01
深度學習 | 訓練網路trick——mixup
2020-08-09
深度學習
深度學習煉丹-超引數設定和網路訓練
2022-12-12
深度學習
端到端網路全鏈路監控方案
2022-12-22
祕籍在手，訓練不愁！特斯拉AI負責人Karpathy的超全神經網路訓練套路
2019-04-26
AI神經網路
Batch Normalization: 如何更快地訓練深度神經網路
2019-04-18
BATORM神經網路
端到端神經網路的跳一跳玩法
2019-02-23
神經網路
深度學習之影象超分辨重建技術
2018-03-26
深度學習
如何為 5G 網路構建端到端的安全？
2021-06-28
深度學習訓練時網路不收斂的原因分析總結
2019-03-03
深度學習
深度學習與CV教程(6) | 神經網路訓練技巧 (上)
2022-06-01
深度學習神經網路
NetNORAD：通過端到端探測對網路進行故障排除
2018-07-10
融雲網際網路通訊安全系列之端到端加密技術
2022-04-26
加密
生成對抗網路綜述：從架構到訓練技巧
2019-02-14
架構
All in one：如何搭建端到端可觀測體系
2021-12-23
如何理解深度學習領域中的端到端（end to end）
2024-03-13
深度學習
人體解析端到端框架——CE2P
2019-02-21
框架
3.3 神經網路的訓練
2019-12-31
神經網路
深度學習革命的開端：卷積神經網路
2019-02-18
深度學習卷積神經網路
目標檢測 YOLO v3 訓練人臉檢測模型
2018-07-05
YOLO模型
【人臉識別7】haar+CART+Adaboost+Cascade訓練過程分析
2018-06-09
雲端開爐,線上訓練,Bert-vits2-v2.2雲端線上訓練和推理實踐(基於GoogleColab)
2023-12-19
Go
Siamese RPN 訓練網路結構解析
2018-11-07
深度神經網路的分散式訓練概述：常用方法和技巧全面總結
2018-11-05
神經網路分散式
MPLS VPN：端到端全程全網技術——Vecloud
2021-03-12
Cloud
CVPR 2019 | 德國馬普所提出端到端模型RingNet，基於單張影像進行3D人臉重建
2019-06-18
模型3D
【工業網際網路】苗凱翔 : 大資料與霧計算：端到端工業網際網路的重要趨勢
2018-03-14
大資料
端到端拉通
2018-03-19
端到端的開放域聊天機器人_Google_Meena
2020-12-08
機器人Go
訓練自己的Android TensorFlow神經網路
2020-10-25
Android神經網路
Java 基於ArcFace人臉識別2.0 服務端Demo
2019-01-31
Java服務端
伺服器端訓練yolov5使用tensorboard＋埠轉發實時檢視訓練成果
2024-10-21
伺服器YOLOORB
端到端智慧音響
2022-05-25
零基礎入門深度學習（一）：用numpy實現神經網路訓練
2020-01-09
深度學習神經網路
【vjudge訓練記錄】11月個人訓練賽1
2024-11-03
使用tf.estimator.Estimator訓練神經網路
2018-09-16
神經網路

FSRNet：端到端深度可訓練人臉超分辨網路

網路結構及思想

網路細節

損失函式

訓練設定

相關實驗（8倍放大）

與SOTA方法的比較

總結

相關文章