目前最強效能的人臉檢測演算法（Wider Face Dataset）

今天我們不說計算機視覺基礎知識，接下來說說AAAI2019一篇比較新穎的Paper，其是中科院自動化所和京東AI研究院聯合的結果，在Wider Face資料集中達到了較高的水準，比arxiv2019_VIM-FD的更好一些。今天要說的就是“Improved SRN”，現在開始一起學習吧！

Improved SRN

人臉檢測作為計算機視覺中的一個長期存在的問題，由於其實際應用，近幾十年來一直受到人們的關注。

隨著人臉檢測基準資料集的廣泛應用，近年來各種演算法都取得了很大的進展。其中，Selective Refinement Network（SRN）人臉檢測器有選擇地將分類和迴歸操作引入到anchor-based的人臉檢測器中，以減少假陽性同時提高定位精度。此外，它還設計了一個感受野增強塊，以提供更多樣化的感受野。

深度學習——感受野，如果進一步瞭解感受野，可以進入連結學習！

目前最強效能的人臉檢測演算法（Wider Face Dataset）

為了進一步提高SRN的效能，透過大量的實驗，開發了現有的一些技術，包括新的資料增強策略、改進的backbone network、MS COCO預訓練、解耦分類模組（decoupled classification module）、分割分支和壓縮激勵塊（Squeeze-and-Excitation block）。

其中，一些技術帶來了效能改進，因此，將這些有用的技術結合在一起，提出了一種改進的SRN人臉檢測器，並在廣泛使用的人臉檢測基準的人臉資料集上獲得了最佳的效能。

人臉檢測其實比較簡單，就是將影像輸入演算法框架中，最終返回輸入影像中目標人臉的bounding box。

目前最強效能的人臉檢測演算法（Wider Face Dataset）

Review of Baseline

接下來，我們先簡要回顧Selective Refinement Network（SRN）。如下圖1所示，它包括選擇性兩步分類(STC)、選擇性兩步迴歸(STR)和感受野增強(RFE)，這三個模組的詳細說明如下。

目前最強效能的人臉檢測演算法（Wider Face Dataset）

圖1 SRN。它包括選擇性兩步分類(STC)、選擇性兩步迴歸(STR)和感受野增強(RFE)。

S T C

對於單級檢測器，大量的正負樣本比的anchor（例如，大約有300k個anchor，SRN中的正/負比約為0.006%）導致了相當多的假陽性。因此，它需要另一個階段，如RPN過濾掉一些負樣本。選擇性兩步分類是從RefineDet繼承而來的，有效地拒絕了大量的負樣本anchor，緩解了類不平衡問題。

STC作用於淺層Feature Map上，來過濾掉大部分比驕傲容易區分的負樣本，來減少搜尋空間。

S T R

像Cascade RCNN這樣的多步迴歸可以提高Bounding Box位置的準確性，特別是在一些具有挑戰性的場景中，例如MS COCO風格的評估指標。然而，將多步迴歸應用於人臉檢測任務中，如果不仔細考慮，可能會影響檢測結果。

STR作用於高層Feature Map上，用來粗略調整anchor的尺度、位置（類似於RefineDet中ARM的迴歸任務），並進一步為高層Feature Map上的迴歸器提供refined後的anchor位置初始化（類似於RefineDet中ODM的迴歸任務）。

R F E

當前網路通常都具有square感受野，這影響了對不同高寬比目標的檢測。為了解決這個問題，SRN設計了一個感受野增強（RFE），在預測類和位置之前，將特徵的感受野多樣化，這有助於在某些極端姿勢中很好地捕捉到人臉。

改進說明

Improved SRN基於SRN的改進，如資料增強、特徵提取、訓練策略等。目前最強效能的人臉檢測演算法（Wider Face Dataset）

資料增廣

使用SRN的原始資料增強策略，包括光照扭曲、透過零填充操作進行隨機擴充套件、從影像中隨機裁剪塊，並調整塊的大小到1024×1024。另外，在機率為0.5的情況下，利用PyramidBox中的data-anchor-sampling，隨機選擇影像中的一個人臉，並基於子影像進行定位。這些資料增強方法對於防止過度擬合和構造魯棒模型至關重要。

目前最強效能的人臉檢測演算法（Wider Face Dataset）

特徵提取

Wider Face內小尺度人臉特別多，SRN的主幹網為：ResNet-50-FPN，可以進一步提升；ScratchDet提出了Root-ResNet，用於檢測小尺度目標，但訓練速度比原生態ResNet慢。

目前最強效能的人臉檢測演算法（Wider Face Dataset）

那麼為了保證主幹網效能好，訓練速度快，Improved SRN融合了Root-ResNet+DRN的思路。

具體地，ResNet中第一個stride = 2的7 x 7 conv，丟失了很多影像的細節資訊，對小尺度人臉檢測不利，本次的改進如下圖2，第一階段的conv整體上stride = 1，channel = 16，而非64，並新增了2個residual blocks，一方面增強特徵的表達能力，另一方面做下采樣，通道數也少了很多；整體上就是，提特徵能力強了，額外的計算開銷也減少。

目前最強效能的人臉檢測演算法（Wider Face Dataset）

圖2 網路結構圖 (a)ResNet-18：原始結構，(b)Root-ResNet-18：用三層疊置的3×3卷積層取代7×7卷積層，並將步長2改為1，(c)New-ResNet-18：將DRN與Root-ResNet-18相結合，為SRN建立一個訓練速度/精度折衷的網路骨幹。

訓練策略

由於RESNET-50-FPN主幹網已經被修改，所以不能使用ImageNet預訓練模型。一種解決方案是DRN，它在ImageNet資料集上訓練修改後的主幹，然後在更寬的面上進行細化。

然而，有人證明了ImageNet的預訓練是不必要的。因此，將訓練epoch翻了一番，達到260次，並從零開始用改進的骨幹網路訓練模型。從零開始訓練的關鍵因素之一是標準化，由於輸入量大(1024×1024)，一個24G GPU只能輸入5幅影像，導致批次歸一化從零開始訓練時效果不佳。為此，利用group=16的組規範化（Group Normalization ）從零開始訓練這個改進的ResNet-50骨幹網。

目前最強效能的人臉檢測演算法（Wider Face Dataset）

此外，最近的FA-RPN證明，人臉檢測模型若先在MS COCO上訓練一波，再在Wider Face上進一步訓練，效能會更好，Improved SRN也使用了該方案。

總結：Improved SRN中，圖2(c)中修改的主幹網，不在ImageNet上預訓練，而是直接把整個檢測網路先在MS COCO上訓練，再在Wider Face上進一步訓練即可。

為什麼MS COCO上訓練後，效果會更好呢？

文中認為是MS COCO包含了people類，而且有特別多的小尺度目標，對模型效能提升是有幫助的。

目前最強效能的人臉檢測演算法（Wider Face Dataset）

圖3 實驗結果

目前最強效能的人臉檢測演算法（Wider Face Dataset）

相關文章