CVPR 2019 | 告別低解析度網路,微軟提出高解析度深度神經網路HRNet

微軟研究院AI頭條發表於2019-05-22

對於視覺識別中的區域層次和畫素層次問題,分類網路(如ResNet、VGGNet等)學到的表徵解析度比較低,在此基礎上恢復的高解析度表徵空間區分度仍然不夠強,使其在對空間精度敏感的任務上很難取得準確的預測結果。為此,微軟亞洲研究院視覺計算組提出高解析度深度神經網路(HRNet),對網路結構做了基礎性的改變,由傳統的序列連線高低解析度卷積,改成並行連線高低解析度卷積,通過全程保持高解析度和對高低解析度表徵的多次資訊交換來學到豐富的高解析度表徵,在多個資料集的人體姿態估計任務中取得了最佳的效能。

前言

視覺識別主要包括三大類問題:影象層次(影象分類),區域層次(目標檢測)和畫素層次(比如影象分割、人體姿態估計和人臉對齊等)。最近幾年,用於影象分類的卷積神經網路成為解決視覺識別問題的標準結構,比如圖1所示的LeNet-5。這類網路的特點是學到的表徵在空間解析度上逐漸變小。我們認為分類網路並不適合區域層次和畫素層次的問題,因為學到的表徵本質上具有低解析度的特點,在解析度上的巨大損失使得其在對空間精度敏感的任務上很難取得準確的預測結果。

CVPR 2019 | 告別低解析度網路,微軟提出高解析度深度神經網路HRNet

圖1. 典型的卷積神經網路:LeNet-5。其它典型的卷積神經網路,如AlexNet、VGGNet、GoogleNet、ResNet、DenseNet等,表徵的空間解析度均從大逐漸變小。

為了彌補空間精度的損失,研究者們在分類卷積神經網路結構的基礎上,通過引入上取樣操作和/或組合空洞卷積減少降取樣次數來提升表徵的解析度,典型的結構包括Hourglass、U-Net等(如圖2)。

在這類網路結構中,最終的高分辨表徵主要來源於兩個部分:第一是原本的高解析度表徵,但是由於只經過了少量的卷積操作,其本身只能提供低層次的語義表達;第二是低解析度表徵通過上取樣得到的高解析度表徵,其本身雖然擁有很好的語義表達能力,但是上取樣本身並不能完整地彌補空間解析度的損失。所以,最終輸出的高解析度表徵所具有的空間敏感度並不高,很大程度上受限於語義表達力強的表徵所對應的解析度。

CVPR 2019 | 告別低解析度網路,微軟提出高解析度深度神經網路HRNet

圖2. 從低解析度表徵恢復高解析度表徵

我們認為不應該侷限於從分類卷積神經網路生成的低解析度表徵來恢復高解析度表徵這一路線,而應該為高解析度表徵學習建立新的網路結構。基於此,我們提出了高解析度深度神經網路(High-Resolution Network,HRNet),在網路整個過程中始終保持高解析度表徵,同時多次在高低解析度表徵之間進行資訊交換,從而學到足夠豐富的高解析度表徵。

實驗證明HRNet在人體姿態估計,以及影象分割、人臉對齊和目標檢測等問題上取得了不錯的結果。我們相信HRNet將取代分類深度神經網路成為計算機視覺識別等應用的新的標準結構。關於人體姿態估計的論文已發表在CVPR 2019 [1],相關程式碼已在GitHub上開源[2, 3]。

GitHub連結https://github.com/HRNet

高解析度網路

我們在HRNet的整個網路中始終保持高解析度表徵,逐步引入低解析度卷積,並且將不同解析度的卷積並行連線。同時,我們通過不斷在多解析度表徵之間進行資訊交換,來提升高解析度和低解析度表徵的表達能力,讓多解析度表徵之間更好地相互促進,結構如圖3所示。HRNet與先前的分類卷積神經網路有著基礎性的區別:先前的分類將解析度從高到低的卷積序列連線,HRNet則是並行連線

CVPR 2019 | 告別低解析度網路,微軟提出高解析度深度神經網路HRNet

圖3. 高解析度網路 (High-Resolution Network,HRNet)

關於多解析度表徵資訊交換,這裡以三個解析度輸入和三個解析度輸出為例,如圖4所示。每一個解析度的輸出表徵都會融合三個解析度輸入的表徵,以保證資訊的充分利用和互動。將高解析度特徵降到低解析度特徵時,我們採用stride為2的3x3卷積;低解析度特徵到高解析度特徵時,先利用1x1卷積進行通道數的匹配,再利用最近鄰插值的方式來提高解析度。相同解析度的表徵則採用恆等對映的形式。

CVPR 2019 | 告別低解析度網路,微軟提出高解析度深度神經網路HRNet

圖4. 多解析度表徵資訊交換

實驗

HRNet保持高解析度表徵,利用重複的多解析度表徵資訊交換增強其表達能力,使模型所學的表徵在空間精度上有顯著的提升。實驗中,我們首先在MS COCO資料集中的關鍵點檢測任務上進行了消融實驗,驗證了表徵解析度的重要性和重複的多解析度表徵資訊交換的有效性;然後在MS COCO、PoseTrack等標準資料集中與最先進的方法進行公平對比,都取得了更好的效能。

1.表徵解析度對效能的影響

HRNet可輸出4種解析度的表徵(1x、2x、4x、以及8x),我們針對不同的網路輸出解析度在兩組模型上做了對比實驗,如圖5所示。    

CVPR 2019 | 告別低解析度網路,微軟提出高解析度深度神經網路HRNet

圖5.  網路輸出解析度對結果的影響,1x、2x和4x解析度表徵在人體姿態估計的效能。

從圖5中,我們可以清楚地看到,網路輸出表徵的解析度降低會使得模型的效能有巨大的損失。解析度在2x時,效能降低了接近6% AP,4x時降低了20% AP。這體現了表徵解析度對於空間精度的重要性。

2. 多解析度表徵資訊交換對效能的影響

CVPR 2019 | 告別低解析度網路,微軟提出高解析度深度神經網路HRNet圖6.  藍色框內為階段內的多解析度表徵資訊交換(Int. exchange within),綠色框為階段間的多解析度表徵資訊交換(Int. exchange across),紅色框為最終的多解析度表徵資訊交換(Final exchange)。

CVPR 2019 | 告別低解析度網路,微軟提出高解析度深度神經網路HRNet

表1. 多尺度特徵融合對效能的影響,實驗中每個網路是從隨機初始化開始訓練的。

我們考慮了三種資訊交換(如圖6),結果如表1。可以看到,多解析度表徵資訊交換可以將不同解析度的表徵資訊進行充分的交換利用,對錶徵增強的作用十分明顯,可以到達2.6% AP的提升。

3. 在標準資料集上的效能

MS COCO資料集是關鍵點檢測的最權威的資料集之一,我們在該資料上對我們的方法進行驗證,結果如表2所示。

CVPR 2019 | 告別低解析度網路,微軟提出高解析度深度神經網路HRNet

表2.  COCO test-dev上與最先進方法的效能比較

我們可以看到,在相同的輸入影象大小下,我們的小模型HRNet-W32在引數量和計算量都小於SimpleBaseline(ResNet-152)一半的情況下,取得了1.2% AP的提高,而大模型HRNet-W48取得了1.8% AP的提升,在引入額外資料的情況下,大模型展現了更強的表達能力,有更顯著的提升。

CVPR 2019 | 告別低解析度網路,微軟提出高解析度深度神經網路HRNet

表3. 在Pose-Track資料集上與最先進方法的效能比較

在表3中,我們在Pose-Track資料集的兩個任務上進行了驗證:(1)多幀人體姿態估計,可以利用其他幀的資訊估計某幀的姿態;(2)多幀人體姿態跟蹤,需要把不同幀間的同一個人的姿態關聯起來。前者效能用mAP來評價,後者效能用MOTA來評價。可以看到在兩個任務上,我們都取得了最好的效能。

結語

我們改變了現有的基於分類網路的人體姿態估計的網路結構,提出了高解析度深度神經網路(HRNet)。該網路能夠成功學到足夠豐富的高解析度表徵的原因在於,整個過程保持高解析度,以及多次對高低解析度表徵進行資訊補足。HRNet在多個資料集的人體姿態估計任務中取得了當前最好的效能,也在影象分割、人臉對齊和目標檢測等問題上取得了不錯的結果。我們相信HRNet將取代以分類網路為基礎的網路架構,成為計算機視覺識別等應用的新標準結構。

[1] Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang: Deep High-Resolution Representation Learning for Human Pose Estimation. CVPR 2019

[2] https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

[3] https://github.com/HRNet

相關文章