CPU上跑到 33 FPS 的簡單輕量級人體姿態估計網路

我爱计算机视觉發表於2019-11-29

姿態估計演算法中,微軟開發的 SimpleBaseline 是精度高而又輕量級的典範,昨天一篇論文Simple and Lightweight Human Pose Estimation,在該架構基礎上做了少許改進,取得了更快的速度和更小的模型Size。

論文作者資訊:

CPU上跑到 33 FPS 的簡單輕量級人體姿態估計網路

作者均來自南京大學。

該文發明的輕量級姿態估計網路LPN架構:


CPU上跑到 33 FPS 的簡單輕量級人體姿態估計網路

與SimpleBaseline類似,LPN由一個主幹網路和幾個上取樣層組成,不同的是,作者重新設計了網路中在下采樣階段的基礎元件即輕量級Bottleneck模組,並同時在上取樣階段也選擇了輕量級的形式。

改進的Bottleneck模組

如下圖:

CPU上跑到 33 FPS 的簡單輕量級人體姿態估計網路

(a)為標準Bottleneck模組,(b)為改進的Bottleneck模組,將標準卷積替換為深度可分離卷積,同時expansion 引數從4設為1,同時為了使網路能夠更好的建模全域性上下文資訊,作者又進一步在Bottleneck中新增了GC block(global context block),如(c),(d)為GC block結構示意圖。

另外,作者發明了一種迭代式的訓練方法,在不使用ImageNet資料集上預訓練的分類網路時,可以有效改進最終精度。

在訓練過程中,每一階段選擇不同的學習率,如下圖:

CPU上跑到 33 FPS 的簡單輕量級人體姿態估計網路

另外,作者提出了一種在推斷階段對heatmap進行Soft-Argmax以獲得更精確位置資訊的方法B-Soft-Argmax。

實驗結果

作者在COCO姿態估計資料集上進行了實驗。

在COCO驗證集上的結果:

CPU上跑到 33 FPS 的簡單輕量級人體姿態估計網路

在COCO test-dev集上的結果:


CPU上跑到 33 FPS 的簡單輕量級人體姿態估計網路

可見該文提出的方法,精度與SimpleBaseline相當,相比於SOTA 方法HRNet精度要低一些,但在引數量與FLOPs上僅為後者的1/30左右。


下圖為LPN與SOTA方法精度與FPS的比較:


CPU上跑到 33 FPS 的簡單輕量級人體姿態估計網路

結果是在 Intel i7-8700K CPU上執行得出的,可見該文提出的 LPN 處於一騎絕塵的位置,LPN-50 可以達到 33 FPS,大約是SimpleBaseline152和HRNet-W32的推理速度的3倍。而大型網路LPN-152 AP可以達到 71 ,仍有 23 FPS。

總之,該文提出了一種輕量級、高效的姿態估計網路架構,更具有實用價值。

目前還未發現該文有開原始碼。

論文地址:

https://arxiv.org/pdf/1911.10346v1.pdf

相關文章