在姿態估計演算法中,微軟開發的 SimpleBaseline 是精度高而又輕量級的典範,昨天一篇論文Simple and Lightweight Human Pose Estimation,在該架構基礎上做了少許改進,取得了更快的速度和更小的模型Size。
論文作者資訊:
作者均來自南京大學。
該文發明的輕量級姿態估計網路LPN架構:
與SimpleBaseline類似,LPN由一個主幹網路和幾個上取樣層組成,不同的是,作者重新設計了網路中在下采樣階段的基礎元件即輕量級Bottleneck模組,並同時在上取樣階段也選擇了輕量級的形式。
改進的Bottleneck模組
如下圖:
(a)為標準Bottleneck模組,(b)為改進的Bottleneck模組,將標準卷積替換為深度可分離卷積,同時expansion 引數從4設為1,同時為了使網路能夠更好的建模全域性上下文資訊,作者又進一步在Bottleneck中新增了GC block(global context block),如(c),(d)為GC block結構示意圖。
另外,作者發明了一種迭代式的訓練方法,在不使用ImageNet資料集上預訓練的分類網路時,可以有效改進最終精度。
在訓練過程中,每一階段選擇不同的學習率,如下圖:
另外,作者提出了一種在推斷階段對heatmap進行Soft-Argmax以獲得更精確位置資訊的方法B-Soft-Argmax。
實驗結果
作者在COCO姿態估計資料集上進行了實驗。
在COCO驗證集上的結果:
在COCO test-dev集上的結果:
可見該文提出的方法,精度與SimpleBaseline相當,相比於SOTA 方法HRNet精度要低一些,但在引數量與FLOPs上僅為後者的1/30左右。
下圖為LPN與SOTA方法精度與FPS的比較:
結果是在 Intel i7-8700K CPU上執行得出的,可見該文提出的 LPN 處於一騎絕塵的位置,LPN-50 可以達到 33 FPS,大約是SimpleBaseline152和HRNet-W32的推理速度的3倍。而大型網路LPN-152 AP可以達到 71 ,仍有 23 FPS。
總之,該文提出了一種輕量級、高效的姿態估計網路架構,更具有實用價值。
目前還未發現該文有開原始碼。
論文地址:
https://arxiv.org/pdf/1911.10346v1.pdf