加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

AIBigbull2050發表於2019-09-17

唐木 發自 天龍寺

量子位 出品 | 公眾號 QbitAI

顏水成團隊研究實力依然強勁。

從360到依圖,顏水成依然保持著高質量的學術輸出。

最近提出的單階段高效人體姿態檢測模型SPM就是最好的例證,論文被ICCV收錄。

這篇論文從全新的角度處理了單影像多人姿態檢測的問題,通過新提出的結構化位姿表示方法(Structured Pose Representation)將多人姿態檢測問題從先前的兩階段方法濃縮為單階段檢測,大幅度提高了人體位姿檢測的效率和精度。

讓我們先來看看這種新方法的檢測結果,對於單張影像可以有效檢測出其中包含的人體及其每個關節的位置資訊。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

甚至可以檢測面部關鍵點位置:

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

三維檢測也不再話下:


加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”


在保證精度和效能的同時,這種高效方法在速度上達到了將近20幀的速度,大幅超越先前演算法。

結構化位姿表示

這種方法的關鍵在於顏水成團隊提出了一種新的位姿表達方法SPR(structure pose representation)將人體例項的位置關節的位姿統一起來,簡化了人體檢測和關節定位的流程,從而大幅圖提升了多人位姿估計的處理效率。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

這種新的表示方法將影像中的人體和關節位姿通過結構化和層次化的方式來呈現:

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

要充分理解SPR這種新表達的優勢,我們需要先回顧一下先前對於位姿檢測方法的流程。

多人位姿檢測的任務是在給定的影像中估計出每一個人體例項的位置及其關節的位姿。

目前多人位姿估計將人體位置檢測和關節位姿檢測作為任務的兩個階段來進行,主要是策略主要有自底向上和自頂向下兩種方法。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

自頂向下的方法可以簡單理解為先檢測人再分別檢測每個人的關節位姿。

這類方法首先利用人體檢測器來定位和分離影像中每一個人體例項,隨後再利用單人位姿估計器來對每一個例項的關節位姿進行檢測和定位。

自底向上的方法則是一種先關節後人體的思路。這類方法首先利用關節估計器尋找出影像中所有的關節位姿,而後估計出圖中的人體例項,並通過求解圖切分問題將對應的關節賦予對應的人。

無論是哪種方法,都需要進行兩次檢測,一次檢測人的位置,一次檢測關節的位置。兩個網路就圍著同一張影像需要處理兩次甚至更多次,這還不算資料交換和後處理帶來的延遲。

如果可以將兩個階段的檢測任務統一到一個框架裡,一個網路一次推理即可完成,那樣是不是就可以大大提高計算效率了?!

先前的方法之所以需要兩個階段,主要是由於關節位姿的表示需要基於人體例項的位置來進行。顏水成團隊從這個角度出發,探索了新的關節位姿表達方式SPR。

想要單階段實現多人位姿估計,就需要一個統一人體位置和關節位置的表達。SPR提出了一個很具有啟發的觀點,它在常規的關節位置外引入了一個輔助關鍵位置——基準關節,這個基準關節就代表了人體例項的位置。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

這個獨特的關節表示成為了解決問題的關鍵所在。

每個人體關鍵就可以表示為基於這一基準關節的偏移。在這樣的表達下,檢測問題就被轉換為了預測每個人體對應的基準關節以及各個關節相對於基準關節的偏移量,兩階段為題就可以通過統一的關節表達而簡化為單階段問題:

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

這就是需要進行估計的量,只需要估計出圖中每個人體基準關鍵的位置和每個關鍵的相對偏移就能實現多人位姿估計。需要指出的是,只需要將對應關節的偏移加上基準位姿就可以轉換為先前的第i個人第j個關節的位姿表達:


加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”


這種方法看上去已經很好地將人體位置和關節位置統一在了一起。但人是在運動的,有些關節離中心的基準關節偏移太大,直接從影像中迴歸出這些關節的偏移量難度較大誤差也大。怎麼辦呢?

看看自己的手,從肩膀到手肘,從手肘到手腕,一級級相連。似乎手腕到手肘更近一些?

就是這個思路!基於人體的運動結構,將關節的位移分為了四個層級,將相對於基準關節的偏移轉換為了相對於上一級關節的偏移。其中基準關節也就是人體位置在第一層,包括脖子、肩膀、臀部等軀幹關節被歸為第二層,頭、肘、膝蓋則在第三級上、最後腕和踝則在最後一級。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

人體各個關節偏移被重新表示為了與相鄰層級上一關節的相對偏移(加上了波浪線的新位移)。

這樣,手腕到身體中心的偏移就被巧妙地分解為手到肘、肘到肩、肩到中心的短距離位移疊加,減小了偏移估計的難度同時也充分利用了軀幹構造的結構資訊。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

快到飛起的SPM

有了這種新的統一的結構化的表示,新方法也應運而生。

利用這種統一的表示方法,單階段推理模型的任務就變得十分清晰了,從影像中估計出每個人體例項的關節集合,包括了基準關節和各個關節相對基準關節的相對基準關節的偏移情況。

這一名為SPM的模型採用了Hourglass network作為主幹,這一網路模型由多個Hourglass模組堆疊而成,每個模組則利用了U-Net的結構來進行特徵抽取和解碼用於關節定位。為了充分複用低層級的空間資訊來優化高層語義資訊,SPM加入了多個跳接層來實現跨層級的資訊流動。

在原始Hourglass模型的基礎上,SPM不僅使用了置信度迴歸分支來預測每個人體的基準位置、同時加入了偏移回歸分支來預測每個人體關節的偏移圖。通過這樣的方式SPM就能在一次前傳中獲得多人位姿的估計結果。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

其損失函式也因此包含了基準關節損失和各個關節偏移預測損失的兩部分:

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

實驗結果

這一模型的有效性在包括MPII,PASCAL-Person-Part,MSCOCO以及CMU Panoptic等多個人體位姿資料集上進行了實驗。其中前三個為二維影像資料集,最後一個為3D空間位姿標記的資料集。

研究人員首先在MPII資料集上對多種演算法的效能進行了對比,結果顯示基於新表示方法下的SPM模型可以達到58ms的速度,比先前兩階段的方法中最快的自底向上方法提升了約五倍的速度,並實現了78.5%的mAP值,在效率和精度上都超過了先前的方法。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

此外,研究人員還發現將SPR替換為層次SPR還可以進一步提高模型的mAP,特別是對於離身體中心較遠的腕和踝都得到了將近4%的mAP提升。結果清楚的表明關節的分層表示可以顯著提高多人位姿估計任務的效能。


加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”


這種方法還可以很方便的擴充到三維情況,在CMU Panoptic資料集中進行的實驗表明SPM對於位姿變化、遮擋、尺度和深度變化都很魯棒。

它改變了先前只能定性測評三維位姿資料的狀況,並在這一資料集上達到了77.8的3D-PCK。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

顏水成團隊

這一單階段多人位姿檢測模型在精度和速度上都實現了非常大的突破,讓高速的多人位姿檢測成為可能,同時也為三維位姿檢測問題給出了可能的解決方案。

論文來自新加坡國立大學和依圖科技,這也是顏水成履新依圖之後釋出首篇會議論文。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

一作聶學成,是顏水成和馮佳時聯合指導的博士生,目前正在NUS進行計算機視覺方面的研究工作,並在頂會頂刊上發表了多篇優秀論文。

二作張健鋒畢業於武漢大學,目前在馮佳時老師的指導下在NUS作為研究助理與聶學成緊密合作開展視覺方面的研究工作。

顏水成老師是視覺領域的優秀科學家,作為NUS視覺團隊的帶頭人為學界貢獻了諸多研究成果,目前是依圖科技CTO。

加盟依圖科技後,顏水成首篇頂會論文提出“多人體姿態檢測SPM”

馮佳時老師曾是顏水成老師的博士生,研究方向包括機器學習、深度學習、大規模機器學習及其在視覺、資料分析和人工智慧方面的應用,目前領導著NUS學習與視覺實驗室課題組的研究工作。

論文傳送門:

https://arxiv.org/pdf/1908.09220.pdf

— 完 —

https://www.toutiao.com/a6737127683315991048/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2657212/,如需轉載,請註明出處,否則將追究法律責任。

相關文章