實時評估世界盃球員的正確姿勢:FAIR今日開源DensePose

機器之心發表於2018-06-19

今天,Facebook AI 研究院(FAIR)開源了 DensePose,這是一個能將人體所有畫素的 2D RGB 影像實時對映到 3D 人體模型的應用。這一模型利用 COCO 資料集中 50K 張密集型人體對應關係的標註,並在有遮擋和尺度變換等自然情況下能準確實現密集型人體姿態估計。

專案地址:http://densepose.org/ 

實時評估世界盃球員的正確姿勢:FAIR今日開源DensePose

DensePose 應用演示。

實時評估世界盃球員的正確姿勢:FAIR今日開源DensePose

左圖:輸入;中圖:對應的 DensePose-RCNN 結果;右圖:人體分割和 UV 引數化。

近期在人類理解上的研究聚焦於對稀疏的關節集合進行定位,例如手腕、手肘等。這也許對於手勢或動作識別的應用是足夠的,但它輸出的其實是縮減的影像解釋,我們希望更進一步解釋人體姿態的更多資訊。想象一下通過照片來試穿新衣服,或給你照片中的朋友穿上衣服等。對於這些任務,我們需要更復雜的基於表面的影像解釋。

DensePose 專案解決了這個問題,並旨在以基於表面的模型來理解影像中的人物。我們的研究表明用 DensePose 可以高效地計算人體的 2D RGB 影像和 3D 表面模型之間的密集對應關係。和通常對 10 個或 20 個關節(手腕、手肘等)進行人體姿態估計的研究不同,該研究考慮的是整個人體,定義了超過 5000 個節點。最終獲得的系統速度和準確率加速了和擴增實境以及虛擬現實計算機視覺之間的連線。

早期在這個問題上的研究需要分鐘級的計算時間來通過外部系統初始化(例如在人體關節定位中),而且很脆弱。DensePose 可以在單塊 GPU 上每秒處理多幀影像,並能同時對幾十甚至幾百人進行計算。

在這項研究中,我們引入了 DensePose-COCO,這是一個大規模對 COCO 資料集的 5 萬個人影像到表面對應關係進行手工標註的真值資料集。其真值是以影像到表面的形式在隨機取樣的人體位置上標註得到,還包括分割的人體部分。我們是按照 COCO 挑戰賽的訓練/驗證/測試集的劃分方式進行劃分的。

實時評估世界盃球員的正確姿勢:FAIR今日開源DensePose

DensePose-COCO 標註:給定一張 RGB 影像,對每個人以 UV 座標分配多個畫素點。

實時評估世界盃球員的正確姿勢:FAIR今日開源DensePose

DensePose-COCO 標註:我們在 3D 表面上對每個人分配多個不同位置的畫素點。

我們還為該任務開發了新的深度網路架構。我們將架構建立在 FAIR 的 Detectron 系統上,並將其整合了密集姿態估計的功能。正如在 Detectron 的 Mask-RCNN 系統中,我們使用的也是興趣區域(RoI)池化然後是全卷積處理。我們用三個輸出通道來增強網路,通過訓練來輸出對人體部分和和 UV 座標的畫素分配。最終得到的架構達到了和 Mask-RCNN 一樣的有效速度,這多虧了 Caffe2 框架。

實時評估世界盃球員的正確姿勢:FAIR今日開源DensePose

DensePose-RCNN 架構:我們使用級聯的候選區域生成與特徵池化,並跟著一個全卷積網路以預測密集型離散部位標註和連續型表面座標。

我們開源 DensePose 的目的是希望分享 FAIR 的研究方向,並儘可能開放研究成果。FAIR 希望 DensePose 能夠將計算機視覺擴增實境和計算機圖形學的研究者與開發者結合在一起,並且很快產生新的經驗,無論是建立全身過濾器還是從手機學習新的舞蹈。

DensePose 目前在 GitHub 上已經可以訪問了,FAIR 還為 DensePose-COCO 釋出了多個預訓練模型與標註資訊。

GitHub 專案地址:https://github.com/facebookresearch/DensePose

論文:DensePose: Dense Human Pose Estimation In The Wild

實時評估世界盃球員的正確姿勢:FAIR今日開源DensePose

論文地址:https://arxiv.org/abs/1802.00434

摘要:在這項工作中,我們建立了 RGB 影像與基於人類身體表面表徵之間的密集型對應關係,我們稱這種任務為密集型人體姿態估計。我們首先引入高效的標註流程,並對 COCO 資料集中出現的 50K 個人體的影像進行密集型對應關係標註。然後使用我們的資料集訓練基於 CNN 的系統,因此該系統能在「自然環境下」提供密集型的對應關係,其中自然環境表示可能存在背景、遮擋和尺度變化等。我們通過訓練一個能填補缺失標註值的「修復」網路以提升訓練集的有效性,並且該網路相對於過去能實現的最佳結果有顯著的提升。我們實驗了全卷積網路和基於區域的模型,並觀察到後者更有優越性;我們通過級聯進一步提升了準確度,且獲得了能獲得實時高準確度的系統。專案頁面中提供了補充材料與視訊:http://densepose.org/


原文連結:https://research.fb.com/facebook-open-sources-densepose/

相關文章