人體解析端到端框架——CE2P

極驗發表於2019-02-21

人體解析是細粒度的語義分割任務,其旨在識別畫素級別的人類影象的組成部分(例如,身體部位和服裝)。本文確定了包括特徵解析度,全域性上下文資訊和邊緣細節等幾個有用的屬性,並執行嚴格的分析以揭示如何將它們應用到人體解析任務中。

基於上述屬性,本文提出了一個簡單而有效的框架——Context Encedding with Edge Perceiving(CE2P)框架,用於單人解析。CE2P是端到端的可訓練的,可以很容易地用於進行多人解析。在第二次(LIP)挑戰中贏得了三個人體解析評估指標的第一名,取得了56.50%(mIoU),45.31%(mean 人體解析端到端框架——CE2P )和33.34%( 人體解析端到端框架——CE2P ),其表現分別超過了最優模型2.06%,3.81%和1.87%。

當前的語義分割方法有兩類

1.高解析度保持

這種方法試圖獲得高解析度的特徵以恢復所需的詳細資訊。由於連續的空間池化和卷積步幅,最終特徵對映的解析度顯著降低,從而丟失了更精細的影象資訊。為了產生高解析度特徵,有兩種典型的解決方案,即去掉幾個下采樣操作和從低階特徵圖中引入細節。對於後一種情況,它通常嵌入在編碼器——解碼器架構中,其中在編碼器中捕獲高階語義資訊,並且在解碼器中恢復細節和空間資訊。

2.上下文資訊嵌入

上下文資訊嵌入這種方法致力於捕獲豐富的上下文資訊以處理具有多個尺度的物件。特徵金字塔是緩解各種尺度引起的問題的有效方法之一,以及基於空洞卷積的ASPP和金字塔場景解析(PSP)是兩個比較受歡迎的結構。 ASPP利用具有不同rate的並行空洞卷積層來結合多尺度上下文。 PSP設計金字塔池操作,將本地和全域性資訊整合在一起,以實現更可靠的預測。除了這兩種典型型別之外,其他一些作品還建議通過引入額外資訊(如邊)或更有效的學習策略(如級聯訓練)來優化分割效能。

CE2P組成

1)高解析度嵌入模組,用於擴大特徵圖以恢復細節;

2)用於編碼多尺度上下文資訊的全域性上下文嵌入模組;

3)邊緣感知模組,用於整合物件輪廓的特徵以細化解析預測的邊界。

CE2P結構介紹

CE2P將本地精細細節,全域性上下文和語義邊緣上下文整合到一個統一的網路中。 如圖所示,它由三個關鍵元件組成,用於學習端到端解析,即上下文嵌入模組,高解析度嵌入模組和邊緣感知模組。 採用ResNet-101作為特徵提取骨幹。

人體解析端到端框架——CE2P

上下文嵌入模組

全域性上下文資訊可用於區分細粒度類別。例如,左右鞋在外觀上具有相對高的相似性。為了區分左右鞋,全域性資訊(如腿和身體的方向)提供了有效的先驗上下文。特徵金字塔是捕獲上下文資訊的有效方式。 借鑑之前的PSP工作,我們利用金字塔池模組來整合全域性表示。 我們對從ResNet-101中提取的特徵執行四次平均池化操作,以生成尺寸分別為1×1,2×2,3×3,6×6的多尺度上下文特徵。 這些上下文特徵被上取樣以通過雙線性插值與原始特徵圖保持相同的大小,其進一步與原始特徵連線。 然後,採用1×1卷積來減少通道並更好地整合多尺度上下文資訊。 最後,上下文嵌入模組的輸出作為全域性先驗上下文被饋送到下面的高解析度模組中。

高解析度嵌入模組

在人體解析中,存在若干要分割的小物件,例如, 襪子,鞋子,太陽鏡和手套。 因此,最終畫素級分類的高解析度特徵對於生成準確預測至關重要。 為了恢復丟失的細節,我們採用了一種簡單而有效的方法,它嵌入了來自中間層的低階視覺特徵,作為高階語義特徵的補充。 我們利用conv2中的功能捕獲高解析度細節。 全域性上下文特徵通過因子4採用雙線性插值進行上取樣,並在1×1卷積減少通道後與區域性特徵連線。 最後,我們對連線得到的特徵進行兩次順序1×1卷積,以更好地融合區域性和全域性上下文特徵。 以這種方式,高解析度模組的輸出同時獲得高階語義和高解析度空間資訊。

邊緣感知模組

該模組旨在學習輪廓的表示以進一步銳化並改進預測。 我們引入了三個分支來檢測多尺度語義邊緣。 如圖1所示,對conv2,conv3和conv4進行1×1卷積以生成語義邊緣的2通道分數圖。 然後,執行1×1卷積以獲得融合邊緣圖。 邊緣分支的那些中間特徵(其可以捕獲物件邊界的有用特徵)被上取樣並與來自高解析度的特徵連線。 最後,在級聯特徵圖上執行1×1卷積以預測畫素級人體部分。

損失函式

人體解析端到端框架——CE2P

其中人體解析端到端框架——CE2P表示邊緣模組檢測到的邊緣圖與二值邊標籤圖之間的加權交叉熵損失函式; 人體解析端到端框架——CE2P表示高解析度模組的解析結果與解析標籤之間的交叉熵損失函式;  人體解析端到端框架——CE2P表示從邊緣感知分支預測的最終解析結果與解析標籤之間的交叉熵損失函式

多人解析

MHP是一項更具挑戰性的任務,它不僅需要對畫素的語義進行分類,還需要識別這些畫素所屬的例項(即一個獨特的人)。 為了在多人的情景下實現高質量的解析結果,我們在CE2P和Mask R-CNN上設計了一個名為M-CE2P的框架。

人體解析端到端框架——CE2P

全域性解析

儘管CE2P被提議用於單人解析,但我們發現它在多個人類影象上也顯示出相當大的效能。 因此,我們首先將它應用於整個影象以進行全域性解析。 對於Bg的分支,我們用整個影象訓練CE2P模型。然後,該分支的輸出被用作對以下區域性解析的補充。 當多個人之間存在遮擋時,全域性解析分支可以提供上下文資訊。 例如,可以容易地區分形成不同人的相同語義部分,並且可以捕獲人之間的空間關係以處理遮擋的情況。 但是,它並沒有集中在相對較小的人例項上。 結果,Bg可能忽略了屬於小尺度的人的身體部位。

具有預測例項mask的區域性解析

為了緩解全域性解析Bg的問題,我們考慮將人員定位為預處理步驟以生成準確的解析結果。為此,我們提出了一個專門針對人類級本地解析的兩階段分支。具體來說,我們使用Mask R-CNN來提取輸入影象中的所有人物patch,並調整它們的大小以適應CE2P的輸入大小。然後,將所有人級子影象饋送到CE2P中以訓練模型以用於本地檢視。在測試階段,通過Mask R-CNN提取具有單個人類輸入影象例項的子影象,並進一步饋送到訓練模型中以進行解析預測。通過雙線性插值將預測的置信度圖調整為原始大小,以用於整個影象的後續預測。最後,用零填充每個子影象的置信度圖以保持與來自Bg的置信度圖相同的大小,並且通過前景通道上的元素求和和背景通道上的最小化進一步融合在一起。

用ground-truth例項mask進行區域性解析

考慮到從ground-truth例項mask獲得的人類例項更接近於真實單個人類影象,我們引入分支  來訓練具有從ground-truth例項mask生成的資料的模型。 這個分支與  非常相似,唯一的區別是我們在訓練階段使用ground-truth邊界框獲得人物patch。 使用  ,可以進一步提高區域性解析的效能。 最後,由三個分支生成的預測通過逐元素求和來融合,以獲得最終的例項解析結果。 預測的與例項無關的解析結果進一步饋入後續過程以進行例項級解析。

例項級解析和標籤細化

通過從M-CE2P獲得的與例項無關的解析結果,我們考慮兩個方面來生成例項級標籤,即用於預測例項感知結果的例項分配和用於解決Mask R-CNN的欠整齊現象不足的標籤細化。我們直接應用Mask R-CNN生成的human mask來分配全域性身體部位的例項級標籤。具體地說,當身體部位屬於相同類別的不同的mask時,將被分配不同的部位例項標籤。通過實驗,我們發現從我們的CE2P預測的解析mask比人類例項圖更可靠。為了進一步驗證解析結果的可靠性,我們通過擴充套件具有相同解析標籤的領域畫素的交叉區域,同時跨越例項來引入標籤細化。例如,邊緣部分的一些區域(例如,頭髮,手)很可能在預測的人類mask區域之外,我們使用基於搜尋的方法來緩解這個問題。 具體地,對於從分配步驟獲得的每個部位邊界畫素,我們使用廣度優先搜尋來找到賦予例項類標籤但由於分割預測的不準確性而沒有部位標籤的畫素。 通過所提出的改進,由人類mask排除的身體部位可以有效地包括在最終的例項級結果中。

實驗結果

我們比較了本文提出的方法進行單人解析與LIP資料集上的其他現有技術的表現,進一步評估了CIHP上的多人解析和MHP v2.0資料集。

LIP資料集:LIP(Liang et al.2017)資料集用於LIP挑戰2016,這是一個專注於單人解析的大型資料集。 在畫素級有50,462個具有細粒度註釋的影象,具有19個語義人類部分標籤和一個背景標籤。 這些影象進一步分為30K / 10K / 10K,分別用於訓練,驗證和測試。

CIHP資料集:CIHP(Gong等人,2018)提供了一個包含38,280種不同人類影象的資料集,其中包含28,280次訓練,5K驗證和5K測試影象。 影象具有20個類別和例項級標識的逐畫素註釋。

MHP v2.0資料集:MHP v2.0資料集設計用於野外的多人解析,包括25,403個具有更多類別的影象,最多58個語義標籤。 驗證集和測試集分別具有5K影象。 其餘15,403作為訓練集提供。

人體解析端到端框架——CE2P

指標:我們使用平均IoU來評估全域性級別的預測,並使用以下三個度量來評估例項級別的預測。(mean 人體解析端到端框架——CE2P)計算精確IoU閾值限制下召回曲線下的面積,並計算最終平均結果。(人體解析端到端框架——CE2P)語義例項類別的畫素級IoU。PCP詳細說明了使用畫素級IoU引導的某個人正確預測了多少身體部位。

更多實現細節

我們在PyTorch的基礎上實現了提議的框架,並採用ResNet101作為骨幹網路。 在訓練和測試期間,影象的輸入大小為473×473。 我們採用與Deeplab類似的訓練策略,即基礎學習率為0.007的“Poly”學習率策略。 我們對網路進行了大約150個時期的微調。 對於資料增強,我們在訓練期間應用隨機縮放(從0.5到1.5),裁剪和左右翻轉。 注意,邊緣感知模組中使用的邊註釋是通過提取不同語義之間的邊界從解析註釋直接生成的。

論文貢獻:

分析了幾種屬性對人體解析的有效性,並揭示瞭如何利用它們來應用到人體解析任務。

通過利用有用的屬性以簡單有效的方式進行人體解析,設計了一個簡單而有效的CE2P框架。

CE2P為三個人類解析基準測試帶來了顯著的效能提升,大大超過了當前最先進的方法。

程式碼可用,可作為單/多人解析的未來研究的堅實基線。

參考連結:

https://arxiv.org/pdf/1809.05996.pdf

https://github.com/liutinglt/CE2P

相關文章