ICCV2021 |重新思考人群中的計數和定位：一個純粹基於點的框架

CV技術指南（公眾號）發表於2021-08-14

原文網址 : https://www.cnblogs.com/wxkang/p/15141651.html

框架

論文：Rethinking Counting and Localization in Crowds:A Purely Point-Based Framework

程式碼：https://github.com/TencentYoutuResearch/CrowdCounting-P2PNet

獲取：在公眾號CV技術指南中回覆關鍵字“0007”可下載此論文

歡迎關注公眾號 CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

前言：

在人群中定位個體更符合後續高階人群分析任務的實際需求，而不是簡單地計數。然而，現有的基於定位的方法依賴於作為學習目標的中間表示（即密度圖或偽框）是違反直覺和容易出錯的。

論文提出了一個純粹基於點的框架，用於聯合人群計數和個體定位。對於這個框架，論文提出了一個新的度量標準，稱為密度歸一化平均精度 (density Normalized Average Precision --nAP)，而不是僅僅報告影像級別的絕對計數誤差，以提供更全面和更精確的效能評估。

此外，論文在這個框架下設計了一個直觀的解決方案，稱為點對點網路（P2PNet）。P2PNet 丟棄了多餘的步驟，直接預測一組point proposals來表示影像中的頭部，與人類標註結果一致。通過徹底的分析，論文揭示了實現這種新穎想法的關鍵步驟是為這些proposals分配最佳學習目標。

P2PNet 不僅在流行的計數基準上顯著超越了SOTA方法，而且還實現了有前途的定位精度。

出發點

在人群分析的所有相關具體任務中，人群計數是一個基本支柱，旨在估計人群中的個體數量。然而，簡單地給出一個數字顯然遠遠不能支援後續更高層次的人群分析任務的實際需求，如人群跟蹤、活動識別、異常檢測、流量/行為預測等。
事實上，這個領域有一個明顯的趨勢，即除了簡單的計數之外，更具有挑戰性的細粒度估計（即個體的位置）。具體來說，一些方法將人群計數視為頭部檢測問題，但在對小尺度頭部進行勞動密集型註釋上留下了更多的努力。其他方法試圖生成僅提供點註釋的頭部偽邊界框，但這至少看起來很棘手或不準確。同樣試圖直接定位個體，有幾種方法在抑制或分裂過近的候選例項時陷入困境，由於頭部尺度的極端變化，特別是對於高度擁擠的區域，它們容易出錯。
在評估指標方面，一些有遠見的工作鼓勵採用補丁級別的指標進行細粒度評估，但它們僅提供了對定位的粗略衡量標準。其他現有的定位感知指標要麼忽略了人群中的顯著密度變化，要麼缺乏對重複預測的懲罰。

創新思路

為了解決上述問題，論文提出了一個純粹基於點的框架，用於聯合計數和定位人群中的個人。該框架直接使用點標註作為學習目標，同時輸出點來定位個體，受益於點表示的高精度定位特性和相對便宜的標註成本。
論文提出了一種稱為密度歸一化平均精度 (density Normalized Average Precision --nAP) 的新指標，為定位和計數錯誤提供綜合評估指標。nAP 指標支援框和點表示作為輸入（即預測或註釋），沒有上述缺陷。
作為這個新框架下的直觀解決方案，論文開發了一種新方法來直接預測一組具有影像中頭部座標及其置信度的point proposals。具體來說，論文提出了一個點對點網路 (P2PNet) 來直接接收一組帶標註的頭部點用於訓練，並在推理過程中預測點。

為了使這樣的想法正確工作，論文深入研究了ground truth target分配過程，以揭示這種關聯的關鍵。結論是，無論是多個proposals 與單個ground truth匹配的情況，還是相反的情況，都會使模型在訓練期間混淆，導致高估或低估計數。

因此，論文建議通過匈牙利演算法進行一對一匹配，將point proposals與其ground truth target相關聯，未匹配的proposals 應歸類為負樣本。憑經驗表明，這種匹配有利於改進 nAP 指標，作為論文在新框架下解決方案的關鍵組成部分。這種簡單、直觀和高效的設計產生了SO他的計數效能和有前途的定位精度。

Methods

Purely Point-based Framework

這裡簡要說明這種新框架的思路。給定一個有N個個體的影像，用N個點來表示個體的頭部中心點。網路輸出兩個東西，一個是預測頭部的中心點P，一個是該中心點的置信度C。目標是使預測點與ground truth儘可能地接近，並有足夠高的置信度。

與傳統的計數方法相比，該框架提供的個體位置有助於那些基於運動的人群分析任務，如人群跟蹤、活動識別、異常檢測等此外，該框架不依賴於勞動密集型標註、不準確的偽框或棘手的後處理，受益於原始點表示的高精度定位特性，特別是對於人群中高度擁擠的區域。

因此，這個新框架由於其相對於傳統人群計數的優勢和實用價值而值得更多關注。然而，由於存在嚴重的遮擋、密度變化和標註錯誤，處理這樣的任務是非常具有挑戰性的，這在 [13] 中甚至被認為是理想的但不可行的。

Density Normalized Average Precision

一個預測點 pˆj 只有在它可以匹配到某個ground truth pi 時才被歸類為 TP。匹配過程由基於畫素級歐幾里德距離的準則 (ˆpj , pi) 指導。然而，直接使用畫素距離來測量親和度忽略了人群之間大密度變化的副作用。因此，為此匹配標準引入了密度歸一化，以緩解密度變化問題。

簡單說來就是引入最近鄰K(取3)個點，將它們的距離歸一化。

用公式表示如下：

預測與ground truth匹配方案

(a) 在為每個ground truth點選擇最近的提議時，多個ground truth點可能與同一個提議匹配，這會導致計數低估。 (b) 在為每個提案選擇最近的ground truth時，多個提案可能會與相同的地面實況點匹配，這會導致高估計數。 (c) 論文通過匈牙利演算法進行一對一匹配沒有以上兩個缺陷，因此適合直接點預測。