Multi-Camara Methods
Co-Communication Graph Convolutional Network for Multi-View Crowd Counting https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9860092
針對問題
以往方法利用多視角影像特徵畫素級匹配,匹配關係估計親和矩陣,錯誤匹配會導致估計結果不準確
方法
將每個攝像機試圖投射到一個圖中,節點為Vi,邊為Ei,用於捕捉檢視內的上下文依賴關係和檢視間的互補關係
-
輸入:
- 多攝像頭視角資料集,模型輸入是一組來自多個攝像機視角的影像,記作
-
輸出:
- 場景級密度圖,模型的輸出是一個場景級密度圖(D),該密度圖表示整個監控區域的估計人流量。該密度圖是透過融合所有視角的資訊得到的,並且可以從中計算出總人數。
-
單視角特徵提取層:
- 使用全卷積網路(例如截斷的VGG網路)從每個輸入影像中提取特徵,得到一組初始單視角表示 {f1, f2, ..., fn}。
-
圖構建層:
- 對於每個特徵圖 fi,使用聚類方法將其投影到一個圖 Gi = (Vi, Ei) 上,其中 Vi 是節點集合,Ei 是邊集合,表示特徵向量之間的相關性。
-
圖通訊層(GCL):
- 透過建立圖之間的顯式連結來編碼跨視角的互補資訊。這一層使用匹配函式(如餘弦相似性)和訊息傳遞函式來更新每個圖的節點表示。
-
圖卷積層(GCN):
- 對每個更新後的圖表示進行圖卷積操作,以捕獲單視角內的上下文依賴性。這一層使用標準的圖卷積網路來實現。
-
圖重投影層:
- 將圖卷積層輸出的節點表示重新投影回原始特徵圖的座標空間,以增強特徵表示。這通常透過注意力機制實現。
-
共記憶層(CoML):
- 這一層透過層次化圖池化過程來學習每個單視角圖的層次化表示。它使用共享的鍵值記憶機制來粗化圖,並生成一系列層次化的圖表示。
-
寬區域表示學習層:
- 這一層將多視角特徵對映到場景級座標空間,並使用融合函式(例如連線層後跟1x1卷積層)來產生最終的場景級表示。
-
分類器:
- 最後,使用一個可學習的分類器(通常是1x1卷積層)將場景級表示對映到相應的密度圖 D,透過求和所有值來計算總人數。