methods

AzathothLXL發表於2024-04-09

Multi-Camara Methods

Co-Communication Graph Convolutional Network for Multi-View Crowd Counting https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9860092

針對問題

以往方法利用多視角影像特徵畫素級匹配,匹配關係估計親和矩陣,錯誤匹配會導致估計結果不準確

方法

CoCo-GCN

將每個攝像機試圖投射到一個圖中,節點為Vi,邊為Ei,用於捕捉檢視內的上下文依賴關係和檢視間的互補關係

  • 輸入

    • 多攝像頭視角資料集,模型輸入是一組來自多個攝像機視角的影像,記作
  • 輸出

    • 場景級密度圖,模型的輸出是一個場景級密度圖(D),該密度圖表示整個監控區域的估計人流量。該密度圖是透過融合所有視角的資訊得到的,並且可以從中計算出總人數。
  • 單視角特徵提取層:

    • 使用全卷積網路(例如截斷的VGG網路)從每個輸入影像中提取特徵,得到一組初始單視角表示 {f1, f2, ..., fn}。
  • 圖構建層:

    • 對於每個特徵圖 fi,使用聚類方法將其投影到一個圖 Gi = (Vi, Ei) 上,其中 Vi 是節點集合,Ei 是邊集合,表示特徵向量之間的相關性。
  • 圖通訊層(GCL):

    • 透過建立圖之間的顯式連結來編碼跨視角的互補資訊。這一層使用匹配函式(如餘弦相似性)和訊息傳遞函式來更新每個圖的節點表示。
  • 圖卷積層(GCN):

    • 對每個更新後的圖表示進行圖卷積操作,以捕獲單視角內的上下文依賴性。這一層使用標準的圖卷積網路來實現。
  • 圖重投影層:

    • 將圖卷積層輸出的節點表示重新投影回原始特徵圖的座標空間,以增強特徵表示。這通常透過注意力機制實現。
  • 共記憶層(CoML):

    • 這一層透過層次化圖池化過程來學習每個單視角圖的層次化表示。它使用共享的鍵值記憶機制來粗化圖,並生成一系列層次化的圖表示。
  • 寬區域表示學習層:

    • 這一層將多視角特徵對映到場景級座標空間,並使用融合函式(例如連線層後跟1x1卷積層)來產生最終的場景級表示。
  • 分類器:

    • 最後,使用一個可學習的分類器(通常是1x1卷積層)將場景級表示對映到相應的密度圖 D,透過求和所有值來計算總人數。

效果圖

result

相關文章