一種提升深度多視角行人檢測的泛化效能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

AzathothLXL發表於2024-04-10

一種提升深度多視角行人檢測的泛化效能的方法 Bringing Generalization to Deep Multi-View Pedestrian Detection

論文urlhttps://openaccess.thecvf.com/content/WACV2023W/RWS/html/Vora_Bringing_Generalization_to_Deep_Multi-View_Pedestrian_Detection_WACVW_2023_paper.html

論文簡述

論文提出了一種用於多視角行人檢測的深度學習模型,旨在提高模型在不同攝像機數量、不同攝像機配置和新場景下的泛化能力。

總體框架圖

figure1

輸入

$ {N} $ 個校準的RGB攝像頭影像,影像尺寸為( 3 , $ {H}{i} $ , $ {W} $),其中 $ {H}{i} $ 和 $ {W} $ 分別代表影像的高度和寬度。

DropView Regularization

figure2

  • 操作:在訓練過程中,對於每批次視角樣本,隨機選擇一個或多個視角進行丟棄,即不使用這些視角圖進行訓練。
  • 作用:迫使模型學習到不依賴於任何單一視角的特徵表示,這一操作也可以看作資料增強,模擬了在實際應用中可能遇到的攝像頭失效或視角遮擋等情況,從而使模型在面對不完整資料時仍能保持效能。提高了魯棒性,增強了泛化能力。

特徵提取模組(Feature Extraction)

  • 操作:使用ResNet18作為特徵提取的主幹網路,並將最後三層的步長大卷積替換為空洞卷積(dilated convolutions),以獲得更高空間解析度的特徵圖。
  • 輸出: $ {N} $ 個攝像頭檢視的特徵,尺寸為( $ {N} $ , $ {C} $ , $ {H}{f} $ , $ {W} $ ),其中 $ {C} $ 是通道數(特徵數), $ {H}{f} $ 和 $ {W} $ 是提取的特徵圖的高度和寬度。

透視變換(Perspective Transformation)

  • 對於每個視角的特徵圖,使用透視變換將其從相機座標系對映到世界座標系中的地面平面(鳥瞰圖)上。
  • 透視變換考慮了相機的內參 $ {K} $ 和外參 $ {[R|t]} $,其中內參包括焦距和主點座標,外參包括旋轉和平移向量。
  • 變換過程中,定義一個地面平面,通常假設為 $ {Z=0} $ 的平面,即 $ {W = (X, Y, 0, 1)^T} $ 。每個畫素點 $ {(x, y)} $ 從影像座標系透過以下變換對映到地面平面座標系:
    figure3
    其中 $ {s} $ 是縮放因子, $ {P} $ 是透視變換矩陣,$ {(X, Y, Z)} $ 是世界座標系中的點。
  • 輸出:投影到地面平面上的 $ {N} $ 個特徵圖,尺寸為 $ {(N, C, H_{g}, W_{g})} $ ,其中 $ {H}{g} $ 和 $ {W} $ 是地面平面網格的高度和寬度。

平均池化(Average Pooling)

  • 對所有檢視的投影特徵圖進行平均池化,得到最終的鳥瞰圖特徵表示 $ {F} $ ,尺寸為 $ {(C, H_{g}, W_{g})} $ 。
  • 特點:在多視角檢測中,攝像頭的物理排列可能會變化,但模型應該能夠獨立於特定的攝像頭排列來檢測行人。平均池化操作是排列不變的,這意味著無論攝像頭的輸入順序如何,模型的輸出都是一致的,從而提高了模型的泛化能力。

佔用圖預測(Occupancy Map Prediction)

  • 使用三層空洞卷積層去預測行人佔用機率圖,輸出尺寸為 $ {(H_{g}, W_{g})} $ 。(參考MVDet

損失函式設計

  • 輸入:模型輸出的機率佔用圖 $ {(p)} $ 和真實標註的佔用圖 $ {(g)} $ 。
  • 結合KL散度(KLDiv)和皮爾遜交叉相關係數(CC)作為損失函式,公式如下:
    figure4
    $ {σ(p,g)} $ 是 $ {p,g} $ 的協方差, $ {σ(p)} $ 是 $ {p} $ 的標準差, $ {σ(g)} $ 是 $ {g} $ 的標準差。

後記

  • 有意思的是該作者不僅僅使用了MultiViewX和WildTrack這兩個普遍的資料集,並且還用GTAV裡面的拍照模式取樣了一些樣本。

相關文章