Range Sparse Net

半夜打老虎發表於2024-04-30

PDF: RSN: Range Sparse Net for Efficient, Accurate LiDAR 3D Object Detection

一、大體內容

現有基於RV影像的方法在遮擋處理、精確的物件定位和尺寸估計方面往往表現不佳,RSN透過結合基於密集距離影像和網格的方法的優勢,提高了3D檢測的準確性和效率。

RSN是一個兩個階段網路,第一階段在range View圖片上執行2D分割,劃分出前景區域,第二階段把前景區域投影回3D空間,然後基於空間稀疏卷積和自定義的CenterNet迴歸出3D框。

二、貢獻點

  • 提出了一種簡單、高效、準確的3D鐳射雷達檢測模型RSN,該模型利用2D卷積來對Range Image執行前景物件分割,然後透過稀疏卷積來有效處理分割的前景點以檢測物件。
  • RSN提出了一種簡單而有效的時間融合策略,幾乎沒有額外的推理成本。
  • 在Waymo開放資料集上車輛和行人檢測的最新準確性和效率。內部資料集的實驗進一步證明了RSN在遠端目標檢測方面的可擴充套件性。
  • 進行消融實驗來驗證距離影像特徵的有效性以及前景點選擇閾值或端到端模型訓練等方面對延遲和累積的影響

三、細節

3.1 Range圖片特徵提取(RIFE

採用輕量化的U-Net來分割Range圖片,其結構如下圖所示,其中\(D(L, C)\)表示下采樣塊包含\(L\)個輸出通道為\(C\)的殘差塊,\(U(L, C)\)包含一個上取樣層和\(L\)個殘差塊。

3.2 前景點如何選擇

經過輕量化的U-Net提取特徵後,再接入一個1x1的卷積層來對畫素進行分類,損失函式採用Focal Loss,最後在進行歸一化。

其中P表示圖片的所有畫素個數,\(L_i\)表示第\(i\)個畫素點的focal loss,然後選擇超過閾值\(\gamma\)的點作為前景點。

3.3 稀疏點特徵提取(SPFE)

按照選擇的前景點,每個前景點再參考PointPillars將空間劃分成一個柱子,再借助PointNet提取每個區域的特徵。

3.4 框迴歸

先將體素座標經過縮放和偏移轉換到笛卡爾座標系,然後對每個點\(v\)按下式計算一個h值(heatmap),\(b_c\)表示包含點\(v\)的框的中心點,

然後對h採用權重衰減的Focal Loss進行迴歸

另外對於框迴歸除了角度採用Bin Loss外,其他的都採用Smooth_L1損失。

3.5 時間融合

由於Range Image是在移動過程中構建的,所以會造成邊界模糊,直接堆疊Range Image對檢測效能沒有提升,而且由於不同幀之間的距離重建會導致量化誤差,所以從Range Image中移除運動偏差也不是最好的。

RSN採用一系列時序固定的Range Image作為輸入,然後RIFE應用於每一張Range Image提取到影像特徵,然後將所有幀被選中的點變換到最新幀,在SPFE階段,每個點從其所在幀計算並附加體素特徵,這樣避免體素化過程所有幀混合在一起,另外還將最新幀的時間差(以秒為單位)附加到每個點用於區別不同幀的點。然後從所有幀選擇的前景點由SPFE處理。

四、效果




相關文章