【論文速遞】PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation

馮子材發表於2020-11-08

摘要

自動駕駛系統中對細粒度感知的需求導致最近對單掃描LiDAR的線上語義分割的研究增加。儘管出現了新的資料集和技術進步,但由於以下三個原因,它仍然具有挑戰性:(1)需要有限硬體的近實時延遲; (2)LiDAR點在整個空間中的分佈不均勻甚至長尾; (3)越來越多的極細粒度的語義類。為了共同解決所有上述挑戰,提出了一種新的特定於LiDAR的,無近鄰的分割演算法-PolarNet。我們的極鳥瞰圖表示法不是使用通用的球面或鳥瞰圖投影,而是在極座標系中平衡網格單元之間的點,從而使分割網路的注意力與沿點的長尾分佈間接對齊徑向軸。經試驗,其編碼方案大大提高了真實城市LiDAR單次掃描的三個不同的分割資料集中的mIoU,同時保持了接近實時的吞吐量。
程式碼連結:https://github.com/edwardzhou130/PolarSeg

主要貢獻:

作者提出極鳥瞰圖表示法和環連結卷積,在SemanticKITTI,A2D2 和Paris-Lille-3D 資料集上驗證了方法。 結果表明,在僅使用引數和MAC的1/3的平均交叉-聯合(mIoU)評估指標上,方法分別比現有方法高出2.1%,4.5%和3.7%。 工作貢獻概括如下:

•提出了一種更合適的LiDAR掃描表示形式,它考慮了點的不平衡空間分佈。
•展示的PolarNet網路經過極網格資料表示法的端到端訓練,以較低的計算成本超越了基於公共基準的先進方法。
•與其他表示法(如笛卡爾BEV)相比,使用極座標網格對基於不同主幹分段網路的語義分割效能進行了全面分析。

演算法框架:
在這裡插入圖片描述

極化鳥瞰圖

基於LiDAR掃描俯檢視出現的環形結構,作者展示了圖3所示的Polar分割槽,取代了圖3中的笛卡爾分割槽。具體地,首先以感測器的位置為原點,計算XY平面上每個點的方位角和半徑,而不是對笛卡爾座標系中的點進行量化。然後將點雲分配給根據量化方位角和半徑確定的網格單元。

極化BEV有兩個好處,首先,它可以更平均地分配點。通過統計SemanticKITTI資料集拆分的驗證集,發現每個極點柵格像元靠近感測器時的點數遠小於笛卡爾BEV中的點數。 因而,用於密集區域的網格的表示更精細。 在相同數量的網格單元中,傳統的BEV網格單元平均為0.7±3.2點,而極性BEV網格單元平均為0.7±1.4點。 標準偏差之間的差異表明,總體而言,這些點在極地BEV網格上分佈更均勻。

極化BEV的第二個好處是,更平衡的點分佈減輕了預測變數的負擔。由於將2D網路輸出重塑為體素以進行點預測,因此不可避免地,某些具有不同真實值標籤的點將分配給同一體素。而且其中有些無論如何都會被錯誤分類。使用笛卡爾BEV,每個網格單元中平均98.75%的點共享相同的標籤。在極化BEV中,這一數字躍升至99.3%。這表明由於空間表示特性,極化BEV中的點較少遭受錯誤分類。考慮到小物體更有可能被體素中的多數標籤所淹沒,這種0.6%的差異可能會對最終的mIoU產生更深遠的影響。研究mIoU的上限表明,笛卡爾BEV的mIoU達到97.3%。極化BEV達到98.5%。極化BEV的較高上限可能會提高下游模型的效能。

在這裡插入圖片描述

環形卷積

無需隨意為每個網格手工繪製特徵,而是使用固定長度的表示形式捕獲每個網格中的點分佈。 它是由可學習的簡化PointNet [22] h和最大池化產生的。 該網路僅包含完全連線的層,批處理規範化和ReLu層。 掃描中第i,第j網格單元中的特徵為:
在這裡插入圖片描述
其中w和l是量化大小。 px和py是地圖中點p的位置。 注意,位置和量化大小可以是極座標或笛卡爾座標。 我們不對沿z軸的輸入點雲進行量化。 類似於point pillar,學習到的表示表示網格的整個垂直列。

如果表示是在極座標系中學習的,則特徵矩陣的兩側將在物理空間中沿方位軸連線,如圖2所示。作者開發了離散卷積,稱為環形卷積。假設矩陣在半徑軸的兩端相連,則環形卷積核將對矩陣進行卷積。同時,位於相反一側的梯度可以通過該環形卷積核傳播回另一側。通過在2D網路中將常規卷積替換為環形卷積,該網路將能夠端到端處理極座標網格,而不會忽略其連通性。這為模型提供了擴充套件的應用範圍。由於它是一個2D神經網路,因此最終的預測也將是一個極座標網格,其特徵維等於量化的高度通道和類數的乘積。然後,可以將預測重塑為4D矩陣,以得出基於體素的分割損失。將卷積替換為環形卷積,則大多數CNN在技術上都可以處理極座標網格。作者將具有環形卷積的網路稱為經過訓練以處理極化網格的環CNN。

實驗結果

在實驗中使用了SemanticKITTI ,A2D2 和ParisLille-3D 資料集。表1顯示了方法與多個基準之間的效能在SemanticKITTI上的比較。
在這裡插入圖片描述
結果表明,即使引數數量較少且延遲較低,基於Unet的極化BEV分割網路仍能勝過最新技術。PointNet和TangentConv等基於點的方法與大型LiDAR點雲一起使用時效率低下,並且分割精度較差。對於每類IoU,極化BEV方法在大多數類中均取得了改進,尤其是在那些不規則且空間分佈稀疏的類中,這與極性BEV的規模和範圍保持特性相匹配。但是,“其他人”和“摩托車手”的表現特別差。調查表明它們在視覺上與其他類別沒有區別。根據SemanticKITTI的定義,“其他地面”本質上類似於人行道/地形,但可用於其他目的,例如交通島。對於“騎摩托的人”來說,即使是人也很難區分“人”或“騎單車的人”,這是因為這個類別本身通常在很大程度上被遮擋。 此外,摩托車手是資料集中最稀有的一類-構成訓練點的0.004%,並且在官方驗證序列中僅出現一個例項。

Abstract

The need for fine-grained perception in autonomous driving systems has resulted in recently increased research on online semantic segmentation of single-scan LiDAR. Despite the emerging datasets and technological advancements, it remains challenging due to three reasons: (1) the need for near-real-time latency with limited hardware; (2) uneven or even long-tailed distribution of LiDAR points across space; and (3) an increasing number of extremely fine-grained semantic classes. In an attempt to jointly tackle all the aforementioned challenges, we propose a new LiDAR-specific, nearest-neighbor-free segmentation algorithm — PolarNet. Instead of using common spherical or bird’s-eye-view projection, our polar bird’s-eye-view representation balances the points across grid cells in a polar coordinate system, indirectly aligning a segmentation network’s attention with the long-tailed distribution of the points along the radial axis. We find that our encoding scheme greatly increases the mIoU in three drastically different segmentation datasets of real urban LiDAR single scans while retaining near real-time throughput.

相關文章