點雲分割網路---Point Transformer V3

半夜打老虎發表於2024-07-10

PDF:《Point Transformer V3: Simpler, Faster, Stronger》
CODE: https://github.com/Pointcept/PointTransformerV3

一、大體內容

Point Transformer V3(PTv3)沒有像V2那樣在注意力機制方面尋求創新,而是專注於保持點雲背景下準確性和效率之間的平衡,如下所示與上一代Point Transformer V2相比,PTv3在以下方面顯示出優勢:更強的效能。PTv3在各種室內和室外3D感知任務中實現了最先進的結果。感受野較寬。得益於其簡單高效,PTv3將感受野從16個點擴充套件到1024個點,速度更快。PTv3顯著提高了處理速度,使其適用於對延遲敏感的應用程式。降低記憶體消耗,PTv3減少了記憶體使用,增強了更廣泛情況下的可訪問性。

二、貢獻點

  • 更簡單、更快、更強的效能: PTv3 在室內和室外 3D 感知任務中取得了最先進的成果,同時保持了較高的效率。
  • 更廣泛的感受野: 透過高效的資料結構,PTv3 將感受野從 16 個點擴充套件到 1024 個點,而不會犧牲效率。
  • 更快的速度: PTv3 顯著提高了處理速度,使其適用於對延遲敏感的應用。
  • 更低的記憶體消耗: PTv3 減少了記憶體使用量,使其更易於在各種情況下使用。
  • 多資料集聯合訓練: PTv3 可以透過多資料集聯合訓練進一步改進效能,例如使用 Point Prompt Training (PPT) 方法。

三、細節

3.1 點雲序列化

PTv3 使用空間填充曲線將點雲序列化為結構化格式,從而保留了空間鄰近關係,並簡化了計算。(如:Z-order序列化(Z-ordering)是一種用於多維資料的方法,它可以將多維空間中的點對映到一維空間中,同時保持點之間的相對鄰近性。在處理點雲資料時,Z-order序列化可以有效地組織資料以最佳化儲存和訪問)

3.2 序列化注意力

PTv3 使用 patch attention 機制,將點分組到 patch 中,並在每個 patch 內進行注意力計算,從而提高了效率。PTv3 使用多種 patch 互動策略,例如 Shift Dilation、Shift Patch 和 Shuffle Order,以擴大感受野並增強模型的泛化能力。

3.3 位置編碼

為了處理海量資料,點雲transformer通常採用區域性注意力,這依賴於相對位置編碼方法以獲得最佳效能。觀察結果表明RPE的效率明顯低下且複雜。

作為一種更有效的替代方案,為點雲transformer引入了條件位置編碼(CPE),其中透過基於八叉樹的深度卷積實現。我們認為這種替換是優雅的,因為RPE在點雲變換器中的實現本質上可以被視為大核稀疏卷積的變體。但單個CPE也不足以達到峰值效能(當與RPE結合時,仍有可能額外提高0.5%)。因此PTV3提出了一種增強的條件位置編碼(xCPE),透過在注意力層之前直接準備具有跳過連線的稀疏卷積層來實現。實驗結果表明,與標準CPE相比,xCPE完全釋放了效能,延遲略微增加了幾毫秒,效能增益證明了這種微小的權衡是合理的。

3.4 網路結構

PTv3 採用 U-Net 框架,包含四個編碼器和解碼器階段,每個階段都有不同的 block 深度和通道數。

四、效果

4.1 分割


4.2 檢測

4.3 效率

相關文章