點雲分割網路---Point Transformer V3

半夜打老虎發表於2024-07-10

原文網址 : https://www.cnblogs.com/xiaxuexiaoab/p/18264345

PDF：《Point Transformer V3: Simpler, Faster, Stronger》
CODE: https://github.com/Pointcept/PointTransformerV3

一、大體內容

Point Transformer V3(PTv3)沒有像V2那樣在注意力機制方面尋求創新，而是專注於保持點雲背景下準確性和效率之間的平衡，如下所示與上一代Point Transformer V2相比，PTv3在以下方面顯示出優勢：更強的效能。PTv3在各種室內和室外3D感知任務中實現了最先進的結果。感受野較寬。得益於其簡單高效，PTv3將感受野從16個點擴充套件到1024個點，速度更快。PTv3顯著提高了處理速度，使其適用於對延遲敏感的應用程式。降低記憶體消耗，PTv3減少了記憶體使用，增強了更廣泛情況下的可訪問性。

二、貢獻點

更簡單、更快、更強的效能： PTv3 在室內和室外 3D 感知任務中取得了最先進的成果，同時保持了較高的效率。
更廣泛的感受野：透過高效的資料結構，PTv3 將感受野從 16 個點擴充套件到 1024 個點，而不會犧牲效率。
更快的速度： PTv3 顯著提高了處理速度，使其適用於對延遲敏感的應用。
更低的記憶體消耗： PTv3 減少了記憶體使用量，使其更易於在各種情況下使用。
多資料集聯合訓練： PTv3 可以透過多資料集聯合訓練進一步改進效能，例如使用 Point Prompt Training (PPT) 方法。

三、細節

3.1 點雲序列化

PTv3 使用空間填充曲線將點雲序列化為結構化格式，從而保留了空間鄰近關係，並簡化了計算。（如：Z-order序列化（Z-ordering）是一種用於多維資料的方法，它可以將多維空間中的點對映到一維空間中，同時保持點之間的相對鄰近性。在處理點雲資料時，Z-order序列化可以有效地組織資料以最佳化儲存和訪問）

3.2 序列化注意力

PTv3 使用 patch attention 機制，將點分組到 patch 中，並在每個 patch 內進行注意力計算，從而提高了效率。PTv3 使用多種 patch 互動策略，例如 Shift Dilation、Shift Patch 和 Shuffle Order，以擴大感受野並增強模型的泛化能力。

3.3 位置編碼

為了處理海量資料，點雲transformer通常採用區域性注意力，這依賴於相對位置編碼方法以獲得最佳效能。觀察結果表明RPE的效率明顯低下且複雜。

作為一種更有效的替代方案，為點雲transformer引入了條件位置編碼（CPE），其中透過基於八叉樹的深度卷積實現。我們認為這種替換是優雅的，因為RPE在點雲變換器中的實現本質上可以被視為大核稀疏卷積的變體。但單個CPE也不足以達到峰值效能（當與RPE結合時，仍有可能額外提高0.5%）。因此PTV3提出了一種增強的條件位置編碼（xCPE），透過在注意力層之前直接準備具有跳過連線的稀疏卷積層來實現。實驗結果表明，與標準CPE相比，xCPE完全釋放了效能，延遲略微增加了幾毫秒，效能增益證明了這種微小的權衡是合理的。