Point Transformer V3: Simpler, Faster, Stronger

publish：CVPR2024
paper：https://arxiv.org/abs/2312.10035
code：https://github.com/Pointcept/PointTransformerV3
commentary：

https://zhuanlan.zhihu.com/p/673760352

idea：

作者在3D large-scale表示學習中認識到模型效能更受規模scale的影響，而不是複雜設計。怎麼理解這句話呢？相比較於複雜的網路設計，訓練資料大小和模型引數量多少更容易對模型的效能產生影響。作者主要對backbone提出了三點改進，相較於PTv2大大減少了時間和視訊記憶體的消耗，同時保持高效。

PTv3改變傳統的K-Nearest Neighbors（KNN）查詢定義的空間proximity（佔用28% forward time ），相反，它探索點雲序列化鄰域。
PTv3用適合序列化點雲的改進方法替換更復雜的注意力塊互動機制attention patch interaction mechanisms，如shift-window（妨礙注意力操作的融合）和鄰域機制（導致記憶體消耗大）。
PTv3消除了對相對位置編碼的依賴（佔用26% forward time ），支援更簡單的預置稀疏卷積層prepositive sparse convolutional layer。

胡思亂想：

也許可以試著用point transformer的思路改進一下pointpillar的PillarVFE層？

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

publish：CVPR2024
paper：https://arxiv.org/abs/2401.06197
code：https://github.com/OpenGVLab/DCNv4
commentray：

https://blog.csdn.net/soaring_casia/article/details/111211254
DCNv2 安裝

idea：

作者提出了可變形卷積DCNv4，解決了DCNv3的侷限性，收斂速度和處理速度大幅提高，主要貢獻有如下的兩點：

去除空間聚合中的softmax歸一化以增強其動態特性和表達能力。
最佳化記憶體訪問，最大限度地減少冗餘操作，以提高速度。

胡思亂想：

空洞卷積可以在不增加引數的情況下，擴大感受野，但是在進行卷積操作時，每部分在特徵圖上的位置還是固定的，對於形變比較複雜的物體，效果不太好。但是DCN不僅可以擴大感受野，還有動態的感受野區域適應能力。所以用DCN替換SPPF中的空洞卷積，效果會不會更好？

SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection

publish：CVPR2024
paper：https://arxiv.org/abs/2403.05817
code：https://github.com/zhanggang001/HEDNet（四月初才會開原始碼）
commentray：

https://zhuanlan.zhihu.com/p/689180414

idea：

作者發現，混合檢測器（hybrid detectors）在較短的感知範圍（75m以下）設計下測試，效能比較卓越。首先解釋一下什麼是混合檢測器？hybrid detectors一般先用3D voxel編碼將點雲資料轉換為偽影像的形式，再用2D CNN進一步提取特徵。但是hybrid detectors產生的密集特徵圖難以擴充套件到遠距離檢測，因為密集特徵圖帶來的計算成本呈二次方增長。

大多數混合檢測器依賴於物體中心的特徵進行預測，認為它們是整個物體的可靠表示。這些方法通常首先使用稀疏3D體素編碼器高效地從非空體素中提取特徵。隨後，它們將這些稀疏特徵轉換為2D鳥瞰圖（BEV）中的密集特徵圖，並利用卷積神經網路（CNNs）將特徵擴散到物體中心，建立中心特徵。然而，對於完全稀疏的檢測器，在沒有密集特徵圖的情況下，像車輛和卡車這樣的大型物體的中心往往仍然是空的，導致中心特徵缺失問題.

作者提出了一種自適應特徵擴散(adaptive feature diffusion)（AFD）策略，用於將特徵傳播到物體中心，作為SAFDNet解決中心特徵缺失問題的核心元件。AFD選擇性地將物體邊界框內的特徵擴充套件到相鄰區域，並根據體素位置動態調整擴散範圍。結果是，SAFDNet仍然可以利用稀疏特徵上的高效計算。擴充套件後的特徵被送入稀疏檢測頭進行預測。重要的是，SAFDNet保持了與現有混合檢測器大部分超引數的相容性，包括檢測頭的超引數，使其能夠輕鬆適應新場景。

胡思亂想：

Rcooper因為是路邊基礎設施的合作，沒有涉及車輛，基礎設施的視野非常廣闊（0.5-230m），非常符合SAFDNet提出的動機。此外，AFD模組可以直接用到pointpillar或者voxelnet的主幹網路上，應該可以大大減小模型的計算成本和訓練時間，同時效能還會有不錯的提升（參考論文中的Appendix A資料）。

3D Object Detection Essay Reading 2024.03.27

Point Transformer V3: Simpler, Faster, Stronger

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection

相關文章