Point Transformer V3: Simpler, Faster, Stronger
- publish:CVPR2024
- paper:https://arxiv.org/abs/2312.10035
- code:https://github.com/Pointcept/PointTransformerV3
- commentary:
- https://zhuanlan.zhihu.com/p/673760352
- idea:
作者在3D large-scale表示學習中認識到模型效能更受規模scale的影響,而不是複雜設計。怎麼理解這句話呢?相比較於複雜的網路設計,訓練資料大小和模型引數量多少更容易對模型的效能產生影響。作者主要對backbone提出了三點改進,相較於PTv2大大減少了時間和視訊記憶體的消耗,同時保持高效。
- PTv3改變傳統的K-Nearest Neighbors(KNN)查詢定義的空間proximity(佔用28% forward time ),相反,它探索點雲序列化鄰域。
- PTv3用適合序列化點雲的改進方法替換更復雜的注意力塊互動機制attention patch interaction mechanisms,如shift-window(妨礙注意力操作的融合)和鄰域機制(導致記憶體消耗大)。
- PTv3消除了對相對位置編碼的依賴(佔用26% forward time ),支援更簡單的預置稀疏卷積層prepositive sparse convolutional layer。
- 胡思亂想:
也許可以試著用point transformer的思路改進一下pointpillar的PillarVFE層?
Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications
- publish:CVPR2024
- paper:https://arxiv.org/abs/2401.06197
- code:https://github.com/OpenGVLab/DCNv4
- commentray:
- https://blog.csdn.net/soaring_casia/article/details/111211254
- DCNv2 安裝
- idea:
作者提出了可變形卷積DCNv4,解決了DCNv3的侷限性,收斂速度和處理速度大幅提高,主要貢獻有如下的兩點:
- 去除空間聚合中的softmax歸一化以增強其動態特性和表達能力。
- 最佳化記憶體訪問,最大限度地減少冗餘操作,以提高速度。
- 胡思亂想:
空洞卷積可以在不增加引數的情況下,擴大感受野,但是在進行卷積操作時,每部分在特徵圖上的位置還是固定的,對於形變比較複雜的物體,效果不太好。但是DCN不僅可以擴大感受野,還有動態的感受野區域適應能力。所以用DCN替換SPPF中的空洞卷積,效果會不會更好?
SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection
- publish:CVPR2024
- paper:https://arxiv.org/abs/2403.05817
- code:https://github.com/zhanggang001/HEDNet(四月初才會開原始碼)
- commentray:
- https://zhuanlan.zhihu.com/p/689180414
- idea:
作者發現,混合檢測器(hybrid detectors)在較短的感知範圍(75m以下)設計下測試,效能比較卓越。首先解釋一下什麼是混合檢測器?hybrid detectors一般先用3D voxel編碼將點雲資料轉換為偽影像的形式,再用2D CNN進一步提取特徵。但是hybrid detectors產生的密集特徵圖難以擴充套件到遠距離檢測,因為密集特徵圖帶來的計算成本呈二次方增長。
大多數混合檢測器依賴於物體中心的特徵進行預測,認為它們是整個物體的可靠表示。這些方法通常首先使用稀疏3D體素編碼器高效地從非空體素中提取特徵。隨後,它們將這些稀疏特徵轉換為2D鳥瞰圖(BEV)中的密集特徵圖,並利用卷積神經網路(CNNs)將特徵擴散到物體中心,建立中心特徵。然而,對於完全稀疏的檢測器,在沒有密集特徵圖的情況下,像車輛和卡車這樣的大型物體的中心往往仍然是空的,導致中心特徵缺失問題.
作者提出了一種自適應特徵擴散(adaptive feature diffusion)(AFD)策略,用於將特徵傳播到物體中心,作為SAFDNet解決中心特徵缺失問題的核心元件。AFD選擇性地將物體邊界框內的特徵擴充套件到相鄰區域,並根據體素位置動態調整擴散範圍。結果是,SAFDNet仍然可以利用稀疏特徵上的高效計算。擴充套件後的特徵被送入稀疏檢測頭進行預測。重要的是,SAFDNet保持了與現有混合檢測器大部分超引數的相容性,包括檢測頭的超引數,使其能夠輕鬆適應新場景。
- 胡思亂想:
Rcooper因為是路邊基礎設施的合作,沒有涉及車輛,基礎設施的視野非常廣闊(0.5-230m),非常符合SAFDNet提出的動機。此外,AFD模組可以直接用到pointpillar或者voxelnet的主幹網路上,應該可以大大減小模型的計算成本和訓練時間,同時效能還會有不錯的提升(參考論文中的Appendix A資料)。