點雲分割網路---Point Transformer V1

半夜打老虎發表於2024-06-26

PDF: 《Point Transformer》
CODE: https://github.heygears.com/POSTECH-CVLab/point-transformer

一、大體內容

Point Transformer基於自注意力網路實現網路模型的構建。透過設計針對點雲的自注意力層,結合位置編碼構建Transformer block,利用自注意力機制,實現包括語義分割,部件分割以及識別任務,並取得了不錯的效果,如在用於大規模場景分割的具有挑戰性的S3DIS資料集上,Point Transformer在區域5上的mIoU達到70.4%,比最強的先前模型高3.3個絕對百分點,並首次超過70%mIoU閾值。

二、貢獻點

  1. 設計了基於點雲的自注意力層,自注意力層與順序無關天然適合處理無序點雲資料
  2. 基於點自注意力層,構建了高效能的點變換器網路,可直接用於點雲的分類和密集預測,也可以作為3D場景理解的骨幹網路。

三、細節

3.1 Point Transformer Layer

主要用於分析點在其鄰域內的自注意力,可以用下式表示:

其中\(y_i\)表示輸出特徵,\(x_i\)表示輸入特徵,\(\chi(i) \subseteq \chi\)表示\(x_i\)的鄰域,$\varphi, \psi, \alpha \(表示逐點特徵變換,\)\delta\(表示位置編碼,\)\rho\(表示標準化操作,\)\gamma$表示對映函式。
Point Transformer Layer如下圖所示:

3.2 位置編碼(Position Encoding)

由於點雲座標本身就可以表示位置資訊,所以這裡直接對相對座標進行對映。

這裡的對映函式\(\theta\)是一個包含兩層線性層的MLP和一個Relu層的組合。

3.3 網路結構

將Point Transformer Layer作為基礎運算元,然後構建分割網路和分類網路如下:

分割網路採用Encoder和Deconder編碼結構,而分類網路特徵提取後直接接一個線性層輸出,point transformer block、transition down和transition up的結構如下:

四、效果

4.1 語義分割



4.2 部件分割


4.3 分類

相關文章