PDF: 《Point Transformer》
CODE: https://github.heygears.com/POSTECH-CVLab/point-transformer
一、大體內容
Point Transformer基於自注意力網路實現網路模型的構建。透過設計針對點雲的自注意力層,結合位置編碼構建Transformer block,利用自注意力機制,實現包括語義分割,部件分割以及識別任務,並取得了不錯的效果,如在用於大規模場景分割的具有挑戰性的S3DIS資料集上,Point Transformer在區域5上的mIoU達到70.4%,比最強的先前模型高3.3個絕對百分點,並首次超過70%mIoU閾值。
二、貢獻點
- 設計了基於點雲的自注意力層,自注意力層與順序無關天然適合處理無序點雲資料
- 基於點自注意力層,構建了高效能的點變換器網路,可直接用於點雲的分類和密集預測,也可以作為3D場景理解的骨幹網路。
三、細節
3.1 Point Transformer Layer
主要用於分析點在其鄰域內的自注意力,可以用下式表示:
其中\(y_i\)表示輸出特徵,\(x_i\)表示輸入特徵,\(\chi(i) \subseteq \chi\)表示\(x_i\)的鄰域,$\varphi, \psi, \alpha \(表示逐點特徵變換,\)\delta\(表示位置編碼,\)\rho\(表示標準化操作,\)\gamma$表示對映函式。
Point Transformer Layer如下圖所示:
3.2 位置編碼(Position Encoding)
由於點雲座標本身就可以表示位置資訊,所以這裡直接對相對座標進行對映。
這裡的對映函式\(\theta\)是一個包含兩層線性層的MLP和一個Relu層的組合。
3.3 網路結構
將Point Transformer Layer作為基礎運算元,然後構建分割網路和分類網路如下:
分割網路採用Encoder和Deconder編碼結構,而分類網路特徵提取後直接接一個線性層輸出,point transformer block、transition down和transition up的結構如下:
四、效果
4.1 語義分割
4.2 部件分割