[論文翻譯]Polar Transformation Network(Polar-STN，PTN)

0 摘要

卷積神經網路(CNN)本質上等同於translation。嵌入其他形式的equivariance的工作僅集中在 rotation上。我們通過Polar Transformer Network(PTN)擴充套件了CNN中equivariance的概念。 PTN結合了STN和正則座標表示（canonical coordinate representations）的思想。結果是網路對於平移保持invariant，對旋轉和比例保持equivariant。在旋轉MNIST和新引入的SIM2MNIST資料集上，PTN達到了最先進的水平，這是一種通過增加雜波和擾動數字與平移、旋轉和縮放而獲得的MNIST變化。 PTN的思想可以擴充套件到3D，我們通過圓柱變壓器網路（Cylindrical Transformer Network）來演示。

1 Intro

無論是在全域性模式還是區域性特徵層面，對(in/equi)variant性質的追求與計算機視覺和模式識別本身的領域一樣古老。“手工製作”方法中最先進的是SIFT。這些這些檢測器/描述符識別區域的內在尺度或旋轉，併產生一個等變數描述符，它被歸一化為尺度和/或旋轉不變性。這些方法的負擔在於實現等方差所需的軌道計算中。這種有動機的可控濾波可確保從有限數量的濾波器響應中插值變換濾波器響應。證明了高斯導數旋轉的可操縱性，並擴充套件到可移動金字塔的比例和平移。Perona提出了使用軌道和SVD建立濾波器基礎的方法，同時，Segman證明了對於某些型別的變換，存在規範的座標，其中輸入的變形表現為輸出的平移。繼這項工作之後，Nordberg＆Granlund和HelOr＆Teo，Teo＆Hel-Or提出了一種在給出變換的Lie生成器的情況下計算等變空間基礎的方法。最近，Sifre＆Mallat提出了散射變換，該變換提供了平移，縮放和旋轉不變的表示形式。

當前的共識是，應該學習表述（representations）而不是設計（designed）。現在，教科書中已經介紹了通過卷積實現平移的Equivariance以及通過pooling實現對區域性變形的invariance，但是實現equivariance的更普遍的變形方法仍在發展中。目前主要的工作有：1.與SIFT相似的STN，它學會了規範的姿態，並通過warping產生不變的表示；2.著力於限制卷積濾波器filters的結構；3.使用濾波器軌道（filter orbit）對特定變換組施加equivariance。

本文提出了極變網路(PTN)，它結合了STN和正則座標表示的思想，實現了對平移、旋轉和膨脹的equivariance。這個包括了三個stage的網路學習識別物件中心，然後將輸入轉換為對數極座標。在這個座標系中，平面卷積對應於旋轉和尺度上的群卷積（group-convolutions）。PTN產生與旋轉和擴張相等的表示，不需要具有挑戰性的STN引數迴歸。通過捕獲任意精度的旋轉和擴張，我們將CNN中的等方差概念擴充套件到諧波網路（Worrall等人，2016）和群卷積（Cohen＆Welling，2016b）之外。但是，與STN相似，PTN僅容納整體變形。

我們介紹了旋轉MNIST和SIM2MNIST的最新效能。總結我們的貢獻：

我們開發了一種CNN架構，能夠學習對平移保持invariant，對旋轉和膨脹保持equivariant的影像表達。
我們提出了polar transformation模組，它執行一個可微的對數極變換，可以進行反向傳播訓練。變換原點是一個潛變數（latent variable）。
我們展示瞭如何通過完全卷積網路預測作為單通道熱圖質心的極地變換原點的學習方法。

2 相關工作

Nordberg&Granlund（1996）提出了最早的等變特徵提取方案之一，他建議對復角度調製濾波器的2D旋轉進行離散取樣。大約在同一時間，影像和光學處理界發現梅林變換是傅立葉變換的一種修正（Zwicke&Kiss，1983；Casasent&Psaltis，1976）。Fourier-Mellin變換與旋轉和尺度等變，而其模不變。

在80年代和90年代，積分變換的不變性是通過基於單引數變換（Ferraro&Caelli，1988）並推廣到仿射群的Abelian子群（Segman et al.，1992）的方法發展起來的。

與（in/eq）variance工作密切相關的是在可操縱性中工作，即利用有限濾波器基的響應對任何組動作的響應進行插值。一個精確的可操縱性框架始於弗里曼等人。（1991），其中高斯導數的旋轉可轉向性被顯式計算。它被擴充套件到可移動金字塔（Simoncelli等人，1992），它處理旋轉和縮放。本文提出了一種利用變換軌道和SVD學習影像變形的低維表示來逼近可操縱性的方法。

Teo&Hel或引入了Lie生成器和方向性方法的統一，他們使用SVD來減少給定變換組的基函式數目。Teo和Hel-Or提出了最廣泛的可操縱性框架，並提出了非交換群的第一種方法，首先從最大交換子群的精確可操縱性和剩餘子群的增量控制開始。Cohen&Welling，Jacobsen最近結合了方向性和可學習濾波器。

最新的等變表示的“手工製作”方法是散射變換（Sifre&Mallat，2013），它由旋轉和擴張的小波組成。與SIFT（Lowe，2004）類似，這種方法依賴於錨定點的等變性（例如，（平移）空間中過濾響應的最大值）。在每次卷積後通過模運算得到平移不變性。最終的散射係數對平移不變性，對區域性旋轉和尺度等變。

Laptev等人通過彙集在輸入軌道上計算的特徵地圖來實現變換不變性，因為它需要對每個軌道元素進行前向和後向傳遞，所以縮放效果較差。

在CNNs的背景下，實現等變的方法分為兩大脈絡。在第一種方法中，通過約束濾波器結構來獲得等方差，類似於基於李生成器的方法。諧波網路使用從復諧波中匯出的濾波器來實現旋轉和平移等變。第二種方法需要使用本身是等變的濾波軌道來獲得群等變。Cohen&Welling用一個學習濾波器的軌道卷積，證明了群卷積的等變性和在校正和合並的情況下保持旋轉等變性。Dieleman等人。分別處理影像軌道的元素，並使用輸出集進行分類。Gens&Domingos生成有限多引數群的對映，Zhou等人和Marcos等人。利用旋轉濾波器軌道生成有向特徵對映和旋轉不變特徵，Lenc&Vedaldi提出了一種變換層，它通過先置換再通過線性濾波器變換來充當群卷積。

我們的方法，PTN，類似於第二條發展脈絡。我們實現了全域性旋轉等變，並將CNN等變的概念擴充套件到包括標度。PTN採用對數極座標，通過平移卷積實現旋轉膨脹群卷積，假設像STN一樣估計影像中心。與我們的方法最相關的是Henriques&Vedaldi，它通過將輸入扭曲到一個固定的網格來實現等變，而不需要學習引數。

當從三維物體中學習特徵時，變換不變性通常是通過在訓練和/或測試過程中通過輸入的轉換版本來擴充訓練資料，或者在轉換後的版本上共享。Sedaghat等人指出，多工方法，即預測方向和類別，可以提高分類效能。在我們對三維物體分類的擴充套件中，我們通過將輸入轉換為關於一個預測軸的柱座標，明確地學習與一系列平行軸的旋轉相等的表示。

3 理論背景

這一部分分為兩部分，第一部分回顧了equivariance和group convolutions。第二個例子通過二維相似變換組——SIM 2,給出了群卷積的等變性（equivariance）的一個顯式例子，SIM（2）由平移、膨脹和旋轉組成。將SIM（2）重新引數化為正則座標，允許使用平移卷積應用SIM（2）群卷積。

3.1 GROUP EQUIVARIANCE

等變表示非常受歡迎，因為它們以可預測的方式編碼類和變形資訊。 $G$ 是一組變換， $L_gI$ 代表某個屬於 $G$ 的變換 $g$ 作用在圖 $I$ 上。對映 $\Phi :E \to F$ 對於group action ${L_g}\left( {g \in G} \right)$ 是equivariant的，若
$\Phi \left( {{L_g}I} \right) = {L'_g}\left( {\Phi \left( I \right)} \right)$
其中 $L_g$ 和 $L'_g$ 分別對應與 $g$ 在 $E$ 和 $F$ 上的應用，且滿足 ${L_{gh}} = {L_g}{L_h}$ 。 invariance是equivariance的特例，當 $L'_g$ 是恆等變換的時候成立。在影像分類和CNNs的背景下， $\in G$ 可以看做是影像變形， $\Phi$ 可以看做是將影像對映到feature map。

CNN的固有平移equivariance與卷積核無關，在輸出響應輸入平移的相應平移中是明顯的。對於其他種類的形變的equivariance可以通過應用group-convolution來實現（群卷積是一種更一般的平移卷積）。讓 $f\left( g \right)$ 和 $f\left( g \right)$ 是 $G$ 上的實值函式，且滿足 ${L_h}f\left( g \right) = f\left( {{h^{ - 1}}g} \right)$ 。group-convolution被Kyatkin & Chirikjian定義為：
在這裡插入圖片描述
對定義的輕微修改是必要的，因為在第一個CNN層中，該group操作的物件是影像。因此group-convolution reduce to 平移卷積（translational convolution），當 $G$ 是以加法為group operator的在 $R^n$ 中的平移。

group-convolution需要一個group擁有可積性，並確定適當的度量 $d g$ 。可以證明，給定測度dg，group-convolution總是group equivariant的：
在這裡插入圖片描述
這被描述為響應輸入變形的equivariant representation表示。

3.2 EQUIVARIANCE IN SIM(2)

SIM(2)代表二維相似變換組。一個相似變換， $\rho \in SIM\left( 2 \right)$ ，作用在一個點 $\in {R^2}$ 時，
在這裡插入圖片描述
其中 $SO\left( 2 \right)$ 代表旋轉組。為了利用經典CNNs中的標準平面卷積，我們將 $\rho \in SIM\left( 2 \right)$ 分解為一個平移變換，一個擴張旋轉變換（dilated rotation） $\in SO\left( 2 \right) \times {R^ + }$ 。

通過學習擴張旋轉的中心，相應地移動原始影像，然後將影像轉換為正則座標，可以實現SIM（2）的equivariance。在這個重引數化（reparameterization）過程中，標準平移卷積等效於擴張旋轉群卷積。

原點預測器是STN在全域性平移預測中的應用，它以輸出的質心作為輸入的原點。

影像變換 ${L_t}I = I\left( {t - {t_0}} \right)$ 會將SIM(2) ruduce為擴張旋轉，如果 ${t_0}$ 代表了真是的位移。中心化後，我們將在原圖$ $I\left( {t - {t_0}} \right)$ 進行 $SO\left( 2 \right) \times {R^ + }$ 的卷積：
在這裡插入圖片描述
後續層的feature map $f$

其中 $\in SO\left( 2 \right) \times {R^ + }$ 。我們利用交換李群的正則座標來計算這個卷積。中心化的影像 ${I_0}{\left( {x,y} \right)^1}$ 被轉換為對數極座標，為了記號便利， $I\left( {{e^\xi }\cos \left( \theta \right),{e^\xi }\sin \left( \theta \right)} \right)$ 因此被寫作 $\lambda \left( {\xi ,\theta } \right)$ ，其中 $\left( {\xi ,\theta } \right)\in SO\left( 2\right) \times {R^+}$ 。圖2（右圖）使用正則座標表示擴張旋轉等變表示對輸入變形的響應。
在這裡插入圖片描述
圖2：左：SO2中的群卷積。左最列中的影像相差90◦旋轉，濾波器顯示在頂部行。應用旋轉群卷積和任意濾波結果可以得到等變表示。濾波器軌道（從0到360°旋轉）和影像的內積分別用藍色表示頂部影像，紅色表示底部影像。觀察濾波器響應如何偏移90°。右： $SO\left( 2\right) \times {R^+}$ 中的群卷積。最左邊列中的影像旋轉π/4，縮放比例為1.2。仔細考慮得到的熱圖會發現與輸入影像的變形相對應的偏移。

在正則座標中， ${s^{ - 1}}r = {\xi _r} - \xi ,{\theta _r} - \theta$ ，且group-convolution可以表示並有效地實現為平面卷積。
在這裡插入圖片描述
綜上所述，我們（1）構建一個平移卷積網路，（2）取最後一層的質心，（3）相應地移動原始影像，（4）轉換為對數極座標，（5）應用第二個平移卷積網路。結果是一個特徵對映，與圍繞原點展開的旋轉相同。

4 結構

PTN由以PT（polar transformer）模組連線的兩個主要部件組成。第一部分是極原點預測器，第二部分是分類器（傳統的完全卷積網路）。該網路的組成部分是一個3×3×K的卷積層，然後是batch
normalization，再通過跨步卷積進行ReLU和偶爾的子取樣。我們將這個構建塊簡單地稱為block。圖3顯示了體系結構。
在這裡插入圖片描述
圖3：網路架構。輸入影像通過一個完全卷積的網路，即極座標原點預測器，它輸出一個熱圖。熱圖的質心（兩個座標）和輸入影像一起進入極座標變換器模組，該模組在輸入座標處執行極座標變換。所得到的極座標表示相對於原始目標位置是不變的；旋轉和膨脹現在是移位的，它們由傳統的分類器CNN進行等變處理。

4.1 POLAR ORIGIN PREDICTOR（極座標原點預測）

極座標原點預測器對原始影像進行操作，由一系列塊組成，然後是1×1卷積。輸出的是一個單通道特徵對映，其質心作為極座標變換的原點。

訓練神經網路來預測影像中的座標存在一些困難。一些方法（Toshev&Szegedy，2014）試圖使用完全連線的層直接回歸座標，但成功率有限。更好的選擇是預測熱圖（Tompson等人，2014年；Newell等人，2016年），並採用他們的argmax。然而，這可能是個問題，因為除了一個點，反推梯度都是零，這會阻礙學習。

熱圖預測的常用方法是根據一些實際情況評估損失。在這種方法中，argmax梯度問題可以通過監督來避免。在PTN中，輸出座標的梯度必須相對於熱圖取，因為極座標原點未知，必須學習。通過使用熱圖的質心作為極座標原點，可以避免使用argmax。質心相對於熱圖的梯度是恆定的，對於所有點都是非零的，這使得學習成為可能。

4.2 POLAR TRANSFORMER MODULE（極座標轉換器模組）

PT模組以原點預測和影像作為輸入，輸出輸入的對數極表示。該模組使用與STN相同的可微影像取樣技術，它允許輸出座標 $V_i$ 以輸入影像和取樣點座標 $\left( {x_i^s,y_i^s} \right)$ 的形式表達。源樣本點和目標規則網格 $\left( {x_i^t,y_i^t} \right)$ 的對數極變換是：
在這裡插入圖片描述
其中 $\left( {{x_0},{y_0}} \right)$ 是原點， $W, H$ 是輸出的寬和高， $r$ 是距離原點的最大距離，我們在實驗中設定 $0.5\sqrt {{H^2} + {W^2}}$ 。

4.3 WRAP-AROUND PADDING（環繞填充）

為了保持特徵圖的解析度，大多數CNN實現使用零填充。這對於極座標表示並不理想，因為它是關於角軸的週期性的。輸入的旋轉會導致輸出的垂直移動，在邊界處換行；因此，最上面和最下面的行的標識是最合適的。這是通過垂直方向上的環繞填充來實現的尺寸。尺寸要素圖的最上面一行使用最下面的行填充，反之亦然。在水平維度中使用零填充。表5顯示了效能評估。

4.4 POLAR ORIGIN AUGMENTATION（極座標原點增強）

為了提高演算法的魯棒性，我們在訓練過程中通過在迴歸的極座標上增加一個隨機位移來增加極座標。請注意，與傳統的增強方法（如旋轉輸入影像）相比，這種方法的計算成本很小。表5量化了這種增強的效能增益。

5 實驗

5.1 ARCHITECTURES（結構）

我們在本節中簡要地定義了體系結構，有關詳細資訊，請參見A。CCNN是一種傳統的全卷積網路；PCNN與PCNN相同，但適用於具有中心原點的極座標影像。STN是我們實現的空間變壓器網路（Jaderberg等人，2015）。PTN是我們的極性變壓器網路，PTN-CNN是PTN和CCNN的組合。根據引數的數量，字尾S和B表示小型和大型網路。字尾+和++表示訓練和訓練+測試旋轉增強。

我們對基於極座標的方法進行旋轉增強。理論上，輸入旋轉的影響只是對應極座標影像的一個偏移，不應影響分類器CNN。在實際應用中，插值和角度離散效果會導致旋轉輸入的極座標影像略有不同，因此即使基於極座標的方法也能從這種增強中獲益。

5.2 ROTATED MNIST (LAROCHELLE ET AL., 2007)（旋轉資料集）

表1顯示了結果。我們將分析分為兩部分；在左邊，我們展示了更小的網路和沒有旋轉增強的方法，右邊沒有限制。

在受限方法中，諧波網路（Worrall等人，2016年）的效能略優於PTN，但訓練時間增加了近4倍，因為復變數上的卷積成本更高。另外值得一提的是STN在沒有增強的情況下效能較差，這說明學習變換引數比學習極座標要困難得多。

在不受限制的方法中，PTN-B的大多數變體的效能優於當前的技術水平，與CCNN和/或測試時間增加相結合時有顯著的改進。

最後，我們注意到PCNN在這個資料集中達到了較高的精度，因為數字大多是居中的，所以使用極座標變換原點作為影像中心是合理的。然而，我們的方法比它有更高的優勢，這表明即使在這種情況下，也有可能找到一個遠離影像中心的原點，從而產生更獨特的表現。
在這裡插入圖片描述

5.3 OTHER MNIST VARIANTS（其他MNIST變式）

我們還在其他MNIST變體中進行實驗。從Jaderberg等人那裡複製RTS。（2015）。我們介紹了SIM2MNIST，它具有來自SIM（2)的更具挑戰性的轉換集）。有關資料集的更多細節，請參見B。

表2顯示了結果。我們可以看到，PTN的效能主要與MNISTR和RTS上的STN相匹配。這些資料集的變形是溫和的，資料是豐富的，因此效能可能是飽和的。

然而，在SIM2MNIST上，變形更具挑戰性，訓練集更小5倍。PCNN的效能明顯較低，這再次證明了預測最佳極性起源的重要性。由於其平移和旋轉等變特性，HNet優於其他方法（除了PTN）。我們的方法在引數個數和訓練時間上都更為有效，而且對擴張也是等變的，在很大程度上達到了最佳效能。

5.4 VISUALIZATION（視覺化）

我們將網路啟用視覺化，以證實我們關於對平移不變性和對旋轉和膨脹等效的主張。

圖4（左）顯示了一些預測的極性起源和極性轉換的結果。我們可以看到，網路學會了抑制雜波併為極性變換找到合適的原點，極性變換模組之後的表示確實呈現了所要求的特性。

我們繼續想象這些屬性是否儲存在更深的層中。圖4（右）顯示了來自最後一個卷積層的選定通道的啟用，對於輸入的不同旋轉、膨脹和平移。讀者可以證實，在卷積層序列中，確實保持了對旋轉和膨脹的等變性和對平移的不變性。

5.5 EXTENSION TO 3D OBJECT CLASSIFICATION（擴充套件到3D模型）

我們擴充套件了我們的模型，從體素佔用網格執行三維物件分類。我們假設輸入是通過從平行軸家族中繞軸的隨機旋轉來轉換的。然後，圍繞該軸的旋轉對應於圓柱座標中的平移。

為了實現旋轉的等差性，我們預測了一個軸，並將其作為原點轉換為圓柱座標。如果軸平行於輸入網格軸之一，則為圓柱形變換相當於通道方向的極性轉換，其中所有通道的原點相同，每個通道是3D體素網格的2D片。在此設定中，我們可以將極性變壓器層應用於每個切片。

我們使用了一種類似於Qi等人的各向異性探測技術。（2016）預測軸心。z表示與旋轉軸平行的輸入柵格軸。我們將以z為索引的維度視為通道，並執行規則的2D卷積層，減少每層上的通道數量，最終塌陷為單個2D熱圖。熱圖質心給出軸的一個點，方向與z平行。換句話說，質心是所有通道極座標變換的原點。然後我們繼續使用常規的3D-CNN分類器，作用於柱面表示。三維卷積與平移是等價的；因為它們作用於柱座標，所以學習的表示與輸入繞平行於z軸的旋轉是等變的。

我們在ModelNet40（Wu et al.，2015）上進行實驗，該模型包含繞重力方向（z）旋轉的物體。圖5顯示了輸入體素網格及其柱座標表示的示例，而表3顯示了分類效能。據我們所知，我們的方法優於所有已發表的基於體素的方法，即使沒有增加測試時間。然而，基於多檢視的方法通常優於基於體素的方法。（Qi等人，2016年）。

注意，我們也可以通過使用對數柱面座標或對數球面座標來實現標度的等變，但是這些座標的變化都不會導致對任意三維旋轉的等變。
在這裡插入圖片描述

6 結論

我們提出了一種新的網路，其輸出對平移是不變的，與膨脹/旋轉群是等價的。我們結合了學習平移（類似於ST）的思想，但為縮放和旋轉提供了等距，從而避免了空間變壓器中姿態迴歸所需的全連線層。通過該組中的卷積可以實現相對於擴張旋轉的equivariance 。這樣的卷積將需要產生多組副本，但是，我們通過轉換為規範座標避免了這種情況。