[論文理解]變換不變性網路transformation invariant pooling (TI-Pooling)

不想待在銀河系發表於2020-11-21

在這裡插入圖片描述

1. 幾個問題

1.1 做了什麼

提出了TI-POOLING
試圖達到變換不變性(transformation-invariant)
其實並沒有實現
這名字挺有噱頭的

1.2 創新性

最早的解決旋轉輸入的論文之一
改進了以往只有資料增強的辦法

1.3 侷限性

只實現了“單層”協變網路的效果

1.4 效果

在這裡插入圖片描述

2. 數學部分 & 模型構建

其實這篇文章沒啥數學論證,主要是文字描述。

2.1 孿生神經網路 (Siamese network)

在這裡插入圖片描述
孿生神經網路就是權重都一樣的神經網路,如上圖所示。它能判斷input1 & input2 之間的相似性。

2.2 模型結構

輸入一個圖(a),將其變換為不同的樣子,如(b),在輸入一個多重的孿生神經網路,得到若干個特徵向量,最後對這些特徵向量進行比較,在每個位置找出這組特徵向量的最大值,得到(g),再輸入到一個普通的全連線層進行預測即可。

所謂的TI-Pooling,其實就是“逐元素取最大值”(element-wise maximum),相當於一個最大值池化,和向量場旋轉等變網路中的空間池化是一樣的。
在這裡插入圖片描述

2.3 有效性&侷限性論證

實際上這也只是個協變網路。

假設網路已經訓練好了。先輸入一個影像,在(f)中會得到一組特徵向量。然後把輸入影像轉一個角度,由於在(b)中影像被進行了翻轉,相當於在擴充套件為一個旋轉群,因此(f)中的特徵向量相對於輸入沒旋轉的影像只是進行了一個迴圈置換變換。此時取element-wise maximum,確實實現了協變性,但是作者接下來直接就送入到全連線網路進行預測了,這樣一來相當於只實現了單層的相變網路。

相關文章