比CNN表現更好，CV領域全新卷積操作OctConv厲害在哪裡？

大資料文摘發表於2019-04-23

原文網址 : https://www.jiqizhixin.com/articles/2019-04-24-14

CNN卷積神經網路問世以來，在計算機視覺領域備受青睞，與傳統的神經網路相比，其引數共享性和平移不變性，使得對於影像的處理十分友好，然而，近日由Facebook AI、新家坡國立大學、360人工智慧研究院的研究人員提出的一種新的卷積操作OctConv使得在影像處理效能方面得到了重大突破與提升，OctConv和CNN中的卷積有什麼不同呢？

論文下載地址：https://arxiv.org/pdf/1904.05049.pdf

CNN網路中的卷積層主要用來提取影像特徵，如下圖所示，利用卷積核（也稱濾波器）對輸入影像的每個畫素進行卷積操作得到特徵圖，由於影像中相鄰畫素的特徵相似性，卷積核橫掃每個位置，獨立的儲存自己的特徵描述符，忽略空間上的一致性，使得特徵圖在空間維度上存在大量的冗餘。

比CNN表現更好，CV領域全新卷積操作OctConv厲害在哪裡？圖1 普通卷積操作示意圖

OctConv主要基於於處理多空間頻率的特徵對映並減少空間冗餘的問題提出的。

原文地址：https://export.arxiv.org/pdf/1904.05049

下面文摘菌將從論文的四個部分展開對OctConv原理的闡述。

Why?—OctConv之誕生

文章摘要（Abstract)部分指出，在自然影像中，資訊以不同的頻率傳輸，其中高頻率通常以細節進行編碼，而較低頻率通常以總體結構進行編碼，同理卷積層的輸出可以看做不同頻率的資訊混合，在論文中，研究者提出通過頻率對特徵融合圖進行分解，並設計出了一種新的Octave卷積（OctConv）操作，旨在儲存和處理在空間上變化緩慢的較低解析度的特徵圖，從而降低記憶體和計算成本。與現存的多尺度方法不同，OctConv是一種單一、通用、即插即用的卷積單元，可以直接代替普通卷積，而無需調整網路結構。

OctConv與那些用於構建更優拓撲或者減少分組或深度卷積中通道冗餘的方法是正交和互補的。

實驗表明，通過使用OctConv替代普通卷積，能很好的提高語音和影像識別任務中的精度，同時降低記憶體和計算成本，一個配備有OctConv的ResNet-152能夠以僅僅22.2 GFLOP在ImageNet資料集上達到82.5%的top-1分類準確率。

What?—初探OctConv

論文Introduction（介紹）部分基於CNN現存的空間維度冗餘問題引出了下圖：

比CNN表現更好，CV領域全新卷積操作OctConv厲害在哪裡？圖2 論文思路闡述圖

（a）動機：研究表明，自然影像可以分解為低空間頻率和高空間頻率兩部分；
（b）卷積層的輸出圖也可以根據空間頻率進行分解和分組；
（c）所提出的多頻特徵表示將平滑變化的低頻對映儲存字低解析度張量中，以減少空間冗餘；
（d）所提出的OctConv直接作用於這個表示。它會更新每個組的資訊，並進一步支援組之間的資訊交換。

具體解釋為：如圖 2(a) 所示，自然影像可以分解為描述平穩變化結構的低空間頻率分量和描述快速變化的精細細節的高空間頻率分量。類似地，我們認為卷積層的輸出特徵對映也可以分解為不同空間頻率的特徵，並提出了一種新的多頻特徵表示方法，將高頻和低頻特徵對映儲存到不同的組中，如圖 2(b) 所示。因此，通過相鄰位置間的資訊共享，可以安全地降低低頻組的空間解析度，減少空間冗餘，如圖 2(c) 所示。

How?—再探OctConv

論文Method（方法）部分：octave feature 減少了空間冗餘，比原始表示更加緊湊。然而，由於輸入特徵的空間解析度不同，傳統卷積不能直接對這種表示進行操作。避免這個問題的一種簡單方法是將低頻部分上取樣到原始的空間解析度，將它與連線起來，然後進行卷積，這將導致額外的計算和記憶體開銷。為了充分利用緊湊的多頻特徵表示，我們提出 Octave Convolution，它可以直接在分解張量X={X^H，X^L}上執行，而不需要任何額外的計算或記憶體開銷。

Octave Convolution的設計目標是有效地處理相應張量中的低頻和高頻分量，同時使得Octave特徵表示的高頻分量和低頻分量之間能夠有效通訊。設X,Y為分解輸入和輸出張量，那麼輸出的高頻和低頻訊號將由下式給出：

比CNN表現更好，CV領域全新卷積操作OctConv厲害在哪裡？