Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度

AIBigbull2050發表於2019-12-19
2019-12-16 19:44:16

作者 | Google

譯者 | 劉暢

編輯 | Jane

出品 | AI科技大本營( ID:rgznai100)

【導語】目前,深度卷積(Depthw ise convolution)在追求高效能的卷積網路中的應用變得越來越流行,但很多研究忽略了其核心大小的影響。在本文中,作者系統地研究了不同核心大小的影響,並發現將多種核心大小的優勢 結合在一起可以帶來更高的準確性和效能。基於此觀察,作者提出了一種新的混合深度卷積(Mixed Depthw ise Convolution, MDConv),它自然地在單個卷積中混合了多個核心大小。作為普通深度卷積的一種簡單替代,本文的MDConv提升了現有MobileNet在ImageNet影像分類和COCO目標檢測方面的準確性和效能。

通過將 MDConv 整合到AutoML 搜尋空間中,作者進一步開發了一個名為 MixNets 的系列模型,其效能明顯優於以前的模型,包括MobileNetV2(ImageNet top-1精度提升為+4.2%),ShuffleNetV2](+3.5%),MnasNet( +1.3%),ProxylessNAS(+ 2.2%)和FBNet(+ 2.0%)。特別是MixNet-L模型在傳統的移動端裝置條件(<600M FLOPS)下達到了最新的SOTA結果,ImageNet top-1精度為78.9%。

論文地址:

https://ar xiv.org/pdf/1907.09595v3.pdf

程式碼地址:

https://github .com/tensorflow/tpu/tree/master/models/official/mnasnet/mixnet.

引言

卷積神經網路(ConvNets)已廣泛用於影像分類,檢測,分割和許多其他應用。在卷積網路ConvNets設計上的最新趨勢是提高準確性和效能。遵循這種趨勢,深度卷積在目前的卷積網路中變得越來越流行,例如MobileNet,ShuffleNet,NASNet,AmoebaNet,MnasNet和EfficientNet。與常規卷積不同,深度卷積核心分別應用於每個單獨的通道,因此將計算成本降低了C倍,其中C是通道數。在使用深度卷積核心設計卷積網路時,一個重要但經常被忽略的因素是卷積核大小。儘管常規做法是簡單地使用3x3核心,但是最近的研究結果表明,較大的卷積核尺寸(例如5x5卷積核和7x7卷積核)可以提高模型的準確性和效率。

Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度

在本文中, 作者重新回顧了一個基本問題:更大的卷積核是否總是可以獲得更高的精度?自從在AlexNet中首次觀察到提升以來, 眾所周知,每個卷積核都負責捕獲區域性影像模式,該模式可能是早期階段的邊緣或者後期階段的目標。大卷積核傾向於以更多的引數和計算為代價來捕獲具有更多細節的高解析度模式,但它們總是會提高準確性嗎?

為了回答這個問題,本文系統地研究了基於MobileNets的卷積核大小的影響。圖1顯示了結果。如預期的那樣,更大的卷積核大小會使用更多引數顯著增加模型大小;當卷積核大小從3x3上升到7x7時,模型精度也跟著提升,但是當卷積核尺寸大於9x9時,模型精度會迅速下降,這表明較大的卷積核尺寸可能會損害精度和效能。實際上,這種觀察結果與卷積網路的第一種直覺相吻合:在極端情況下,卷積核大小等於輸入解析度,卷積網路變成了完全連線的網路, 眾所周知這是非常差的設計方式。這項研究提出了單個卷積核大小的侷限性:我們既需要大卷積核來捕獲高解析度模式,又需要小卷積核來捕獲低解析度模式,以提高模型的準確性和效能。

基於此觀察,本文提出了一種混合深度卷積(MDConv),它在單個卷積運算中混合了不同的卷積核大小,因此它可以輕鬆捕獲具有各種解析度的不同模式。圖2顯示了MDConv的結構,該結構將通道劃分為多個組,並對每個通道組應用不同的卷積核大小。作者展示了MDConv是普通深度卷積的一種替代,但它可以顯著提高MobileNets在ImageNet影像分類和COCO目標檢測上的準確性和效能。

Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度

為了進一步證明本文MDConv的有效性,我們利用神經架構 搜尋開發了名為MixNets的新模型系列。實驗結果表明,我們的MixNet模型 大大優於所有以前的移動端卷積網路,例如ShuffleNets,MnasNet,FBNet和ProxylessNAS。特別是,本文的中型模型MixNet-M在ImageNet資料集上 top-1達到了77.0%精度,同時使用的引數比ResNet-152少12倍,FLOPS數少31倍。

方法

MDConv的 主要思想是在一個深度卷積運算中混合多個具有不同大小的卷積核,以便可以輕鬆地從輸入影像中捕獲不同型別的模式。在本節中,作者將討論MDConv的特徵圖(feature map)和MDConv的設計選擇。

  • 3.1 MixConv特徵圖

Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度

其中k是卷積核大小,m是通道數乘子係數,公式2表示的是將卷積分組,公式3是最終的輸出向量。

Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度

圖3顯示了實現MixConv的tensorflow程式碼,在某些平臺 上面,MixConv可以作為單個操作實現,並使用組卷積進行優化。儘管如此,如圖所示,MixConv可以看作是普通深度卷積的簡單替代。

  • 3.2MixConv設計選擇

MixConv是一種靈活的卷積運算,具有多種設計選擇。

組大小g:它確定了單個輸入張量使用多少種不同型別的卷積核大小。

每組的卷積核大小:從理論上講,每個組可以具有任意的卷積核大小。但是,如果兩個組具有相同的卷積核大小,則將這兩個組合併為一個組是等效的,因此本文限制每個組具有不同的卷積核大小。

每組的通道數大小:在本文中,作者 主要考慮兩種通道數劃分方法:(1)等分劃分:每個組將具有相同數量的濾波器(2)指數劃分:第i個組將佔總通道數的2^-i。

擴張卷積:對於大卷積核需要更多的引數和計算,一種替代方法是使用擴張卷積,它可以在不增加額外引數的情況下,增加感受野。但是擴張卷積的精度通常不如大卷積核。

  • 3.3在移動端網路上評估MixConv效能

ImageNet分類效能對比:

Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度

COCO檢測效能對比:

Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度

實驗

為了進一步證明MDConv的有效性,作者利用神經結構 搜尋開發了基於MDConv的新模型家族,即MixNets。

  • 4.1網路結構搜尋

本文的神經架構 搜尋設定與MnasNet, FBNet和ProxylessNAS相似,後者採用MobileNetV2作為baseline網路結構,去 搜尋最佳的卷積核大小,擴充套件比,通道大小和其他選擇。本文與其不同的是採用了MDConv作為了 搜尋選項。更具體點,本文有五個不同組大小(Group size)的MDConv候選.

為了簡化 搜尋過程,作者沒有在 搜尋空間中包含指數通道分割槽(exponential channel partition)或擴張卷積(dilated convolutions),將它們整合到以後的工作中也屬於無關痛癢。

與最近的神經架構 搜尋方法類似,本文直接在ImageNet訓練集上進行 搜尋,然後從 搜尋結構中選擇了一些在ImageNet驗證集和遷移學習資料集上效能 最高的模型,。

4.2在ImageNet資料集上MixNet的效能

表2顯示了MixNets在ImageNet資料集上的效能。在這裡,本文從神經架構 搜尋中獲得MixNet-S和M,並使用深度係數1.3放大MixNet-M獲得了MixNet-L。所有模型都使用與MnasNet相同的設定進行訓練。

Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度

總的來說,本文的MixNets明顯優於最新的移動端卷積神經網路:與最新手工設計的模型相比,在相同FLOPS數的約束下,本文的MixNets的top-1準確性比MobileNetV2提高了4.2%,比ShuffleNetV2提高了3.5%。與最新的自動化模型相比,在類似的FLOPS約束下,我們的MixNets的準確度明顯高於MnasNet(+1.3%),FBNets(+2.0%),ProxylessNAS(+ 2.2%)。特別是,在經典的移動端FLOPS(<600M)設定下,本文的MixNet-L達到了78.9%的top-1精度。與普遍使用的ResNets相比,本文的MixNet-M達到了相同的77%top-1精度,同時使用的引數比ResNet-152少12倍,FLOPS少31倍。

Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度

圖7視覺化了ImageNet的效能,作者觀察到,與以前的手工移動卷積網路相比,神經架構 搜尋的最新進展顯著改善了模型效能。但是,通過引入一種新的高效MDConv,本文可以基於相同的神經架構 搜尋技術進一步提高模型的準確性和效能。

  • 4.3 網路架構

Google提出移動端新SOTA模型MixNets:用混合深度卷積核提升精度

為了理解為什麼本文的MixNet能獲得更高的準確性和效能,圖8展示了表2中的MixNet-S和MixNet-M網路架構。通常,它們都使用各種MDConv,並且整個網路中的卷積核大小不同:在早期階段為了節省計算成本,小卷積核更常見,而在後期階段為了獲得更高的精度,大卷積核更為常見。作者還觀察到,更大的MixNet-M傾向於使用更大的卷積核和更多的層,以追求更高的精度,但需要更多的引數和FLOPS。與採用大卷積核的普通深度卷積會嚴重降低精度不同,本文的MixNets可以利用9x9和11x11等超大核從輸入影像中獲得高解析度的模式,而不會損害模型的準確性和效率。

總結

在本文中,作者重新審視了卷積核大小對深度卷積的影響,並確定傳統的深度卷積會受到單個卷積核大小的限制。為了解決這個問題,作者提出了MDConv,它在單個操作中混合了多個卷積核以利用不同的卷積核大小。作者展示了MDConv是對普通深度卷積的一種簡單替代,還提高了MobileNets在影像分類和目標檢測任務上的準確性和效能。基於本文提出的MDConv卷積,作者使用神經結構 搜尋技術進一步開發了一個新的MixNet模型系列。實驗結果表明,在ImageNet分類和四個廣泛使用的遷移學習資料集上,本文的MixNet比所有最新的移動端卷積網路都有明顯更高的準確性和效能。




https://www.toutiao.com/i6771001579844665863/




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2669401/,如需轉載,請註明出處,否則將追究法律責任。

相關文章