論文名稱:C3AE: Exploring the Limits of Compact Modelfor Age Estimation
論文連結:https://arxiv.org/abs/1904.05059
導語
簡介
模型
用於小尺寸影像的緊緻模型:重新思考標準卷積
年齡的兩點表徵
級聯訓練
基於周圍環境的迴歸模型
實驗
在 Morph II 上的對比
在 FG-NET 上的對比
結論
參考文獻
往期解讀
導語
在計算機視覺領域,年齡估計(Age Estimation)是一個經典的學習問題。隨著 CNN 網路(比如 AlexNet、VGGNet、GoogLeNet、ResNet)不斷變大變深,其效能也獲得長足提升;但是上述模型並不適用於嵌入式/移動裝置。
最近,MobileNet 和 ShuffleNet 系列演算法降低引數數量,帶來了輕量級模型。但是由於採用深度可分離卷積,特徵表達能力被弱化。在調查了緊緻模型(Compact Model)在中小尺度影像方面的侷限性之後,曠視研究院提出了一個極其簡單但高效的基於語境的年齡估計模型 ——C3AE。
相較於 MobileNets、ShuffleNets 和 VGGNet,該網路只有其 1/9 和 1/2000 的引數量,但取得了極具競爭力的效能。具體而言,曠視研究院把年齡估計問題重新定義為基於級聯模型的兩點表示;並且,為充分利用面部的上下文資訊,提出了三分支 CNN 網路,以整合多個尺度的上下文資訊。三個年齡估計資料集上的實驗表明,C3AE 很大程度地推進了緊緻模型的當前最佳效能。
簡介
近年來,越大越深的卷積神經網路在帶來精度提升的同時,也帶來了計算成本前所未有的提升,無論是對於訓練還是部署而言。具體而言,受限於模型大小和計算量,在智慧手機、汽車、機器人等嵌入式/邊緣裝置上執行現有的大型模型(比如 AlexNet、VGGNet、ResNet、InceptionV1-V4)幾近不可能。
為解決上述問題,最近,MobileNet 和 ShuffleNet 系列演算法透過深度可分離卷積方法極大減少引數量,在這些模型中,傳統的卷積被一個兩步的改進卷積所替代,即逐通道卷積和逐點卷積。這兩個系列演算法將所有的關注點都集中在模型改進上,忽略了影像的輸入尺寸也與模型設計息息相關,尤其是緊緻性模型設計。事實上,卷積模組中的卷積層/或者池化層很大程度上類似直接對影像做下采樣操作,但是其卷積層卻耗費了大量的引數和計算量。
對於大尺寸影像而言,這樣的操作(可分離卷積)是可行的,因為影像需要被大量通道所表徵;對於低解析度的中小尺寸影像來說,這就需要打問號。另外對於識別問題來說,許多高畫質的大尺度影像是沒有必要的,幾倍的下采樣往往並不影響模型的效能,但卻極大地影響著模型設計。
相較於大尺寸影像,中小尺寸影像經常只需要網路中更少的通道來表徵,當然計算量和引數量也一樣會大幅度減少。因此,和深度可分離卷積相比,中小尺寸影像的標準卷積層並不需要太多的引數和記憶體。
從影像表徵的角度看,可分離卷積的輸出通道數量是標準卷積的很多倍。為補償表徵能力,可分離卷積不得不增加引數。因此,曠視研究院認為,使用小卷積核的一般卷積層比深度可分離卷積層更適合處理中小尺寸影像。
之前的許多緊緻性模型都在思考如何改進模型或者卷積層以滿足現實需求,很少考慮影像的輸入尺寸與模型設計的關係。對於一個識別系統來說,當影像清晰度合適時,許多低解析度的影像往往也是非常合格的訓練樣本,如圖 1 所示。
影像的儲存和處理要在低解析度、中小尺寸的情況下,即小影像執行在低功耗的移動裝置上,年齡估計即是與此相關的困難問題之一。
比如,人們可以輕易地識別出圖 1 中男人的年齡,不管他的臉是低解析度、區域性或是全域性的。曠視研究院認為,當下的普通卷積神經網路同樣可以擁有這種能力,透過設計一個帶有標準卷積層的簡單網路,並把中小尺寸人臉影像作為年齡估計的輸入,也能設計一個非常緊緻的模型。事實上,對影像進行下采樣的過程就對應到神經網路中的池化過程,只是之前的許多工作都把研究重心放在了模型改進上。
年齡估計的最新進展通常歸納為兩個方向:1)聯合分類與年齡值迴歸,2)分佈匹配。在本文中,曠視研究院嘗試同時利用分類、迴歸和標籤分佈的資訊,它的實現是透過把年齡值表徵為兩個相鄰年齡等級上的一個分佈(如圖 2 所示),並且訓練目標是最小化分佈之間的匹配(如圖 3 所示)。
在深度迴歸模型中,會在特徵層和年齡值預測層之間嵌入一個帶有語義分佈的全連線層,該全連線層即是預測的分佈。
總體而言,曠視研究院設計了一個緊緻模型,它把所有中/小尺度影像作為輸入,使用標準卷積而不是深度卷積,其中能較好地控制特徵層的通道數。據知,這應該是目前為止最小的人臉識別模型,基礎模型僅 0.19 MB,完整模型約 0.25 MB;接著,曠視研究員把分離的年齡值表徵為一個分佈,並設計一個級聯模型;進而,曠視研究員引入一個基於語境的迴歸模型,它把多個尺寸的人臉影像作為輸入。
藉助於這一簡單的基礎模型、級聯式訓練以及多尺寸語境,曠視研究院旨在解決所有的中小尺寸影像的年齡估計問題,這一方法稱之為——C3AE。事實上這一思路可以推廣到許多其他的應用中。
模型
曠視研究員首先展示了基礎模型及其架構,接著描述了新的年齡兩點表示方法,並透過級聯的方式將其嵌入到深度迴歸模型中。隨後,藉助於三個不同尺度下的人臉資訊,加入了基於周圍環境資訊的整合模組,透過共享的 CNN 嵌入到單一的迴歸模型中。
用於中小尺寸影像的緊緻模型:重新思考標準卷積
本文的基礎模型(plain model)由 5 個標準卷積和 2 個全連線層構成,如表 1 所示;曠視研究員還展示為什麼使用標準的卷積模組而不是 MobileNet 和 ShuffleNet 系列模型所用的可分離的卷積模組。本文設計的基礎模型極其簡單,也不 fashion,但是一點也不影響其良好的效能。
在 MobileNet 系列模型中,對引數量與計算量降低方面的狀況進行了分析,尤其是標準卷積和可分離卷積之間的對比。這一分析適用於大尺寸影像,而對於中、小尺寸影像,效果則不一定好。
年齡的兩點表徵
曠視研究員藉助兩點表徵對年齡估計實現了重新定義,即把一個全新的年齡表徵看作是兩個離散且相鄰的 bin 的一個分佈。任意點的表徵是透過兩個鄰近的 bin,而不是任意兩個或多個 bin 來表示。顯然,兩點表徵的分佈是稀疏的,只有其中兩個元素是非零的。
級聯訓練
年齡值可由分佈向量表徵,但是分佈向量的組合方式是多種多樣的。兩點表徵很適合解決這種多樣性的不足。那麼下一個問題是,如何把向量資訊嵌入到一個端到端的網路中。本文透過級聯模型做到了這一步,如圖 2 所示。具體而言,一個帶有語義資訊(年齡分佈)的全連線層被嵌入到特徵層和迴歸層之間,並使用 KL loss 進行約束。
基於周圍環境的迴歸模型
中小尺寸影像的解析度和大小是限定的,利用不同尺寸下的人臉資訊很有必要。如圖 1 所示,解析度更高的影像有著豐富的區域性資訊,而解析度較低的影像則有著全域性資訊和場景資訊。除了挑選 SSR 中一個對齊的人臉框外,本文按照三個尺寸剪裁人臉中心,如圖 2 所示,緊接著將其輸入到共享的 CNN 網路,最後三種尺寸的人臉影像的特徵透過級聯模組之前的串聯(concatenation)進行聚合。
實驗
實驗包含三個部分。第一部分是基礎模型的對比實驗(1):對比使用基礎模型的 SSR、MobileNet V2、ShuffleNet V2 和 C3AE;第二部分是消去實驗(2):討論級聯模組(兩點表示)和基於周圍場景模組的必要性;第三部分是與當前最優方法的一些對比實驗。本文主要介紹第三部分。
在 Morph II 上的對比
如表 5 所示,在 Morph II 上,C3AE(full model)在從頭開始訓練和在 IMDB-WIKI 上預訓練兩種情況下分別取得了2.78 和 2.75 MAE,這是所有簡單模型中的當前最佳結果;而C3AE(plain model)則直截了當地取得了 3.13 MAE。總之,C3AE 以超輕量級模型在 Morph II 上取得了很有競爭力的結果。
在 FG-NET 上的對比
如表 6 所示,在 FG-NET 上,C3AE 與一些當前最優模型做了對比。透過平均絕對值損失,經過預訓練的 MV 取得了最佳結果 2.68 MAE,而 C3AE 經過預訓練實現的結果是 2.95 MAE 和 0.17 std,即第二優結果。此外,在沒有預訓練的情況下,C3AE 取得的結果 4.09 稍優於 MV 的 4.10。總之,在 FG-NET 上的對比證明了 C3AE 的有效性和競爭力。
結論
曠視研究院提出了一個極簡單模型,稱之為 C3AE,相較於其他簡單模型(緊緻性模型),C3AE 取得了當前最優的結果,且相比於大模型其表現也很有競爭力。多個消融實驗也證明了 C3AE 各個模組的有效性。對於中小尺寸的影像和模型,本文也給出了一些分析和思考。未來,曠視研究院將會評估 C3AE 在一般資料集和更廣泛應用上的有效性。
參考文獻
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residuallearning for image recognition. In CVPR, 2016.
Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, WeijunWang, Tobias Weyand, Marco An- dreetto, and Hartwig Adam. Mobilenets: Efficientconvolutional neural networks for mobile vision applications. arXiv preprintarXiv:1704.04861, 2017.
Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenetclassification with deep convolutional neural networks. In NIPS, 2012.
Ningning Ma,Xiangyu Zhang, Hai-Tao Zheng, and Jian Sun. Shufflenetv2: Practical guidelines for efficient cnn architec- ture design. In ECCV,2018.
Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zh- moginov, andLiang-Chieh Chen. Mobilenetv2: Inverted residuals and linear bottlenecks. InCVPR, 2018.
X Zhang, X Zhou, M Lin, and J Sun. Shufflenet: An extremelyefficient convolutional neural network for mobile devices. arxiv 2017. arXivpreprint arXiv:1707.01083.