論文學習8“DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition”文章學習...

weixin_34247155發表於2018-01-13

本文出自14年CVPR,作者是Facebook的賈揚青團隊,caffe開源框架的作者,TensorFlow框架的作者之一,本文也是caffe的前身DeCAF現世的文章。本文的主要內容是在講遷移學習,上週學習RCNN文章的時候用到了遷移學習,所以這周就將這篇文章進行學習。

遷移學習就是就是把已學訓練好的模型引數遷移到新的模型來幫助新模型訓練資料集,以解決目標域標記樣本量少、過擬合等問題。本文就是將在ImageNet2012上訓練過的Alexnet網路運用到SUN-397、 Caltech-101等資料集上進行識別、檢測等任務,觀察模型效果。

模型:

作者設計了一個開源的卷積模型DeCAF,允許人們輕鬆地訓練由各種圖層型別組成的網路,並且高效地執行預先訓練的網路,而不限於GPU。底層架構,作者採用Alexnet網路架構,在ILSVRC-2012資料集上預訓練。

為了驗證特徵泛化能力,作者將提取的特徵用t-sne演算法進行了視覺化,結果如下圖所示:

8771353-ad79e45880e10b19.png

由上圖可以看出來decaf可以實現更好的聚類,而且層次越深聚類效果越好,也就說明了淺層提取的是“低階”特徵,而深層提取的是高階特徵。作者還在SUN-397資料集進行了視覺化,如下圖,可以看出聚類效果依然很好。

8771353-f43df084e2bff105.png

同時,作者還對訓練時每一層所用時間進行統計,結果如下圖:

8771353-410882f7892201c0.png

實驗:

為了驗證模型的遷移能力,作者分別在目標識別,領域適應,子類別識別和場景識別方面進行了實驗。

Object recognition,為了分析深度特徵在低水平目標類別的能力,在Caltech-101資料集上進行試驗。採用“dropout”,實驗中,每一類隨機選擇30個樣本,在剩餘樣本中進行測試,交叉驗證比是5/1,結果如下圖,SVM+Dropout+DeCAF6有最好結果,右圖是訓練樣本數目不同時每個類別平均準確率。

8771353-eebf5497c0bd8dd4.png

Domain adaptation,測試DeCAF在區域適應任務上的效能。資料集是office dataset。資料集包含三部分:amazon(來自amazon.com的產品影象),webcam和Dslr(辦公環境影象,分別用網路攝像和單反拍攝)。對於這個資料集,之前的工作大多用的是SURF方法進行特徵提取。文章用t-SNE演算法把SURF和DeCAF特徵投影到2維空間。下圖顯示的是webcam和Dslr兩個子資料集的特徵投影。可以發現,DeCAF的類別聚集更好,並且能聚集不同區域的統一類別物體,表明了DeCAF可以移除區域偏差。

8771353-95510ab089a5c636.png


8771353-4ff2d9963e952280.png

作者在office資料集上進行定性實驗,驗證結論,下表展示了多類別平均準確率,只用源資料(S);只用目標資料(T);源資料和目標資料都用(ST)。表中最後三個是自適應方法。

8771353-fa6612a3c16172a1.png

Subcategory recognition,測試子類識別上的效能,使用Caltech-UCSD鳥類資料集,文章採用了兩種方法,1)把影象剪裁成bounding box的1.5倍長寬,resize成大小,在CNN網路裡,進行logistic迴歸分類。2)應用deformable part descriptors和deformable part model,把DeCAF應用在訓練的DPM模型中。下表是本文的方法和文獻的方法效能對比。

8771353-a0b2ae3ac2d15303.png

Scene recognition,測試CAFFE在SUN-397大規模場景識別資料集上的效能。目標識別的目的是確定和分類影象中的物件,而場景識別的任務是分類整個影象。SUN-397資料集中,有397個語義場景類別,結果如下表。

8771353-1da303320d90b6cb.png

總結:本文研究的是把一個大規模資料集學習到的模型,遷移到其他資料集上進行預測。主要用來解決某些資料集的有標籤資料少的問題。這得益於ImageNet資料集的發明。在ImageNe上學習到的特徵有較強的表達能力,此階段叫做pre-training。模型遷移之後,進行fine-tuning,即使用BP演算法對特定的資料集進行調優。通過實驗證明深度卷積網路具有以下特徵:

1、可以逐層提取影象的特徵,語義從低到高,不需要人工的設計特徵。

2、泛化能力較強。可以適用於目標識別、場景識別和區域適應等。

3、魯棒性強。對影象的扭曲、偏移、縮放等完全適應。

本文另一個貢獻是開發出了開源的深度學習軟體包CAFFE,也就是本文是DeCAF基於GPU,效能比純CPU的程式碼提高十倍以上。

相關文章