谷歌把資料增強也自動化了,ImageNet資料集準確率創新高!

AI前線發表於2018-06-05
谷歌把資料增強也自動化了,ImageNet資料集準確率創新高!
作者 | Ekin Dogus Cubuk,Barret Zoph
譯者 | 核子可樂
編輯 | Vincent
AI 前線導讀:深度學習技術在計算機視覺領域獲得的成功,在很大程度上要歸功於目前出現的大量可直接使用的標記訓練資料集——隨著訓練資料集在質量、多樣性與規模層面的不斷提高,我們的模型效能通常也將同步改善。

然而,收集充足的高質量資料以訓練模型,從而實現良好效能通常是一項極為困難的工作。解決這個問題的方法之一,在於將影象對稱性硬編碼神經網路架構,從而提升其實際表現 ; 或者由專家手動設計資料增強方法,例如旋轉與翻轉,從而訓練出效能出眾的視覺模型。

此前人們對於如何利用機器學習技術以自動增強現有資料這一課題往往關注不多。而受到 AutoML 在設計神經網路架構與優化器方面表現出的強大能力的啟發,我們不禁想到:是否能夠以自動化方式完成資料增強過程?

更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)

在之前的文章( https://arxiv.org/abs/1805.09501) 中,我們曾經探討過一種強化學習演算法,其能夠增加現有訓練資料集當中資料的數量與多樣性。簡單來講,資料增強的意義在於教會模型發現資料域中的影象不變性,從而確保神經網路在這些重要的對稱性層面始終保持不變,最終實現效能提升。與以往需要以手動方式設計資料增強策略的深度學習模型不同,我們利用強化學習技術從資料當中找到最佳影象轉換策略。其結果是,計算機視覺模型的效能得到提高,而使用者則不必為其提供新的、不斷擴充套件的資料集。

訓練資料增強

資料增強背後的基本思路非常簡單:影象擁有大量對稱性,這種對稱性不會影響到影象中已經存在的資訊。舉例來說,狗在進行鏡面反射後仍然是狗。雖然這些“不變性”在很大程度上能夠為人類所輕易理解,但也有一些並不是那麼直觀。混合方法(https://arxiv.org/abs/1710.09412) 能夠在訓練過程當中將影象彼此重疊以實現資料增強,從而產生出能夠切實改善神經網路效能的資料。

谷歌把資料增強也自動化了,ImageNet資料集準確率創新高!

圖左:來自 ImageNet 資料集的一張原始圖片。圖右:通過常規資料增強轉換得出的左右翻轉版本。

AutoAugment 是一種專門為計算機視覺資料集設計的定製化自動資料增強策略。舉例來說,其能夠實現多種基本影象轉換操作,例如水平 / 垂直翻轉、影象旋轉以及影象顏色變更等等。AutoAugment 不僅能夠預測需要合併的影象轉換,還可以預測各影象所使用轉換方式的概率與量級,從而確保以不盡相同的方式對各影象進行操作。AutoAugment 能夠從 2.9 x 1032 種影象轉換可能性當中檢索出最佳策略。

AutoAugment 還可以根據當前資料集學習到不同的轉換方法。舉例來說,對於包含數字的自然場景影象——例如房屋號碼與街道檢視(SVHN,http://ufldl.stanford.edu/housenumbers/) ——AutoAugment 會將重點放在以剪下與平移實現幾何變換上,從而代表資料集中常見的失真現象。此外,考慮到全球各不同建築物與門牌號材料的多樣性,AutoAugment 還學習瞭如何完全改變原始 SVHN 資料集中出現的顏色資訊。

谷歌把資料增強也自動化了,ImageNet資料集準確率創新高!

圖左:來自 SVHN 資料集的原始影象。圖右:由 AutoAugment 轉換後的相同影象。在這種情況下,最佳變換在於剪下影象並反轉畫素顏色。

在 CIFAR-10 與 ImageNet 資料集上,AutoAugment 不會使用剪下,因為這些資料集內的影象通常不包含剪下物件 ; 也不會完全反轉顏色,因為這種轉換會產生與實際情況不符的表達。相反,AutoAugment 的重點在於略微調整色彩與色調分佈,同時保留常規顏色屬性。這表明 CIFAR-10 與 ImageNet 中的物體實際顏色非常重要,而 SVHN 中只有相對顏色才比較重要。

谷歌把資料增強也自動化了,ImageNet資料集準確率創新高!

圖左:來自 ImageNet 資料集中的原始影象。圖右:由 AutoAugment 策略轉換後的相同影象。右圖對比度實現最大化,此外右圖還經過了旋轉處理。

結 果

我們的 AutoAugment 演算法從一系列最知名的計算機視覺資料集當中發現了多種增強策略,這些資料集在與神經網路訓練相結合之後將帶來極為可觀的精確率水平。通過增強 ImageNet 資料,我們獲得了最高的 83.54% 精確率 ; 而在 CIFAR-10 方面,我們的錯誤率僅為 1.48%——比科學家們設計的預設資料錯誤率低 0.83%。在 SVHN 方面,我們將錯誤率由 1.30% 降低至 1.02%。重要的是,AutoAugment 所發現的策略亦具備可遷移性——為 ImageNet 資料集整理出的策略亦適用於其它視覺資料集(Stanford Cars、FGVC-Aircraft 等),從而改善神經網路效能。

我們高興地看到,我們的 AutoAugment 演算法在眾多不同的競爭性計算機視覺資料集上皆實現了良好的效能水平,並期待著未來能夠將其應用於更多計算機視覺任務當中,甚至包括其它領域(例如音訊處理或語言模型)。感興趣的朋友可以點選此處(https://arxiv.org/abs/1805.09501) 檢視相關論文附錄,從而利用其改進自身視覺任務的模型質量。

鳴 謝

這裡我們要特別感謝論文的合著者 Dandelion Mane、Vijay Vasudevan 以及 Quoc V. Le。我們還要感謝 Alok Aggarwal、Gabriel Bender、Yanping Huang、Pieter-Jan Kindermans、Simon Kornblith、Augustus Odena、Avital Oliver 以及 Colin Raffel 對本專案提供的寶貴協助。

原文連結:

https://ai.googleblog.com/2018/06/improving-deep-learning-performance.html


相關文章