【王曉剛】深度學習在影象識別中的研究進展與展望

LinJM-機器視覺發表於2015-06-03

深度學習是近十年來人工智慧領域取得的最重要的突破之一。它在語音識別、自然語言處理、計算機視覺、影象與視訊分析、多媒體等諸多領域都取得了巨大成功。本文將重點介紹深度學習在物體識別物體檢測視訊分析的最新研究進展,並探討其發展趨勢。

1. 深度學習發展歷史的回顧

現有的深度學習模型屬於神經網路。神經網路的歷史可追述到上世紀四十年代,曾經在八九十年代流行。神經網路試圖通過模擬大腦認知的機理,解決各種機器學習的問題。1986 年Rumelhart,Hinton 和Williams 在《自然》發表了著名的反向傳播演算法用於訓練神經網路[1],直到今天仍被廣泛應用。

但是後來由於種種原因,大多數學者在相當長的一段的時間內放棄了神經網路。神經網路有大量的引數,經常發生過擬合問題,即往往在訓練集上準確率很高,而在測試集上效果差。這部分歸因於當時的訓練資料集規模都較小。而且計算資源有限,即便是訓練一個較小的網路也需要很長的時間。總體而言,神經網路與其它模型相比並未在識別的準確率上體現出明顯的優勢,而且難於訓練。

因此更多的學者開始採用諸如支援向量機Boosting最近鄰等分類器。這些分類器可以用具有一個或兩個隱含層的神經網路模擬,因此被稱作淺層機器學習模型。它們不再模擬大腦的認知機理;相反,針對不同的任務設計不同的系統,並採用不同的手工設計的特徵。例如語音識別採用高斯混合模型和隱馬爾可夫模型,物體識別採用SIFT 特徵,人臉識別採用LBP 特徵,行人檢測採用HOG特徵

2006 年,Geoffrey Hinton 提出了深度學習。之後深度學習在諸多領域取得了巨大成功,受到廣泛關注。神經網路能夠重新煥發青春的原因有幾個方面。首先是大資料的出現在很大程度上緩解了訓練過擬合的問題。例如ImageNet[2]訓練集擁有上百萬有標註的影象。計算機硬體的飛速發展提供了強大的計算能力,使得訓練大規模神經網路成為可能。一片GPU 可以整合上千個核。此外神經網路的模型設計和訓練方法都取得了長足的進步。例如,為了改進神經網路的訓練,學者提出了非監督和逐層的預訓練。它使得在利用反向傳播對網路進行全域性優化之前,網路引數能達到一個好的起始點,從而訓練完成時能達到一個較好的區域性極小點。

深度學習在計算機視覺領域最具影響力的突破發生在2012 年,Hinton 的研究小組採用深度學習贏得了ImageNet [2] 影象分類的比賽[3]。ImageNet 是當今計算機視覺領域最具影響力的比賽之一。它的訓練和測試樣本都來自於網際網路圖片。訓練樣本超過百萬,任務是將測試樣本分成1000 類。自2009 年,包括工業界在內的很多計算機視覺小組都參加了每年一度的比賽,各個小組的方法逐漸趨同。在2012 年的比賽中,排名2 到4 位的小組都採用的是傳統的計算機視覺方法,手工設計的特徵,他們準確率的差別不超過1%。Hinton 的研究小組是首次參加比賽,深度學習比第二名超出了10%以上。這個結果在計算機視覺領域產生了極大的震動,掀起了深度學習的熱潮。

計算機視覺領域另一個重要的挑戰是人臉識別。Labeled Faces in the Wild (LFW) [4] 是當今最著名的人臉識別測試集,建立於2007 年。在此之前,人臉識別測試集大多采集於實驗室可控的條件下。LFW 從網際網路收集了五千多個名人的人臉照片,用於評估人臉識別演算法在非可控條件下的效能。這些照片往往具有複雜的光線、表情、姿態、年齡和遮擋等方面的變化。LFW的測試集包含了6000 對人臉影象。其中3000 對是正樣本,每對的兩張影象屬於同一個人;剩下3000 對是負樣本,每對的兩張影象屬於不同的人。隨機猜的準確率是50%。有研究表明[5],如果只把不包括頭髮在內的人臉的中心區域給人看,人眼在LFW 測試集上的識別率是97.53%。如果把整張影象,包括背景和頭髮給人看,人眼的識別率是99.15%。經典的人臉識別演算法Eigenface [6] 在這個測試集上只有60%的識別率。在非深度學習的演算法中,最好的識別率是96.33% [7]。目前深度學習可以達到99.47%的識別率[8]。

在學術界收到廣泛關注的同時,深度學習也在工業界產生了巨大的影響。在Hinton 的科研小組贏得ImageNet 比賽之後6 個月,谷歌和百度發都布了新的基於影象內容的搜尋引擎。他們沿用了Hinton 在ImageNet 競賽中用的深度學習模型,應用在各自的資料上,發現影象搜尋的準確率得到了大幅度的提高。百度在2012 年就成立了深度學習研究院,於2014 年五月又在美國矽谷成立了新的深度學習實驗室,聘請史丹佛著名教授吳恩達擔任首席科學家。Facebook 於2013 年12 月在紐約成立了新的人工智慧實驗室,聘請深度學習領域的著名學者,卷積網路的發明人YannLeCun 作為首席科學家。2014 年1 月,谷歌四億美金收購了一家深度學習的創業公司,DeepMind。鑑於深度學習在學術和工業界的巨大影響力,2013 年MIT Technology Review將其列為世界十大技術突破之首。

2. 深度學習有何與眾不同?

許多人會問,深度學習和其它機器學習方法相比有哪些關鍵的不同點,它成功的祕密在哪裡?我們下面將對這此從幾個方面作簡要的闡述。

2.1 特徵學習

深度學習與傳統模式識別方法的最大不同在於它是從大資料中自動學習特徵,而非採用手工設計的特徵。好的特徵可以極大提高模式識別系統的效能。在過去幾十年模式識別的各種應用中,手工設計的特徵處於同統治地位。它主要依靠設計者的先驗知識,很難利用大資料的優勢。由於依賴手工調引數,特徵的設計中只允許出現少量的引數。深度學習可以從大資料中自動學習特徵的表示,其中可以包含成千上萬的引數。手工設計出有效的特徵是一個相當漫長的過程。回顧計算機視覺發展的歷史,往往需要五到十年才能出現一個受到廣泛認可的好的特徵。而深度學習可以針對新的應用從訓練資料中很快學習得到新的有效的特徵表示。

一個模式識別系統包括特徵和分類器兩個主要的組成部分,二者關係密切,而在傳統的方法中它們的優化是分開的。在神經網路的框架下,特徵表示和分類器是聯合優化的,可以最大程度發揮二者聯合協作的效能。以2012 年Hinton 參加ImageNet 比賽所採用的卷積網路模型[9]為例,這是他們首次參加ImageNet 影象分類比賽,因此沒有太多的先驗知識。模型的特徵表示包含了6 千萬個引數,從上百萬樣本中學習得到。令人驚訝的是,從ImageNet 上學習得到的特徵表示具有非常強的泛化能力,可以成功地應用到其它的資料集和任務,例如物體檢測、跟蹤和檢索等等。在計算機視覺領域另外一個著名的競賽是PSACAL VOC。但是它的訓練集規模較小,不適合訓練深度學習模型。有學者將ImageNet 上學習得到的特徵表示用於PSACALVOC 上的物體檢測,將檢測率提高了20%[10]。

既然特徵學習如此重要,什麼是好的特徵呢?一幅影象中,各種複雜的因素往往以非線性的方式結合在一起。例如人臉影象中就包含了身份、姿態、年齡、表情和光線等各種資訊。深度學習的關鍵就是通過多層非線性對映將這些因素成功的分開,例如在深度模型的最後一個隱含層,不同的神經元代表了不同的因素。如果將這個隱含層當作特徵表示,人臉識別、姿態估計、表情識別、年齡估計就會變得非常簡單,因為各個因素之間變成了簡單的線性關係,不再彼此干擾。

2.2 深層結構的優勢

深度學習模型意味著神經網路的結構深,由很多層組成。而支援向量機和Boosting 等其它常用的機器學習模型都是淺層結構。有理論證明,三層神經網路模型(包括輸入層、輸出層和一個隱含層)可以近似任何分類函式。既然如此,為什麼需要深層模型呢?

理論研究表明,針對特定的任務,如果模型的深度不夠,其所需要的計算單元會呈指數增加。這意味著雖然淺層模型可以表達相同的分類函式,其需要的引數和訓練樣本要多得多。淺層模型提供的是區域性表達。它將高維影象空間分成若干區域性區域,每個區域性區域儲存至少一個從訓練資料中獲得的模板。淺層模型將一個測試樣本和這些模板逐一匹配,根據匹配的結果預測其類別。例如在支援向量機模型中,這些模板就是支援向量;在最近鄰分類器中,這些模板是所有的訓練樣本。隨著分類問題複雜度的增加,影象空間需要被劃分成越來越多的區域性區域,因而需要越來越多的引數和訓練樣本。

深度模型能夠減少引數的關鍵在於重複利用中間層的計算單元。例如,它可以學習針對人臉影象的分層特徵表達。最底層可以從原始畫素學習濾波器,刻畫區域性的邊緣和紋理特徵;通過對各種邊緣濾波器進行組合,中層濾波器可以描述不同型別的人臉器官;最高層描述的是整個人臉的全域性特徵。深度學習提供的是分散式的特徵表示。在最高的隱含層,每個神經元代表了一個屬性分類器,例如男女、人種和頭髮顏色等等。每個神經元將影象空間一分為二,N 個神經元的組合就可以表達2N 個區域性區域,而用淺層模型表達這些區域的劃分至少需要個2N 模板。由此我們可以看到深度模型的表達能力更強,更有效率。

2.5 提取全域性特徵和上下文資訊的能力

深度模型具有強大的學習能力,高效的特徵表達能力,從畫素級原始資料到抽象的語義概念逐層提取資訊。這使得它在提取影象的全域性特徵和上下文資訊方面具有突出的優勢。這為解決一些傳統的計算機視覺問題,如影象分割和關鍵點檢測,帶來了新的思路。以人臉的影象分割為例。為了預測每個畫素屬於哪個臉部器官(眼睛、鼻子、嘴、頭髮),通常的作法是在該畫素周圍取一個小的區域,提取紋理特徵(例如區域性二值模式),再基於該特徵利用支援向量機等淺層模型分類。因為區域性區域包含資訊量有限,往往產生分類錯誤,因此要對分割後的影象加入平滑和形狀先驗等約束。事實上即使存在區域性遮擋的情況下,人眼也可以根據臉部其它區域的資訊估計被遮擋處的標註。這意味著全域性和上下文的資訊對於區域性的判斷是非常重要的,而這些資訊在基於區域性特徵的方法中從最開始階段就丟失了。

理想的情況下,模型應該將整幅影象作為輸入,直接預測整幅分割圖。影象分割可以被當作一個高維資料轉換的問題來解決。這樣不但利用到了上下文資訊,模型在高維資料轉換過程中也隱式地加入了形狀先驗。但是由於整幅影象內容過於複雜,淺層模型很難有效地捕捉全域性特徵。深度學習的出現使這一思路成為可能,在人臉分割[11]、人體分割[12]、人臉影象配準[13]和人體姿態估計等各個方面都取得了成功[14]。

2.4 聯合深度學習

一些計算機視覺學者將深度學習模型視為黑盒子,這種看法是不全面的。事實上我們可以發現傳統計算機視覺系統和深度學習模型存在著密切的聯絡,而且可以利用這種聯絡提出新的深度模型和新的訓練方法。這方面一個成功的例子是用於行人檢測的聯合深度學習[15]。一個計算機視覺系統包含了若干關鍵的組成模組。例如一個行人檢測器就包括了特徵提取、部件檢測器、部件幾何形變建模、部件遮擋推理、分類器等等。在聯合深度學習中[15],深度模型的各個層和視覺系統的各個模組可以建立起對應關係。如果視覺系統中一些有效的關鍵模組在現有深度學習的模型中沒有與之對應的層,它們可以啟發我們提出新的深度模型。例如大量物體檢測的研究工作證明對物體部件的幾何形變建模可以有效地提高檢測率,但是在常用的深度模型中沒有與之相對應的層。於是聯合深度學習[15]及其後續的工作[16]都提出了新的形變層和形變池化層實現這一功能。

從訓練方式上看,計算機視覺系統的各個模組是逐一訓練或手工設計的;在深度模型的預訓練階段,各個層也是逐一訓練的。如果我們能夠建立起計算機視覺系統和深度模型之間的對應關係,在視覺研究中積累的經驗可以對深度模型的預訓練提供指導。這樣預訓練後得到的模型至少可以達到與傳統計算機視覺系統可比的結果。在此基礎上,深度學習還會利用反向傳播對所有的層進行聯合優化,使它們之間的相互協作達到最優,從而使整個網路的效能得到重大提升。

3. 深度學習在物體識別中的應用

3.1 ImageNet 影象分類

深度學習在物體識別中最重要的進展體現在ImageNet ILSVRC 挑戰中的影象分類任務。傳統計算機視覺方法在這個測試集上最低的top5 錯誤率是26.172%。2012 年Hinton 的研究小組利用卷積網路在這個測試集上把錯誤率大幅降到15.315%。這個網路的結構被稱作Alex Net [3]。與傳統的卷積網路相比,它有三點比較重要的不同。首先是採用了dropout 的訓練策略,在訓練過程中將一些輸入層和中間層的神經元隨機置零。這模擬了由於噪音和對輸入資料的各種干擾,從而使一些神經元對一些視覺模式產生漏檢的情況。Dropout使訓練過程收斂更慢,但得到的網路模型更加魯棒。其次,它採用整流線型單元作為非線性的激發函式。這不僅大大降低了計算的複雜度,而且使神經元的輸出具有稀疏的性質。稀疏的特徵表示對各種干擾更加魯棒。第三,它通過對訓練樣本映象對映,和加入隨機平移擾動產生了更多的訓練樣本,以減少過擬合。

ImageNet ILSVRC2013 比賽中,排名前20 的小組使用的都是深度學習,其影響力可見一斑。獲勝者是來則紐約大學Rob Fergus 的研究小組,所採用的深度模型還是卷積網路,對網路結構作了進一步優化。Top5 錯誤率降到11.197%,其模型稱作Clarifai[17]。

2014 年深度學習又取得了重要進展, 在ILSVRC2014 比賽中,獲勝者GooLeNet[18]將top5 錯誤率降到6.656%。它突出的特點是大大增加了卷積網路的深度,超過20 層,這在之前是不可想象的。很深的網路結構給預測誤差的反向傳播帶了困難。因為預測誤差是從最頂層傳到底層的,傳到底層的誤差很小,難以驅動底層引數的更新。GooLeNet 採取的策略是將監督訊號直接加到多箇中間層,這意味著中間和低層的特徵表示也需要能夠準確對訓練資料分類。如何有效地訓練很深的網路模型仍是未來研究的一個重要課題。雖然深度學習在ImageNet 上取得了巨大成功,但是一個現實的問題是,很多應用的訓練集是較小的,如何在這種情況下應用深度學習呢?有三種方法可供讀者參考。(1)可以將ImageNet 上訓練得到的模型做為起點,利用目標訓練集和反向傳播對其進行繼續訓練,將模型適應到特定的應用[10]。ImageNet 起到預訓練的作用。(2)如果目標訓練集不夠大 ,也可以將低層的網路引數固定,沿用ImageNet 上的訓練集結果,只對上層進行更新。這是因為底層的網路引數是最難更新的,而從ImageNet 學習得到的底層濾波器往往描述了各種不同的區域性邊緣和紋理資訊,而這些濾波器對一般的影象有較好的普適性。(3)直接採用ImageNet 上訓練得到的模型,把最高的隱含層的輸出作為特徵表達,代替常用的手工設計的特徵[19][20]。

3.2 人臉識別

深度學習在物體識別上了另一個重要突破是人臉識別。人臉識別的最大挑戰是如何區分由於光線、姿態和表情等因素引起的類內變化和由於身份不同產生的類間變化。這兩種變化分佈是非線性的且極為複雜,傳統的線性模型無法將它們有效區分開。深度學習的目的是通過多層的非線性變換得到新的特徵表示。該特徵須要儘可能多地去掉類內變化,而保留類間變化。

人臉識別有兩種任務,人臉確認和人臉辨識。人臉確認的任務是判斷兩張人臉照片是否屬於同一個人,屬二分類問題,隨機猜的正確率是50%。人臉辨識的任務是將一張人臉影象分為N 個類別之一,類別是由人臉的身份定義的。這是個多分類問題,更具挑戰性,其難度隨著類別數的增多而增大,隨機猜的正確率是1/N。兩個任務都可以用來通過深度模型學習人臉的特徵表達。

2013 年,[21]採用人臉確認任務作為監督訊號,利用卷積網路學習 人臉特徵,在LFW 上取得了92.52%的識別率。這一結果雖然與後續的深度學習方法相比較低,但也超過了大多數非深度學習的演算法。由於人臉確認是一個二分類的問題,用它學習人臉特徵效率比較低。這個問題可以從幾個方面理解。深度學習面臨的一個主要問題是過擬合。作為一個二分類問題,人臉確認任務相對簡單,容易在訓練集上發生過擬合。與之不同,人臉辨識是一個更具 挑戰性的多分類問題,不容易發生過擬合,更適合通過深度模型學習人臉特徵。另一方面,在人臉確認中,每一對訓練樣本被人工標註成兩類之一,所含資訊量較少。而在人臉辨識中,每個訓練樣本都被人工標註成N 類之一,資訊量要大的多。

2014 年CVPR,DeepID[22]和DeepFace[23] 都採用人臉辨識作為監督訊號,在LFW 上取得了97.45%和97.35%的識別率。他們利用卷積網路預測N 維標註向量,將最高的隱含層作為人臉特徵。這一層在訓練過程中要區分大量的人臉類別(例如在DeepID 中要區分1000類人臉),因此包含了豐富的類間變化的資訊,而且有很強的泛化能力。雖然訓練中採用的是人臉辨識任務,得到特徵可以應用到人臉確認任務,以及識別訓練集中沒有新人。
例如LFW 上用於測試的任務是人臉確認任務,不同於訓練中採用的人臉辨識任務;DeepID[22]和DeepFace[23]的訓練集與LFW 測試集的人物身份是不重合的。

通過人臉辨識任務學習得到的人臉特徵包含了較多的類內變化。DeepID2[24]聯合使用人臉確認和人臉辨識作為監督訊號,得到的人臉特徵在保持類間變化的同時最小化類內變化,從而將LFW 上的人臉識別率提高到99.15%。利用Titan GPU,DeepID2 提取一幅人臉影象的特徵只需要35 毫秒,而且可以離線進行。經過PCA 壓縮最終得到80 維的特徵向量,可以用於快速人臉線上比對。在後續的工作中,DeepID2+[25]對DeepID2 通過加大網路結構,增加訓練資料,以及在每一層都加入監督資訊進行了進一步改進,在LFW 達到了99.47%的識別率。

一些人認為深度學習的成功在於用具有大量引數的複雜模型去擬合資料集。這個看法也是不全面的。事實上,進一步的研究[25]表明DeepID2+的特徵有很多重要有趣的性質。例如,它最上層的神經元響應是中度稀疏的,對人臉身份和各種人臉屬性具有很強的選擇性,對區域性遮擋有很強的魯棒性。以往的研究中,為了得到這些屬性,我們往往需要對模型加入各種顯示的約束。而DeepID2+通過大規模學習自動擁有了這些引人注目的屬性,其背後的理論分析值得未來進一步研究。

4. 深度學習在物體檢測中的應用

深度學習也對影象中的物體檢測帶來了巨大提升。物體檢測是比物體識別更難的任務。一幅影象中可能包含屬於不同類別的多個物體,物體檢測需要確定每個物體的位置和類別。深度學習在物體檢測中的進展也體現在ImageNet ILSVRC 挑戰中。2013 年比賽的組織者增加了物體檢測的任務,需要在四萬張網際網路圖片中檢測200 類物體。當年的比賽中贏得物體檢測任務的方法使用的依然是手動設計的特徵,平均物體檢測率,即meanAveraged Precision (mAP),只有22.581%。在ILSVRC2014 中,深度學習將mAP 大幅提高到43.933%。較有影響力的工作包括 RCNN[10],Overfeat[26],GoogLeNet[18],DeepID‐Net[27],network in network[28],VGG[29],和spatialpyramid pooling in deep CNN[30]。被廣泛採用的基於深度學習的物體檢測流程是在RCNN[10]中提出的。首先採用非深度學習的方法(例如selective search[31])提出候選區域,利用深度卷積網路從候選區域提取特徵,然後利用支援向量機等線性分類器基於特徵將區域分為物體和背景。DeepID‐Net[27]將這一流程進行了進一步的完善使得檢測率有了大幅提升,並且對每一個環節的貢獻做了詳細的實驗分析。此外深度卷積網路結構的設計也至關重要。如果一個網路結構提高提高
影象分類任務的準確性,通常也能使物體檢測器的效能顯著提升。

深度學習的成功還體現在行人檢測上。在最大的行人檢測測試集(Caltech[32])上,被廣泛採用的HOG 特徵和可變形部件模型[33]平均誤檢率是68%。目前基於深度學習最好的結果是20.86%[34]。在最新的研究進展中,很多在物體檢測中已經被證明行之有效的思路都有其在深度學習中的實現。例如,聯合深度學習[15]提出了形變層,對物體部件間的幾何形變進行建模;多階段深度學習[35]可以模擬在物體檢測中常用的級聯分類器;可切換深度網路[36]可以表達物體各個部件的混合模型;[37]通過遷移學習將一個深度模型行人檢測器自適應到一個目標場景。

5. 深度學習用於視訊分析

深度學習在視訊分類上的應用總體而言還處於起步階段,未來還有很多工作要做。描述視訊的靜態影象特徵, 可以採用用從ImageNet 上學習得到的深度模型;難點是如何描述動態特徵。以往的視覺方法中,對動態特徵的描述往往依賴於光流估計,對關鍵點的跟蹤,和動態紋理。如何將這些資訊體現在深度模型中是個難點。最直接的做法是將視訊視為三維影象,直接應用卷積網路[38],在每一層學習三維濾波器。但是這一思路顯然沒有考慮到時間維和空間維的差異性。另外一種簡單但更加有效的思路是通過預處理計算光流場,作為卷積網路的一個輸入通道[39]。也有研究工作利用深度編碼器(deep autoencoder)以非線性的方式提取動態紋理[40],而傳統的方法大多采用線性動態系統建模。在一些最新的研究工作中[41],長短記憶網路(LSTM)正在受到廣泛關注,它可以捕捉長期依賴性,對視訊中複雜的動態建模。

6. 未來發展的展望

深度學習在影象識別中的發展方興未艾,未來有著巨大的空間。本節對幾個可能的方向進行探討。在物體識別和物體檢測中正趨向使用更大更深的網路結構。ILSVRC2012 中Alex Net 只包含了5 個卷積層和兩個全連線層。而ILSVRC2014 中 GooLeNet 和 VGG 使用的網路結構都超過了20 層。更深的網路結構使得反向傳播更加困難。與此同時訓練資料的規模也在迅速增加。這迫切需要研究新的演算法和開發新的平行計算系統更加有效的利用大資料訓練更大更深的模型。

與影象識別相比,深度學習在視訊分類中的應用還遠未成熟。從ImageNet 訓練得到的影象特徵可以直接有效地應用到各種與影象相關的識別任務(例如影象分類、影象檢索、物體檢測和影象分割等等),和其它不同的影象測試集,具有良好的泛化效能。但是深度學習至今還沒有得到類似的可用於視訊分析的特徵。要達到這個目的,不但要建立大規模的訓練資料集([42]最新建立了包含一百萬YouTube 視訊的資料庫),還需要研究適用於視訊分析的新的深度模型。此外訓練用於視訊分析的深度模型的計算量也會大大增加。

在與影象和視訊相關的應用中,深度模型的輸出預測(例如分割圖或物體檢測框)往往具有空間和時間上的相關性。因此研究具有結構性輸出的深度模型也是一個重點。雖然神經網路的目的在於解決一般意義的機器學習問題,領域知識對於深度模型的設計也起著重要的作用。在與影象和視訊相關的應用中,最成功的是深度卷積網路,它正是利用了與影象的特殊結構。其中最重要的兩個操作,卷積和池化(pooling)都來自於與影象相關的領域知識。如何通過研究領域知識,在深度模型中引入新的有效的操作和層,對於提高影象識別的效能有著重要意義。例如池化層帶來了區域性的平移不變性,[27]中提出的形變池化層在此基礎上更好的描述了物體各個部分的幾何形變。在未來的研究中,可以將其進一步擴充套件,從而取得旋轉不變性、尺度不變性、和對遮擋的魯棒性。

通過研究深度模型和傳統計算機視覺系統之間的關係,不但可以幫助我們理解深度學習成功的原因,還可以啟發新的模型和訓練方法。聯合深度學習[15]和多階段深度學習[35]是兩個例子,未來這方面還可以有更多的工作。最然深度學習在實踐中取得了巨大成功,通過大資料訓練得到的深度模型體現出的特性(例如稀疏性、選擇性、和對遮擋的魯棒性[22])引人注目,其背後的理論分析還有許多工作需要在未來完成。例如,何時收斂,如何取得較好的區域性極小點,每一層變換取得了那些對識別有益的不變性,又損失了那些資訊等等。最近Mallat 利用小波對深層網路結構進行了量化分析[43],是在這一個方向上的重要探索。

深度學習在影象識別上的巨大成功,必將對於多媒體相關的各種應用產生重大影響。我們期待著更多的學者在不久的將來研究如何利用深度學習得到的影象特徵,推動各種應用的快速進步。

7. 結束語

2012 年以來,深度學習極大的推動了影象識別的研究進展,突出體現在ImageNet ILSVRC 和人臉識別,而且正在快速推廣到與影象識別相關的各個問題。深度學習的本質是通過多層非線性變換,從大資料中自動學習特徵,從而替代手工設計的特徵。深層的結構使其具有極強的表達能力和學習能力,尤其擅長提取複雜的全域性特徵和上下文資訊,而這是淺層模型難以做到的。一幅影象中,各種隱含的因素往往以複雜的非線性的方式關聯在一起,而深度學習可以使這些因素分級開,在其最高隱含層不同神經元代表了不同的因素,從而使分類變得簡單。

深度模型並非黑盒子,它與傳統的計算機視覺體統有著密切的聯絡,但是它使得這個系統的各個模組(即神經網路的各個層)可以通過聯合學習,整體優化,從而效能得到大幅提升。與影象識別相關的各種應用也在推動深度學習在網路結構、層的設計和訓練方法各個方面的的快速發展。我們可以預見在未來的數年內,深度學習將會在理論、演算法、和應用各方面進入高速發展的時期,期待著愈來愈多精彩的工作對學術和工業界產生深遠的影響。

王曉剛 香港中文大學 原文PDF下載

參考文獻:
[1] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by error propagation. Nature, 323(99):533–536, 1986.
[2] J. Deng, W. Dong, R. Socher, L. Li, K. Li, and L. Fei‐Fei. Imagenet: A large‐scale hierarchical image database. In IEEE Int’l Conf. Computer Vision and Pattern Recognition,2009.
[3] A. Krizhevsky, L. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Proc.Neural Information Processing Systems,2012.
[4] G. B. Huang, M. Ramesh, T. Berg, and E.Learned‐Miler. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report, University of Massachusetts, Amherst, 2007.
[5] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar. Attribute and simile classifiers for face verification. In IEEE Int’l Conf. Computer Vision, 2009.
[6] M. Turk and A. Pentland. Eigenfaces for recognition. Journal of Cognitive Neuroscience, 3(1):71–86, 1991.
[7] D. Chen, X. Cao, F. Wen, and J. Sun. Blessing of dimensionality: Highdimensional feature and its efficient compression for face verification. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition,2013.
[8] Y. Sun, X. Wang, and X. Tang. Deeply learned face representations are sparse, selective, and robust. arXiv:1412.1265, 2014.
[9] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient‐based learning applied todocument recognition. Proceedings of the IEEE, 86:2278– 2324, 1998.
[10] R. Girshick, J. Donahue, T. Darrell, and J.Malik. Rich feature hierarchies for accurate object detection and semantic
segmentation. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[11] P. Luo, X. Wang, and X. Tang. Hierarchical face parsing via deep learning. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2012.
[12] P. Luo, X. Wang, and X. Tang. Pedestrian parsing via deep decompositional network. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[13] Y. Sun, X. Wang, and X. Tang. Deep convolutional network cascade for facial point detection. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition,2013.
[14] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[15] W. Ouyang and X. Wang. Joint deep learning for pedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[16] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H. Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet: multi‐stage and deformable deep convolutional neural networks for object detection. arXiv:1409.3505, 2014.
[17] http://www.clarifai.com/
[18] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. arXiv:1409.4842, 2014.
[19] A. S. Razavian, H. Azizpour, J. Sullivan, and S. Carlsson. Cnn features off‐the‐shelf: an astounding baseline for recognition. arXiv:1403.6382, 2014.
[20] Y. Gong, L. Wang, R. Guo, and S. Lazebnik.Multi‐scale orderless pooling of deepconvolutional activation features. arXiv:1403.1840, 2014.
[21] Y. Sun, X. Wang, and X. Tang. Hybrid deeplearning for computing face similarities. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[22] Y. Sun, X. Wang, and X. Tang. Deep learningface representation from predicting 10,000classes. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[23] Y. Taigman, M. Yang, M. Ranzato, and L.Wolf. Deepface: Closing the gap to humanlevelperformance in face verification. In Proc. IEEE Int’l Conf. Computer Vision andPattern Recognition, 2014.
[24] Y. Sun, X. Wang, and X. Tang. Deep learningface representation by joint identificationverification.In Proc. Neural Information Processing Systems, 2014.
[25] Y. Sun, X. Wang, and X. Tang. Deeplylearned face representations are sparse,selective, and robust. arXiv:1412.1265, 2014.
[26] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu,R. Fergus, and Y. Le‐ Cun. Overfeat:Integrated recognition, localization and detection using convolutional networks. InProc. Int’l Conf. Learning Representations,2014.
[27] W. Ouyang, P. Luo, X. Zeng, S. Qiu, Y. Tian, H.Li, S. Yang, Z. Wang, C. Qian, Z. Zhu, R. Wang, C. Loy, X. Wang, and X. Tang. Deepidnet:multi‐stage and deformable deepconvolutional neural networks for object detection. arXiv:1409.3505, 2014.
[28] M. Lin, Q.. Chen, and S. Yan. Network innetwork. arXiv:1312.4400v3, 2013.
[29] K. Simonyan and A. Zisserman. Very deepconvolutional networks for large‐scaleimage recognition. arXiv:1409.1556, 2014, 2014.
[30] K. He, X. Zhang, S. Ren, and J. Sun. Spatialpyramid pooling in deep convolutionalnetworks for visual recognition. arXiv:1406.4729, 2014.
[31] J. R. R. Uijlings, K. E. A. Van de Sande, T.Gevers, and W. M. Smeulders. Selectivesearch for object recognition. InternationalJournal of Computer Vision, 104:154–171,2013.
[32] P. Dollar, C. Wojek, B. Schiele, and P. Perona.Pedestrian detection: A benchmark. In Proc.IEEE Int’l Conf. Computer Vision and PatternRecognition, 2009.
[33] P. Felzenszwalb, R. B. Grishick, D.McAllister,and D. Ramanan. Object detection with discriminatively trained part based models.IEEE Trans. PAMI, 32:1627–1645, 2010.
[34] Y. Tian, P. Luo, X. Wang, and X. Tang,“Pedestrian Detection aided by DeepLearning Semantic Tasks,” arXiv 2014.
[35] X. Zeng, W. Ouyang, and X. Wang. Multistagecontextual deep learning forpedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision, 2013.
[36] P. Luo, Y. Tian, X. Wang, and X. Tang.Switchable deep network for pedestrian detection. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[37] X. Zeng, W. Ouyang, and X. Wang. Deep learning of scene‐specific classifier for pedestrian detection. In Proc. European Conf. Computer Vision, 2014.
[38] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence, 35(1):221–231, 2013.
[39] K. Simonyan and A. Zisserman. Two‐Stream Convolutional Networks for Action Recognition in Videos. arXiv:1406.2199, 2014.
[40] X. Yan, H. Chang, S. Shan, and X. Chen, Modeling Video Dynamics with Deep Dynencoder. In Proc. European Conf. Computer Vision, 2015.
[41] J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. Long‐term recurrent convolutional networks for visual recognition and description.arXiv:1411.4389, 2014.
[42] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei‐Fei. Large‐scalevideo classification with convolutional neural networks. In Proc. IEEE Int’l Conf. Computer Vision and Pattern Recognition, 2014.
[43] J. Bruna and S. Mallat. Invariant scattering convolution networks. IEEE Trans. on Pattern Analysis and Machine Intelligence, 35(8):1872 – 1886, 2013.

相關文章