2016 ICLR回顧:塑造人工智慧未來的深度學習

PSI內容合夥人發表於2016-06-03

導語:Tomasz Malisiewicz 是 vision.ai 聯合創始人。在參加完近期的 2016 ICLR 大會之後,他總結了此次大會和之前的一些研究成果,方便我們明晰人工智慧研究的方向與未來。機器之心將文中談到的所有論文 PDF 進行了整理,可點選「閱讀原文」自行下載。

深度學習趨勢@ ICLR 2016

由 Yann LeCun 和 Yoshua Bengio 等「深度學習幫派」最年輕成員發起的 ICLR 大會,正迅速變成深度學習領域最重要盛事的有力競爭者。ICLR 比 NIPS 更親切,比 CVPR(IEEE 國際計算機視覺與模式識別會議)又少些嚴格的標準,ICLR 的世界是以 arXiv 為基礎的,而且發展得非常快。

2016 ICLR回顧:塑造人工智慧未來的深度學習


本文完全是關於 ICLR 2016 的。我將在本文中強調一些用於構建更深度和更強大的神經網路的新策略、大型網路壓縮得更小的想法、以及用於開發「深度學習計算器(deep learning calculators)」的技術。許多新的人工智慧問題正遭受著最新的深度學習技術浪潮的嚴重衝擊;而從計算機視覺的角度上看,深度卷積神經網路毫無疑問正是當今用於處理感知資料的「主演算法(master algorithm)」。

天堂裡的深度聚會?ICLR 2016 在波多黎各舉辦

無論你是在機器人、擴增實境領域開展工作,還是在解決與計算機視覺相關的問題,下面的 ICLR 研究趨勢總結將能讓你一覽當今各種深度學習技術之巔的可能模樣。你可以考慮將本文作為閱讀小組交流會的起點。

  • 第一部分:ICLR vs. CVPR

  • 第二部分:ICLR 2016 深度學習趨勢

  • 第三部分:深度學習,你往何處去?

第一部分:ICLR vs CVPR

上個月舉辦的 ICLR 2016(通常發音為「eye-clear」)其實可以更準確地稱為「深度學習國際大會」。 ICLR 2016 於 5 月 2-4日在可愛的波多黎各舉辦。今年是本會議的第四屆——第一屆舉辦於 2013 年,那時這還是一個非常小的會議,甚至不得不與另一個會議選在了同一地點。因為其發起人正是所謂的「深度學習黑手黨」,所以,與會的所有人都必然正在學習和/或應用深度學習方法,這毫不奇怪。卷積神經網路(在影象識別任務中占主導地位)已無處不在,位居二線的則是 LSTM 和其它迴圈神經網路(用於對序列建模和構建「深度學習計算器」)。我個人的大部分研究大會經歷來自 CVPR,而且自 2004 年以來我就一直是 CVPR 的參會者。和 ICLR 相比,CVPR 給人幾分更冰冷、更實證的感覺。為了描述 ICLR 和 CVPR 之間的不同,Yan LeCun 在 Facebook 上引用 Raquel Urtasun 的話給出了最好的說明:

CVPR:深度網路能為我做什麼?
ICLR:我能為深度網路做什麼?

ICLR 2016 大會是我第一個真正感到緊密交織著「讓我們分享知識」活動的正式會議。在三天的主會議時間裡,有許多夜晚的網路活動,而且沒有專題研討會。ICLR 總共有大約 500 名參會者,規模大約是 CVPR 的四分之一。事實上,在哥倫比亞特區舉辦的 CVPR 2004 是我參加的第一個會議,海報包裝過的會議、多種會議和足夠讓會議持續一週的研討會,已經讓 CVPR 臭名昭著。在 CVPR 結束時,你會有一種研究後遺症的感覺,需要幾天才能恢復。我更喜歡 ICLR 的規模和時長。

和許多其它深度利用機器學習技術的頂級會議一樣,CVPR 和 NIPS 已經發展出了龐大的規模,這些大型會議的論文接受率已經接近 20%。要說 ICLR 的研究論文和 CVPR 論文相比是不成熟的,並不一定是正確的,但 ICLR 的實驗驗證類論文的數量使其成為了與 CVPR 不同的野獸。CVPR 主要關注的是產出「當下最先進的」論文,這基本上意味著你必須在一個基準之上執行你的演算法,並擊敗上一賽季的領先技術。ICLR 則主要關注強調深度卷積神經網路的分析和設計中新的和有前途的技術、該種模型的初始化方案和用於從原始資料中學習該種模型的訓練演算法。

深度學習就是學習表徵

2013 年,Yann LeCun 和 Yosha Bengio 發起這個會議,是因為存在這種需求—— 在一個新的、小的、高質量的場所,集中討論深度方法。為什麼這個會議被稱為「學習表徵(Learning Representations)」呢?因為以端到端的方式訓練的典型深度神經網路,事實上學習的是這樣的中間表徵(intermediate representations)。傳統的淺層方法是以可訓練分類器之上、人工處理過的特徵為基礎;但是,深度方法學習的是一個層級網路,它不僅學習那些高度渴望的特徵,也學習分類器。所以,當模糊特徵和分類器之間的界限時,你能得到什麼?你得到了表徵學習(representation learning)。而深度學習也就是這麼一回事。

ICLR 發行模式:只能選 arXiv

在 ICLR,論文直接釋出在 arXiv 上。如果你對 arXiv 自古騰堡計劃以來已成為了唯一最棒的科研論文發行模式還存在任何懷疑,就讓 ICLR 的成功也成為讓你開悟的另一個資料點吧。ICLR 基本上已經繞過了老式的發行模式——Elsevier 這樣的第三方說:「你可以通過我們發表論文,我們會將我們的 logo 放在論文上,然後向每一個想要閱讀每篇論文的普通人收取 30 美元費用。」抱歉,Elsevier,科研不是這麼搞的。大部分研究論文根本不值得花 30 美元一讀。研究的整體才能提供真正的價值,其中的一篇論文不過只是一扇門而已。你看,Elsevier,如果你真的能帶給世界一個額外的科研論文搜尋引擎,然後有能力以 30 美元/月的訂閱費提供印刷在高質量紙張上的 10-20 篇論文,那你就為研究者提供了一個殺手級服務,我也願意支援這樣的訂閱。所以,理所當然地,ICLR 說去你的,我們將使用 arXiv 作為傳播我們的思想的方法。未來所有的研究會議都應該使用 arViv 來傳播論文。任何人都可以下載這些論文、檢視何時張貼了新的修正版本、而且他們也能列印他們自己的實物副本。但要注意:深度學習發展迅速,你必須每週重新整理或訪問 arXiv,否則你就會被加拿大一些研究生教育了。

ICLR 與會者

谷歌 DeepMind 和 Facebook 的 FAIR(Facebook 人工智慧實驗室)佔到了與會者的大部分。還有來自 Googleplex(谷歌總部)、Twitter、NVIDIA 和 Clarifai 與 Magic Leap 等創業公司的研究者。總的來說,這是一個非常年輕且充滿活力的群體,其中 28-35 歲之間超聰明的人代表了這個群體的大多數。

第二部分:深度學習主題 

將結構納入深度學習

多倫多大學的 Raquel Urtasun 發表了演講,探討了將結構納入深度學習的話題。

許多關於結構學習和圖形模型的觀點,都在她的演講中。論文引人注目之處在於,Raquel 對計算機視覺的關注。另外,也簡單介紹了部分近期研究情況 ,取材自她的 CVPR 2016 文章。

2016 ICLR回顧:塑造人工智慧未來的深度學習

在去年的 CVPR 2015 會議上, Raquel 有過精彩演講 3D Indoor Understanding Tutorial

Raquel 的強項之一,純熟運用幾何學的能力,而且她的研究同時涵蓋了基於學習的方法以及多視角幾何。我強烈建議大家密切關注她即將發表的研究思想。以下,是兩篇 Raquel  領導團隊撰寫的前沿論文:第一篇關注的是利用 MRF中的分支界限法進行推論(branch and bound inference),根據球賽廣播定位球場位置。

2016 ICLR回顧:塑造人工智慧未來的深度學習

Raquel's new work. Soccer Field Localization from Single Image. Homayounfar et al, 2016.

2016 年論文:Soccer Field Localization from a Single Image。作者: Namdar Homayounfar, Sanja Fidler, Raquel Urtasun。

Raquel 團隊即將釋出的第二篇論文討論的是,秉承 FlowNet 的精神,針對Dense Optical Flow 使用深度學習,我在去年的一篇博文中( ICCV 2015 hottest papers )對此有討論。這項技術建立在這一觀察基礎之上:該場景通常由靜態背景,以及數量相對較少的交通參與者組成,這些交通參與者嚴格地在三維模式下移動。密集光流技術(dense optical flow technique)被應用到了自動化駕駛中。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 CVPR 論文:Deep Semantic Matching for Optical Flow。 作者:Min Bai, Wenjie Luo, Kaustav Kundu, Raquel Urtasun. 

增強學習

Sergey Levine 曾進行了一場精彩的主題演講,探討了深度強化學習及其在機器人中的應用。這方面工作似乎還得寄希望於未來,主會議中幾乎沒有出現與機器人相關的研究。這似乎不足為奇,因為組裝機器人手臂的開銷並不低,而且大多數研究生研究實驗室也沒有這樣的裝配機器。在 ICLR 會議中,多數的論文都是描述一些純軟體或數學理論,如果要開始研究典型的深度學習體系,一個 GPU 就足夠了。

2016 ICLR回顧:塑造人工智慧未來的深度學習

谷歌內部,一組機器人手臂正在一起學習如何抓取東西

接下來是一個有趣的論文,從中可以一窺牛人 Alex Krizhevsky 當前的研究內容。他就是2012年業界傳奇之文  AlexNet 的作者,該文曾轟動了目標識別(object recognition)界。Alex 的新作與機器人的深度學習有關,目前針對谷歌機器人。

論文:Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection。作者:Sergey Levine, Peter Pastor, Alex Krizhevsky, Deirdre Quillen. 

壓縮網路

2016 ICLR回顧:塑造人工智慧未來的深度學習

模型壓縮:會是神經網路的 WinZip 嗎?

如今的深度學習硬體之王或許當屬 NVIDIA ,但我仍隱約覺得,還有高手正深藏不露。請注意,一旦人們意識到擁有比特幣的經濟價值,基於 GPU 的比特幣挖掘就已經開始沒落。為執行底層的比特幣計算,比特幣的挖掘技術很快就過渡到了更加專業化的 FPGA 硬體,而且深度學習的 FPGA 也指日可待。NVIDIA 會坐守第一的寶座嗎?我認為, NVIDIA 的未來將面對關鍵的抉擇,NVIDIA  可以選擇繼續生產硬體,繼續滿足遊戲愛好者和機器學習研究人員,也可以更加專業化。非常多優秀的企業,如 Nervana Systems, Movidius,以及業界大牛谷歌等都不想再依賴 GPU ,因其功耗大且易發熱,特別是要擴充套件已經訓練完成的深度學習模型的時候更是如此。可以看一下 Movidius 的Fathom ,或谷歌的 TPU。

然而,人們已經看到了深度網路的經濟價值,但是,深度網路的「軟體」這一邊所期望的,並不是神經網路的 FPGA 硬體。壓縮神經網路的軟體版本是個非常熱門的話題。基本上,人們都會想有一個強大的神經網路,然後將其壓縮成更小、更有效的模型。將權重二分化是其中的一種方法。而且,通過模擬更大型網路來訓練小網路的「Student-Teacher」技術也已經有了。不出意外,明年我們就將見證,僅僅 1 兆大的網路就可以以牛津的 VGGNet 的同等水準,執行 ImageNet 的 1000-way  分類任務。

2016 ICLR回顧:塑造人工智慧未來的深度學習

關於 ICLR 2016 會議所收錄論文 Deep Compression (深度壓縮)  的總結,作者為 Han 等人。

今年的 ICLR 中出現了大量的關於  Compression (壓縮)的論文,其中三篇如下:

2016 ICLR 論文:Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding。作者:Song Han, Huizi Mao, and Bill Dally。 該論文榮獲 Best Paper Award (最佳論文獎)。

2016 ICLR 論文:Neural Networks with Few Multiplications。作者:Zhouhan Lin, Matthieu Courbariaux, Roland Memisevic, Yoshua Bengio。

2016 ICLR 論文:8-Bit Approximations for Parallelism in Deep Learning。作者:Tim Dettmers。

無監督學習

Philip Isola  展示了一篇論文,非常有 Efrosian 的風格(Efrosian 為 Efros 星球上的人,該星球為「星際迷航」科幻系列中的星際聯邦中 ,Flarset 系統的第四個行星)。內容為,利用在無監督學習中基於區域性定義的 Siamese Networks ,學習區域性相似性函式。這種區域性與區域性之間的相似性函式,旨在建立基於影象定義的區域性相似圖,可用該圖發現物體的大小。這讓我想起了由 Alyosha Efros 和 MIT 團隊發起的物件發現( Object Discovery)的系列研究,其中的基本思想就是,在學習相似性函式時,避免使用類別標籤。

2016 ICLR回顧:塑造人工智慧未來的深度學習

Isola 等人: A Siamese network has shared weights and can be used for learning embeddings or "similarity functions"

2016 ICLR 論文:Learning visual groups from co-occurrences in space and time。作者:Phillip Isola, Daniel Zoran, Dilip Krishnan, Edward H. Adelson。 


2016 ICLR回顧:塑造人工智慧未來的深度學習

Isola 等人:Visual groupings applied to image patches, frames of a video, and a large scene dataset

初始化網路,及 BatchNorm 為什麼重要

建設一個神經網路並執行這個網路,並非易事。ICLR 2016 中有幾篇論文提出了幾種初始化網路的新方法。但實際上,深度網路初始化問題已經 「基本解決」。因為在研究者將 BatchNorm(Batch Normalization 演算法)引入神經網路後,初始化問題似乎已經成為一種真正的、更加科學的、而非只是具有藝術價值的研究領域。「BatchNorm 就像是深度學習的黃油——任何時候擠一點,都會使食物更美味。」但也並非全然如此!

早期研究中,研究者為了使誤差反向傳播演算法(back propagation)能夠進行學習,在構建深度神經網路的權重初始值時,面臨著重重困難。其實在90年代,神經網路之所以在專案研究時期就失敗,其中部分原因恰恰就是:只有一小部分頂級研究者知道怎樣優化網路,讓網路能夠自動地從資料中學習,但是,其他的研究者並不知道任何關於初始化的正確方法。打個比方:90 年代神經網路中的「黑魔法」太過強大。在某一時刻,人們漸漸選擇使用凸方法和 Kernel 向量機,而凸優化設定中使用這些工具,是不需要進行初始化的。於是,幾乎有 10 年的時間(1995 到 2005),研究者都對深度的方法避而遠之。2006 年,深度結構得到突破,Hinton 在發明神奇的玻爾茲曼機( Boltzmann Machines)和無監督預訓練(unsupervised pretraining)時,再度使用了 Deep Architectures (深度結構)。但是無監督預訓練沒有持續太長時間,因為研究者有了 GPU。 他們認識到,一旦資料集足夠大(比如世界上影象識別最大的資料庫 ImageNet 中有大概 2 百萬張影象),那麼簡單的基於判別學習的 back-propagation 就可以執行。當轉向 ImageNet 資料集的人達到 100 多個的時候,隨機權重初始化策略、以及智慧調節的學習率,便很快便開始在研究者之間流傳開來。人們開始分享程式碼,奇蹟隨之發生。

但是,為新的問題設計新的神經網路仍然存在困難。設定多個學習速率和隨機初始化值的時候,人們不知道怎樣才是最優的方式。但研究者們必須繼續堅持研究,谷歌的一些程式設計師發現,問題的關鍵是,初始化較差的網路很難在網路間進行資訊的流通。舉個例子,比如第 N 層在某一範圍內產生啟用狀態,而隨後的其他層則卻在等待另一個數量級的資訊。因此,谷歌的 Szegedy 和  Ioffe 提出了一個簡單的技巧,即在資料通過網路的時候,將資料流進行漂白。這個方法命名為 「BatchNorm」,即,在深度網路中的每個卷積層或全連線層後都要使用歸一化層。這種歸一化層通過減去一個平均值,除以一個標準偏差值,可以將資料漂白,然後就可以在資訊流通過網路的時候輸出近似為高斯數的數值,事半而功倍。在所有的機器學習方法中,漂白資料的方式都非常流行,深度學習研究者花了這麼長時間,重新在深度網路的研究歷史中發掘出這個方法,似乎有些大費周折。

2016 ICLR 論文:Data-dependent Initializations of Convolutional Neural Networks。作者:Philipp Krähenbühl, Carl Doersch, Jeff Donahue, Trevor Darrell。其中,Carl Doersch 是卡內基梅隆大學博士研究員,被 DeepMind 招致麾下,DeepMind 或將再次有所作為。

反向傳播的把戲

向梯度中注入噪聲,看起來似乎是可行的。這讓我想起了研究生門在修復梯度計算的漏洞中常見的困境——而你的學習演算法甚至做的更糟。當你在白板上計算導數時,你可能會犯下一個愚蠢的錯誤,如搞亂了平衡兩個項的係數,或忘記了某個位置的相加項或相乘項。但是,有很大的可能你的「有漏洞的梯度」與真實「梯度」實際上是相關的。而且在很多情況下,一個與真實梯度相關的數量比真實梯度更好。這是尚未在科研界得到妥善解決的規則化(regularization)的一種特定形式。哪些型別的「有漏洞的梯度」實際上對學習有利?是否存在一個領域,其中「有漏洞的梯度」在計算成本上比「真實梯度」更低?這些「FastGrad(快速梯度)」方法能夠加速訓練深度網路,至少在前幾個時期能做到。也許到 ICLR 2017 時將會有人決定走這條研究之路。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Adding Gradient Noise Improves Learning for Very Deep Networks。作者:Arvind Neelakantan, Luke Vilnis, Quoc V. Le, Ilya Sutskever, Lukasz Kaiser, Karol Kurach, James Martens。

2016 ICLR 論文:Robust Convolutional Neural Networks under Adversarial Noise。作者:Jonghoon Jin, Aysegul Dundar, Eugenio Culurciello。

注意:聚焦計算

基於注意(attention)的方法是指用相比於「無趣的」區域,將更多精力用在處理「有趣的」區域上。並非所有畫素都是平等的,人類的注意力能很快集中到靜態影象上有趣的點上。ICLR 2016 最有趣的關於「注意」的論文是來自蒙特利爾大學 Aaron Courville 研究團隊的動態容量網路(Dynamic Capacity Networks)論文。另一位與「深度學習黑手黨」有緊密聯絡的關鍵研究者 Hugo Larochelle 現在是 Twitter 的研究科學家。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Dynamic Capacity Networks。作者:Amjad Almahairi, Nicolas Ballas, Tim Cooijmans, Yin Zheng, Hugo Larochelle, Aaron Courville。

ResNet 技巧:超深度超有趣

我們可以看到前幾個月深度學習社群中出現的新的「ResNet」技巧方面已經有了一些新論文。ResNet 是指「殘差網路(Residual Net)」,這種方法能為我們建立計算層的深度堆疊提供一種規則。因為每一個殘差層基本上要麼學習讓原始資料通過,要麼學習以某種非線性轉換的結合形式混合原始資料,所以這些層中的資訊流動會順暢得多。這種由殘差模組帶來的「流量控制」能讓你構建出非常深度的 VGG 式的網路。

2016 ICLR 論文:Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning。作者: Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Resnet in Resnet: Generalizing Residual Architectures 。作者:Sasha Targ, Diogo Almeida, Kevin Lyman。

深度度量學習(Deep Metric Learning)和學習子類

Facebook 的 Manohar Paluri 發表了一篇很棒的論文,其關注了一種思考深度度量學習的新方法。該論文標題為「帶有適應性密度區分的度量學習」,並讓我想起了在卡內基梅隆大學的我自己的研究。他們的關鍵想法可以提煉成「反類(anti-category)」的觀點。基本上,你可以將通過直覺獲得知識構建於你的演算法中,如:並非 C1 類的所有元素都應該坍縮成一個單一的獨特表徵。由於一個類別中的視覺多樣性,你只能假設 C 類中的一個元素 X 與其它 C 子類中元素類似,而且並非所有元素都是如此。在他們的論文中,他們假設 C 類中所有元素都屬於一個隱子類的集合,而且 EM 樣的學習在尋找子類分配和更新距離度量之間交替。在我研讀博士期間,我們將這個想法推進得更遠,並構建了模範支援向量機,它帶有單個積極「模範(exemplar)」元素的最小可能子類。

Manohar 作為 FAIR 團隊的一員開啟了他的研究,該團隊更專注於研發類的工作,但度量學習是非常以產品為中心的,而且該論文似乎也是「為產品做好了準備」的技術的極佳示例。我想,會有數十種 Facebook 的產品可以從這樣的資料驅動的自適應深度距離度量中受益。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Metric Learning with Adaptive Density Discrimination。作者:Oren Rippel, Manohar Paluri, Piotr Dollar, Lubomir Bourdev。

深度學習計算器

LSTM、深度神經圖靈機和我所說的「深度學習計算器」在本次大會上大放異彩。一些人說:“只是因為你能使用深度學習構建計算器,也不意味著你應該這麼做。”而對一些人而言,深度學習是聖盃+泰坦之錘,任何可以用詞語描述的東西都應該能用深度學習元件構建出來。儘管如此,這是深度圖靈機的一個激動人心的時刻。

獲得「最佳論文獎」的論文是 Scott Reed 和 Nando de Freitas 的 Neural Programmer-Interpreters。其中以一個有趣的方法將深度學習和計算理論進行了融合。如果你想知道使用深度學習來學習快速排序會怎樣,那就看看他們的論文吧。而且 Scott Reed 似乎將要加入谷歌 DeepMind 了,所以你可以看出他們正在押注哪些方面。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Neural Programmer-Interpreters。作者:Scott Reed, Nando de Freitas。 

另一篇有趣的論文來自 OpenAI 的人:「神經隨機存取機」,對於喜愛深度學習計算器的人來說,這是另一篇「粉絲最愛」。

2016 ICLR回顧:塑造人工智慧未來的深度學習

2016 ICLR 論文:Neural Random-Access Machines。作者:Karol Kurach, Marcin Andrychowicz, Ilya Sutskever。

計算機視覺應用

邊界檢測是一類常見的計算機視覺任務,其目標是預測物體之間的邊界。計算機視覺研究者已經使用影象金字塔(或稱多級處理)相當一段時間了。檢視以下彙集了多個空間解析度的資訊的深度邊界的論文。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Pushing the Boundaries of Boundary Detection using Deep Learning。作者:Iasonas Kokkinos。

RNN 的一個很棒的應用是,將影象「展開」成許多層。在物件識別的情況下,其目標是將影象分解成其組成部分。下面的示意圖給出了最好的解釋,但如果你想知道應該在你的計算機視覺設計的哪個位置使用 RNN,請檢視他們的論文。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Learning to decompose for object detection and instance segmentation。作者:Eunbyung Park, Alexander C. Berg。

擴張卷積(Dilated convolutions)是一個「技巧」,讓你可以增加你的網路的感知野(receptive field)大小,場景分割似乎是這種擴張的的最好應用領域之一。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Multi-Scale Context Aggregation by Dilated Convolutions。作者:Fisher Yu, Vladlen Koltun。


視覺化網路


兩篇最好的「視覺化」論文是 Jason Yosinski(現正加入 Geometric Intelligence 公司)的「神經網路學習的內容是一樣的嗎?」和 Andrej Karpathy(現正加入 OpenAI)的「迴圈網路的視覺化和理解」。Yosinski 研究的是,當你使用不同的初始化來學習兩個不同的網路時會發生什麼。網路學習的是一樣的事物嗎?我記得我與 Jason 進行過一個很棒的討論,是關於網路 A 的神經元能否以網路 B 的線性結合的形式表達,而 Jason 的視覺化很好地解釋了這個問題。Andrej 的遞迴網路視覺化在展示/部落格的形式下接納度更高。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Convergent Learning: Do different neural networks learn the same representations?作者:Yixuan Li, Jason Yosinski, Jeff Clune, Hod Lipson, John Hopcroft。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Visualizing and Understanding Recurrent Networks。作者:Andrej Karpathy, Justin Johnson, Li Fei-Fei。

深度卷積網路真的需要那麼深嗎(甚至不需要是卷積的)?

2016 ICLR回顧:塑造人工智慧未來的深度學習

「Do Nets have to be Deep?」插圖

這是 Rich Caruana 的論文中提出的關鍵問題(Caruana 博士現在在微軟,但是我記得十一年前我在康奈爾大學見過他)。如果你坐下來認真思考一會,你會意識到他們的論文中的兩個結果是十分有意義的。第一,卷積層有一個非常特殊的特性:在被用於圖片時,它們的表現要比只使用全連線層要好得多——影象的二維結構和過濾器的二維結構,使得卷積層能夠從引數中獲得大量結果。第二,我們現在擁有一種「師徒型」訓練演算法,你能夠讓一個更淺層的網路「模仿」另一個網路在處理大資料集時的反應。通過這種方式訓練的淺層網路,其學習效果更好。事實上,如果你將「師傅」網路的訓練樣本直接用於更淺層的網路,結果會非常差。這樣看來,你能從「資料到百萬深度」、「百萬深度到迷你深度」,但你不能直接從「資料到迷你深度」。

2016 ICLR 論文:Do Deep Convolutional Nets Really Need to be Deep (Or Even Convolutional)?  作者:Gregor Urban, Krzysztof J. Geras, Samira Ebrahimi Kahou, Ozlem Aslan, Shengjie Wang, Rich Caruana, Abdelrahman Mohamed, Matthai Philipose, Matt Richardson。

「百萬深度到迷你深度」和「迷你深度到百萬深度」前沿的另一個有趣的想法

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Net2Net: Accelerating Learning via Knowledge Transfer。作者: Tianqi Chen, Ian Goodfellow, Jonathon Shlens。

使用 LSTM 網路進行語言建模

在處理大量文字上,還有一個值得關注的方法。Chris Dyer(他可能也要加入 DeepMind 了)在一次演講中提出了一個問題:「模型結構需要反映語言學上的結構嗎?」在比較詞向量和字元向量時,他指出,對於不同的語言,使用不同方法可能會更好。對於句法複雜的語言來說,字元向量編碼要比詞向量的編碼做的更好。

2015 年論文:Improved Transition-Based Parsing by Modeling Characters instead of Words with LSTMs。作者:Miguel Ballesteros, Chris Dyer, Noah A. Smith。

同樣十分有趣的展示,是 Ivan Vendrov, Ryan Kiros, Sanja Fidler, Raquel Urtasun 等人的「影象和語言的序列向量」。它們展示了一種直觀的 y-座標系統的方式來描述概念。我很喜歡這些座標系統的類比,它們提供了思考經典問題的新角度。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2016 ICLR 論文:Order-Embeddings of Images and Language。作者:Ivan Vendrov, Ryan Kiros, Sanja Fidler, Raquel Urtasun。 

無需訓練的方法:卷積神經網路在圖片匹配上的應用

這些技術使用 ImageNet 分類任務訓練過的深度神經網路啟用圖做其他重要的計算機視覺任務,它們能巧妙地匹配影象區域。在下面這篇論文中,它們被用於智慧影象檢索。

2016 ICLR回顧:塑造人工智慧未來的深度學習

2016 ICLR 論文:Particular object retrieval with integral max-pooling of CNN activation。作者:Giorgos Tolias, Ronan Sicre, Hervé Jégou。

這讓我想起了一篇 RSS 2015 年的論文,它使用 ConvNets 來匹配地標,以完成同時定位與地圖建立(SLAM)任務。

2016 ICLR回顧:塑造人工智慧未來的深度學習


2015 RSS 論文:Place Recognition with ConvNet Landmarks: Viewpoint-Robust, Condition-Robust, Training-Free。作者:Niko Sunderhauf, Sareh Shirazi, Adam Jacobson, Feras Dayoub, Edward Pepperell, Ben Upcroft, and Michael Milford。

高斯過程和自動編碼器

高斯過程(Gaussian Processes)曾經在 NIPS 中十分流行,有時也會被應用在影象問題上,但在深度學習時代卻被「遺忘」了。在 pertaining 還是訓練深度神經網路的唯一方法時,可變化自動編碼器(VAEs)也曾是十分流行的。然而,隨著對抗網路這類新技術的發展,人們愈加頻繁地使用自動編碼器。因為在內心深處,我們仍舊「盼望」著能有像編碼器/解碼器這樣簡單的網路,來賦予我們無監督學習的力量。人們對 VAE 進行了許多嘗試,但是今天它已經不是那麼主流了。

幾何方法

總體而言,與 SfM/SLAM 這一塊相關的視覺問題內容在 ICLR 2016 上很少出現,而這類論文在 CVPR 十分普遍。同時,我很驚訝在 ICLR 上出現的機器人相關內容也不多。需要注意的是,與現在資料驅動的深度學習相比,SfM/SLAM 使用的方法更多是基於多視角幾何與線性代數。

或許一個更好的機器人與深度學習會場,是今年六月的名為「Are the Sceptics Right? Limits and Potentials of Deep Learning in Robotics」的研討會。這個研討會是 RSS 2016 的一部分,RSS 是世界領先的機器人會議。

第三部分:深度學習,你往何處去?

神經網路壓縮將會成為一個大話題——因為現實應用要求我們這麼做。演算法研究人員可不會等到 TPU 和 VPU 成為主流的時候才這麼做。能夠解讀影象的深度網路,將存在於每一個內建照相機的裝置中。事實上,到 2020 年我看不出照相機不能夠生成高質量的 RGB 圖片和神經網路向量。新的圖片格式甚至會有類似於「深度分析向量」與圖片同時儲存。而這一定會成為一個神經網路,不論以什麼結構。

OpenAI 在 ICLR 2016 上的表現值得關注,同時我感到每一週都有一個博士加入 OpenAI;谷歌 DeepMind 和 Facebook 的 FAIR 擁有大量的論文;谷歌分秒必爭地通過 TensorFlow 完成了深度學習的轉型;微軟已不是研究界的王者;創業公司們也粉墨登場——Clarifai 甚至在現場分發免費涼鞋。擁有紮實的深度學習技術的畢業生們仍舊炙手可熱,但是當下一代人工智慧創業公司席捲而來的時候,只有那些願意將他們的學術能力轉化成市場產品的人,又名「深度企業家」,能夠拿到真金白銀。

從研究上來說,arXiv 是一個十分重要的生產助力器。希望現在的你已經知道要把深度學習研究的賭注下在哪裡,從大量深度解析中得到你喜歡的研究題目的靈感,並且對頂尖研究人員的前進方向已經心中有數。我十分建議你關掉電腦,在白板上和你的同事好好探討一下深度學習的話題。抓個朋友來,教他一些有趣的把戲。

我們 CVPR 2016 見。在那之前,不要停止學習哦。

相關論文下載:http://pan.baidu.com/s/1bo3y2Az

相關文章