當地時間 2017 年 4 月 24-26 日,第五屆 ICLR 會議將在法國土倫舉行。會議的第一天已經過去,在這一天的會議上有什麼值得關注的亮點呢?機器之心在本文中介紹了研究者 Carlos E. Perez 在 Medium 上總結的那些雖然被拒,但仍然值得關注的/有亮點的論文,還對谷歌、百度、Facebook 展示的部分熱門研究論文進行了介紹。另外,ICLR 的官方 Facebook 主頁有影片直播,現在也已能看到部分錄制的影片:https://www.facebook.com/iclr.cc
十篇被拒的好論文
研究者與開發者、Intuition Machine 聯合創始人 Carlos E. Perez 在 Medium 上釋出了一篇文章,介紹了那些 ICLR 2017 卻不幸被拒,但仍有價值的十篇論文。
據作者介紹,因為本屆 ICLR 的論文評議方式存在很大的主觀性(實際上也引起了很大的爭議,參閱機器之心文章《學界 | ICLR2017 公佈論文接收名單,匿名評審惹爭議》),所以很多原本可能比較優秀的論文卻因為某些原因被刷了下去。Perez 說:「這就是這個不幸的現實。」比如牛津大學、Google DeepMind 和加拿大高等研究院(CIFAR)的研究人員提出 LipNet 的重要論文《LipNet: End-to-End Sentence-level Lipreading 》就出人意料地被拒了,不過這篇論文並沒有被包含在這份名單中。下面就列出了這十篇值得關注,卻慘遭淘汰的論文。注:本文僅代表原作者的個人觀點,不表示機器之心的立場。
1. 一種聯合多工模型:為多 NLP 任務生長一個神經網路(A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks)
作者:Kazuma Hashimoto, Caiming Xiong, Yoshimasa Tsuruoka, Richard Socher
地址:https://openreview.net/forum?id=SJZAb5cel
說明:這是一篇真正新穎的論文,給出了一種逐步生長(grow)神經網路的方法。這篇論文居然被拒了,真是讓人驚訝!這篇論文為什麼很重要呢?因為其表明了網路可以如何透過遷移學習(transfer learning)和域適應(domain adaptation)的方式進行開發。目前還沒有多少論文在這個領域探索。
2. 分層的記憶網路(Hierarchical Memory Networks)
作者:Sarath Chandar, Sungjin Ahn, Hugo Larochelle, Pascal Vincent, Gerald Tesauro, Yoshua Bengio
地址:https://openreview.net/forum?id=BJ0Ee8cxx
說明:這也是一篇關於 NLP 的論文。瞧瞧其作者名單,這麼多明星研究者的論文居然也被拒了,真是嚇人!這篇論文可以說是探索記憶的層次概念的最早期的論文之一。大多數記憶增強式的網路往往只有扁平的記憶結構。這篇論文不應該被輕視。
3.RL²:透過慢速強化學習的快速強化學習(RL²: Fast Reinforcement Learning via Slow Reinforcement Learning)
作者:Yan Duan, John Schulman, Xi Chen, Peter L. Bartlett, Ilya Sutskever, Pieter Abbeel
地址:https://openreview.net/forum?id=HkLXCE9lx
說明:居然把這篇論文給拒了,評議者一定是在逗我!這可是一篇突破性的研究啊!我猜原因是因為標題裡面的 RL² 看起來太嚇人了。任何關於元學習(meta-learning)的研究都應該是暢銷貨,然而這篇論文儘管有聲名顯赫的作者,但還是慘遭淘汰。真是不可想象!
4. 揭秘殘差網路(Demystifying ResNet)
作者:Sihan Li, Jiantao Jiao, Yanjun Han, Tsachy Weissman
地址:https://openreview.net/forum?id=SJAr0QFxe
說明:我很喜歡這篇論文,因為其給出了一些關於如何使用殘差或 skip 連線的有見地的經驗法則。2016 年最熱門的創新,一些人嘗試解構這項技術,然而他們的努力卻遭受了打擊。有人說因為這項研究中使用了簡化過的模型。但這個理由可以說是荒唐可笑,你難道不會選擇使用簡化模型來表徵複雜的模型嗎?這難道不是理所當然的事情嗎?
5. 一種神經知識語言模型(A Neural Knowledge Language Model)
作者:Sungjin Ahn, Heeyoul Choi, Tanel Parnamaa, Yoshua Bengio
地址:https://openreview.net/forum?id=BJwFrvOeg
說明:又是一篇關於 NLP 的論文,又是 Yoshua Bengio 被拒的一篇論文。將知識庫與深度學習融合應該是一項非常重大的成果,然而這篇論文卻因為「缺乏新穎性(lack of novelty)」而被駁回。評議者抱怨最多的是該論文的書寫風格,真是不幸。
6. 知識適應:教會適應(Knowledge Adaptation: Teaching to Adapt)
作者:Sebastian Ruder, Parsa Ghaffari, John G. Breslin
地址:https://openreview.net/forum?id=rJRhzzKxl
說明:當我第二遍刷被拒的論文時,我才注意到這一篇。畢竟我自己也是有所偏見的,我更傾向於尋找關於域適應和遷移學習的研究。這篇論文給出了一些非常好的想法。不幸的是,這些想法沒能打動評議者。
7. 張量混合模型(Tensorial Mixture Models)
作者:Or Sharir, Ronen Tamari, Nadav Cohen, Amnon Shashua
地址:https://openreview.net/forum?id=BJluGHcee
說明:我非常喜歡這篇論文,參考我的另一篇文章:https://medium.com/intuitionmachine/the-holographic-principle-and-deep-learning-52c2d6da8d9,不幸的是,評議者對該研究太多懷疑了。
8. 探究深度神經網路的表現力(On the Expressive Power of Deep Neural Networks)
作者:Maithra Raghu, Ben Poole, Jon Kleinberg, Surya Ganguli, Jascha Sohl-Dickstein
地址:https://openreview.net/forum?id=B1TTpYKgx
說明:如果這樣的基礎理論和實驗研究論文都會被拒,而那些像煉丹一樣的所謂的「深度學習研究」卻能得到支援,那還研究個毛線!
9. 深度學習的 Hessian 特徵值:奇點與超越(Eigenvalues of the Hessian in Deep Learning: Singularity and Beyond)
作者:Levent Sagun, Leon Bottou, Yann LeCun
地址:https://openreview.net/forum?id=B186cP9gx
說明:WOW,Yann LeCun 的論文也被拒了,小夥伴們都驚呆了!這是故意在向著名作者的臉上丟雞蛋嗎?我猜想是因為這篇研究的基礎實驗資料不夠性感,不能打動評審。有評論寫道:「有趣的實驗資料,但並沒有理論。」簡直是完全不切實際的期望。
10. 一個對深度網路損失表面的實證分析(An Empirical Analysis of Deep Network Loss Surfaces)
作者:Daniel Jiwoong Im, Michael Tao, Kristin Branson
地址:https://openreview.net/forum?id=rkuDV6iex
說明:在我另一篇文章,我談到了關於隨機梯度下降(SGD)作為一種隱式的正則化方法的另一個證據,這就是這篇論文所探討的。但遺憾的是,這些挖掘出了非常令人印象深刻的資料的研究者卻什麼也沒得到,只得到了論文被拒的羞辱。
最後,Perez 也談了談自己對於這些被拒的論文的看法:
那些試圖提升我們的理解和經驗的大膽研究不應該因為書寫風格或沒有足夠的資料而受到懲罰。在研究的最前沿,獲取合適的資料和進行實驗要困難得多。我看到新穎的創新研究的問題之一是對評議者來說不太熟悉,然而遺憾的是,正是由於它們的新穎,作者卻沒能得到合理的對待。
對於深度學習本質上的實驗研究來說,回報實在太少了。在這些情形中,研究者常常會使用簡化的模型來進行易於理解的分析。人們不應該總是關注有很好的實驗結果,當然這對機器工作方式的表徵是足夠有價值的;但如果缺少理論研究,我們基本上就是在毫無方向地摸黑「煉丹」。
人們很擔憂,當前研究環境會對深度學習研究者越來越糟糕。這個領域發展得太快了,很多評議者的看法往往跟不上最新的研究發展。所以最後會造成批評寫作風格而不是批評研究本質這樣的情況發生。這麼多好論文被拒,足以說明這種知識鴻溝之大。
接下來,機器之心對大會第一天谷歌、百度海報展示的兩篇論文進行了介紹,Facebook 對話系統方面的研究在昨天的官方部落格中也有所介紹。
谷歌:規模化的對抗機器學習
在 ICLR 2017 大會上,谷歌提交了為數最多的論文。據谷歌部落格介紹,圍繞神經網路與深度學習的理論與應用,谷歌開發了進行理解與泛化的新的學習方法。此次大會,谷歌共有 50 多位研究人員參與。值得一提的是,三篇最佳論文中有兩篇都是來自於谷歌。
關於兩篇最佳論文,機器之心在昨日的文章中已經進行了摘要介紹。但除了這兩篇最佳論文,谷歌還 poster 展示了其他眾多論文。其中,剛回到谷歌的 Ian Goodfellow 就海報展示了論文《Adversarial Machine Learning at Scale》。
論文地址:https://arxiv.org/abs/1611.01236
摘要:對抗樣本(adversarial examples)是被設計用來愚弄機器學習模型的惡意輸入。它們總是從一種模型遷移到另一個,讓 attackers 在不知道目標模型的引數的情況下進行黑箱攻擊。對抗訓練(adversarial training)是在對抗樣本上明確地訓練模型的過程,從而使它可在面臨攻擊時更穩健或可減少它在乾淨輸入上的測試錯誤率。目前,對抗訓練主要被用於一些小問題。在此研究中,我們將對抗訓練應用到了 ImageNet。我們的貢獻包括:(1)推薦如何將對抗訓練成功地規模化到大型模型和資料集上。(2)觀察對抗訓練對單步 attack 方法的穩健性。(3)發現多步 attack 方法要比單步 attack 方法有較小的可遷移性,所以單步 attack 對進行黑箱 attack 更好。(4)分辨出是「lable leaking」效應造成對抗訓練的模型在對抗樣本上的表現比在乾淨樣本上的表現更好,因為對抗樣本構造流程使用真實標籤(true label),所以該模型能學習利用構造流程中的規律。
百度:探索迴圈神經網路中的稀疏性
和谷歌一樣,百度也是本屆 ICLR 大會的白金贊助商。在大會開幕的第一天,百度海報展示了一篇論文《EXPLORING SPARSITY IN RECURRENT NEURAL NETWORKS》,據百度介紹,這一在 RNN 上的新研究能夠使用稀疏訓練將網路大小減少 90%。
論文地址:https://openreview.net/pdf?id=BylSPv9gx
摘要:隨著資料量、計算能力的提升,迴圈神經網路被普遍用來解決各種問題,也因此模型有大小。頂級的迴圈網路中的引數量使得他們難以部署,特別是在手機和嵌入式裝置上。其中的挑戰既在於模型的大小,也在於評估所要花費的時間。為了有效的部署這些迴圈網路,我們提出了一種技術,在網路的初始訓練過程中透過剪枝權重的方法減少網路的引數。在訓練結束時,網路的引數會稀疏,但準確率依然接近原始的密集型神經網路的準確率。網路的大小減小了 8 倍,而訓練模型所需的時間不變。此外,在仍舊減少引數總量的情況下,我們能剪枝一個大型的密集網路從而獲得比基線表現更好的結果。剪枝 RNN 減少了模型的大小,同時使用稀疏矩陣相乘極大的加速推論速度。基準表明,使用我們的技術能把大小減少 90%,速度提升 2 到 7 倍。
Facebook:對話系統研究
Facebook 的人工智慧實驗室主任 Yann LeCun 作為 ICLR 會議的發起人,在大會的第一開首先進行了演講。
此次 ICLR 大會,Facebook 也透過多種形式展現了自己的最新研究成果。在昨日機器之心的文章中,Facebook 著重介紹了他們在對話系統方面的研究。
在官方部落格中,Facebook 表示,「在讓機器理解自然語言對話的內容一直是 Facebook 人工智慧實驗室的一項雄心勃勃的長期研究目標。真正有效的對話系統將會成為有效的輔助技術——其中會包含透過自然語言與人類進行互動的聊天系統。對話系統可以幫助使用者更好地理解周遭的世界,更有效地與他人進行交流,消除溝通不暢的問題。隨著網路世界的不斷擴大,研究和開發這類技術正在變得越來越重要。」
此次大會上,Facebook 被接收的有關對話系統的研究有 7 篇,總共被接收的論文量為 18 篇。