上海紐約大學張崢教授:2017年影響力論文推薦

機器之心發表於2018-08-27

0:
  • Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

  • https://arxiv.org/abs/1712.01815 

  • David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot,Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan, Demis Hassabis 

  • Google Deepmind

  • Date: 12/5/2017, NIPS 2017

  • Citation: 99

這篇文章特意選擇在 NIPS2017 會議期間發表,但與會者並沒有特別大的反應。相反,在研討會上這篇文章引起了關於通用智慧的一場針鋒相對的討論。

通盤考慮對學界和工業界的影響力,把 AlphaZero 置頂應該沒有疑問。這是一個軟硬相輔相成、演算法和工程結合、頂級學術加頂級廣告的完美案例。演算法上最吸引人的不是進,而是退,不是做加法,而是做減法,退回到一個更加簡潔明快的框架之中。谷歌 TPU 系列硬體也藉此脫穎而出,到了大街小巷連門房大爺都要問個明白的程度。

這樣的工作,影響力已經遠遠超出了可以用學術界論文引用指數來衡量的範疇。在大會中我碰到文章的一作 David Silver,問他怎麼看中國的幾個圍棋程式,他笑笑說估計它們「參考」了這個工作,因為文章發表之後不久水平大漲。

這個專案即便提名,對方婉拒的可能不小。所以我正式的提名是以下五個工作。

1:

  • Poincaré Embeddings for Learning Hierarchical Representations. 

  •  http://papers.nips.cc/paper/7213-poincare-embeddings-for-learning-hierarc 

  • Maximillian Nickel and Douwe Kiela 

  • Facebook AI Research (FAIR)

  • Date: arXiv 5/22/2017; NIPS 2017

  • Citation: 47

這是相對小眾的理論文章。如果說機器學習是幢樓,那築樓的磚塊是「嵌入式表示」(Embedding Representation)。現實世界中的資料,比如影像、文字、概念,存在於維度極高也極端稀疏的高維空間中,「嵌入」的意義在於把這些資料對映成一個相對稠密的低維空間中的向量,從而把源空間中巨大的空洞擠壓掉。深度學習的所有的計算都圍繞這相對稠密的物件空間中的向量展開,推演向量之間的關係。

一般情況下我們假設物件空間是個歐式空間。而真實資料、概念之間的關係很複雜,桌子是傢俱的一類,大猩猩是人的遠親,分別對應分支和層次的關係,等等。這些關係量化到物件空間,其距離和位置是如何的呢?一種可能是把維度遍歷成序列,相當於賦予維度以層次的語義,排前維度代表更高的層次。即便如此,那麼劃分成多少層次,每層用多少維呢?這後面最根本的問題在於嵌入空間是否具有可解釋性,這個問題曾經困擾我很久。在追逐實用的浪潮中,如此重要的問題少有工作涉及。

這個工作創造性地把物件空間變成一個球體:離球中心越遠的點層次越低,在一個同心殼上的可以粗略地認為層次相當,離中心遠的同心殼上可分佈的點也越多。其意義相當於把歐式空間擴充到非歐空間,自然表達了層次化,因此是一個極有潛力的好概念,並進一步激發想象力:是不是尺度變化不大的情況下可以認為向量分佈在一個近歐式空間,而尺度大了以後是非歐空間?更重要的啟發在於,切換視角、做正規化轉換比死啃現有的框架要有意義地多;能更一般化地擴充套件已有框架都是極好的工作。

2:

  • TVM: An Automated End-to-End Optimizing Compiler for Deep Learning

  • https://arxiv.org/abs/1802.04799 

  • Tianqi Chen, Thierry Moreau, Ziheng Jiang, Lianmin Zheng, Eddie Yan, Meghan Cowan, Haichen Shen, Leyuan Wang, Yuwei Hu, Luis Ceze, Carlos Guestrin, Arvind Krishnamurthy

  • University of Washington

  • Date: 02/2018, SysML

  • Project site: https://tvm.ai/ 

  • Citation: 4

和前兩篇相比,這一篇來自華盛頓大學的工作幾乎沒有多少引用。主要原因是特別新,雖然專案開源已經有一段時間。這篇文章的短文在 2018 年在第一屆系統和機器學習的跨界研討會 SysML 發表,長文最近剛剛被系統研究的頂會 OSDI 2018 錄用。

人工智慧的打造離不開強大的硬體支撐,TVM 的意義在於建立了一個把演算法高效地實現到各類硬體的平臺,打破了現階段主要硬體廠商對底層的壟斷。如果說工業界的研究更偏重落地、實用、開發商業價值,學術界的重要使命之一是打破壁壘,把技術民主化和扁平化。

這項工作在學術上開啟了另一扇門,使得人工智慧演算法可以用來優化自身在底層硬體的實現。系統工程和人工智慧結合有幾個有意義的路徑,這個工作將是這方面的先驅,意義重大。此研究團隊在這方面的工作(如下)正在 NIPS2018 審稿階段,我認為非常出色。

  • Learning to Optimize Tensor Programs

  • https://arxiv.org/abs/1805.08166 

  • Tianqi Chen, Lianmin Zheng, Eddie Yan, Ziheng Jiang, Thierry Moreau, Luis Ceze, Carlos Guestrin, Arvind Krishnamurthy

  • Date: 5/21/2018

相比而言,系統研究是個苦活,一個好工作經常需要一個很強的團隊合作至少九個月才能成型。而系統和 AI 兩方面都過硬十分難得。這篇文章的一作陳天奇同學和卡內基大學的李沐、紐約大學的王敏捷是開源平臺 MXNet 的三大學生領袖,作風踏實、實力雄厚而樸實低調,是難能可貴的青年才俊。

3:

  • Attention is All you Need. 

  • http://papers.nips.cc/paper/7181-attention-is-all-you-need 

  • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. 

  • Google Brain and Google Research

  • Date: arXiv 6/12/2017; NIPS 2017

  • Citation: 432

把語言看成一個序列,利用帶門控制的迴圈網路(比如 LSTM 或 GRU)來處理是常用手段。但帶來的問題也是顯而易見的:序列上的點如果要影響很多步之後的另一個點,需要「穿過」兩者之間的每一道門才能抵達。這層層關卡顯然是累贅,而且距離越遠帶來的問題越大。

這個工作在翻譯任務中拋棄迴圈網路的框架,力圖在節點間建立一個動態的關聯網路,在思路上是非常漂亮的一個突破,實際效果也非常好。

我個人傾向於把這個工作歸入動態圖和深度網路有機結合的一個大潮流之中。從這個角度來看,這個工作的出現是必然的。關於這個大方向,我在後面另作展開。

4:

  • Densely Connected Convolutional Networks

  • https://arxiv.org/abs/1608.06993 

  • Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger

  • Cornell University

  • arXiv: 8/25/2016; CVPR 2017

  • Citation: 1284

這篇高引用文章面世於 2016 年,雖然正式會議發表是在 2017 年。所以,理論上並不符合「2017 年之後」的標準,但也值得提一下。

深度學習中的神經網路一味追求「深」帶來至少兩個問題:細節的丟失和錯誤訊號的梯度難以回傳。ResNet 引入 skip-connection,把淺層的特徵可以逐層「快遞」,使得影像識別網路的效能上了一個臺階,但隨後發展進入停滯。這個工作並沒有在本質上改變這個局面,其突破是把淺層特徵上報的範圍擴大,這也是「密連結」一詞的由來。

在實用中,這個網路在控制引數總量的同時效果顯著。

5:

  • Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

  • https://arxiv.org/abs/1705.07115 

  • Alex Kendall, Yarin Gal, Roberto Cipolla 

  • University of Cambridge

  • Date: arXiv 5/19/2017; CVPR 2018

  • Citation: 38

我們經常要求一個模型同時勝任多個任務,比如在定位物體的同時預測類別。多工學習除了實用性,另一個意義是對模型進行約束。但帶來一個令人頭疼的問題:如何設定每個任務在訓練中的比重。這因為任務的難度不一樣,標註複雜度和標註中的噪音也不一樣。現階段依靠暴力搜尋超引數的方法除了浪費計算資源,更大的問題是對問題缺乏嚴格的數學表述。

這個工作把單任務預測的不確定性和其在多工訓練中的比重結合起來,給出了一個漂亮的數學形式,實驗結果也很不錯。雖然是在解決視覺問題中提出,但具有一般性,有被推廣的潛力。

其他推薦

從 2014 年開始,對抗網路(GAN)一直大熱,原文至今已經被引用超過 4400 次。對其他研究領域來說(比如我之前活動的系統研究領域),這是個天文數字。在影像和自然語言中,有兩篇文章沒有直接用 GAN,而是取其精髓,用對抗的損失函式對中間層的表達做約束,用迭代翻譯的方法建立同一模態但不同表達的資料集(比如英文和德文、馬和斑馬)之間的聯絡,從而大大降低昂貴的標註成本。工作非常漂亮。

第一個是 CycleGAN:

  • Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

  • https://arxiv.org/abs/1703.10593 

  • Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros

  • University of California, Berkeley

  • Date: arXiv 3/30/2017; ICCV 2017

  • Citation: 700

第二個自然語言其實有兩篇同時在 ICLR 2018 年發表的文章

  • Unsupervised Machine Translation Using Monolingual Corpora Only. 

  • https://arxiv.org/abs/1711.00043

  • Guillaume Lample, Alexis Conneau, Ludovic Denoyer, Marc'Aurelio Ranzato. 

  • Facebook AI Research; University of Paris 06

  • Date: arXiv 10/31/2017; ICLR 2018. 

  • Citation: 26

 

  • Unsupervised Neural Machine Translation

  • https://arxiv.org/abs/1710.11041

  • Mikel Artetxe, Gorka Labaka, Eneko Agirre, Kyunghyun Cho. 

  • University of the Basque Country (UPV/EHU); New York University

  • Date: 10/30/2017; ICLR 2018. 

  • Citation: 26

2017 年還有一篇來自「教父」(之一)Hinton 的明星文章,所謂「膠囊網路」,其在 NIPS 的報告欄前擠滿了人。「膠囊」的誕生有點早,在深度學習大熱之前的 2011 年,我也很早讀到,覺得有趣,也因此堅定了這個信念:除了層次化的卷積網路之外不借鑑大腦的工作機理都是短視和錯誤的。2011 年的文章提出了模型的粗框架,但更多是提出而不是解決了問題。顯然,Hinton 一直沒有放棄這個方向。這種堅持之可貴,值得國內的同行認真反思。

  • Dynamic Routing Between Capsules

  • https://arxiv.org/abs/1710.09829 

  • Sara Sabour Nicholas Frosst Geoffrey E. Hinton

  • Google Brain

  • Date: arXiv 10/26/2017; NIPS 2017

  • Citation: 190

我個人的看法,「膠囊」在科學探索比實際應用更重要一些,是把腦科學和 AI 從神經元級別上升到電路層次來銜接的重要一步。在技術上有兩個地方值得學習,一個是球形的嵌入式表達,和之前的 Poincaré Embeddings(推薦的第一篇)有異曲同工之處,第二個就是迭代的圖計算,正是下面要提到的。

2017 到 2018 年一個暗流湧動的區域是把圖理論和深度學習結合起來。或者說,大家開始意識到隱性挖掘資料中內在結構的侷限性。在很多問題中,資料本身是由功能塊決定的,功能塊之間的聯絡可以看做一個圖上節點之間的連結。這些關係在有些場景中是顯性的,比如社交網路、分子結構。如果不是顯性也有機會學出來的,尤其當節點數並不是特別大的時候,比如 Attention is all you need 這篇文章就是利用了這一點。

以下這篇工作是谷歌 Deepmind 的總結性文章,在網上關注度不小。但我並不推薦,因為其中無太多新意。關於圖和深度網路結合,我看到最早的文章在 2007 年。

  • Relational inductive biases, deep learning, and graph networks

  • https://arxiv.org/abs/1806.01261 

  • Peter W. Battaglia, Jessica B. Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, Caglar Gulcehre, Francis Song,Andrew Ballard, Justin Gilmer, George Dahl, Ashish Vaswani, Kelsey Allen, Charles Nash, Victoria Langston, Chris Dyer, Nicolas Heess, Daan Wierstra, Pushmeet Kohli, Matt Botvinick, Oriol Vinyals, Yujia Li, Razvan Pascanu 

  • Google Deepmind

  • Date: arXiv 6/4/2018

  • Citation 3

在谷歌的總結文章中,我認為缺少了對動態圖的處理;之前的 attention is all you need 可以看做動態圖在自然語言處理中的一個例子。下面這個工作專門做一般性的動態圖生成,實驗做得很仔細,是這方面開先河的一個工作。但 2017 年以來有不少文章,很難推薦一篇。因為這篇和谷歌的總結性文章互補,在這裡提一下。

  • Learning Deep Generative Models of Graphs

  • https://arxiv.org/abs/1803.03324 

  • Yujia Li, Oriol Vinyals, Chris Dyer, Razvan Pascanu, Peter Battaglia 

  • Google Deepmind

  • Date: 3/8/2018

  • Citation 9

和上面這個工作相關的來自谷歌的另一篇文章。這篇文章之所以影響不小,是因為擴充了另一個新領域,並順手把圖計算的介面整理了一下。值得參考。

  • Neural Message Passing for Quantum Chemistry

  • https://arxiv.org/abs/1704.01212 

  • Justin Gilmer, Samuel S. Schoenholz, Patrick F. Riley, Oriol Vinyals, George E. Dahl 

  • Google Deepmind

  • Date: 4/4/2017, NIPS 2017 workshop of Machine Learning for Molecules and Materials

  • Citation: 119

後記

總的來說,以深度學習為代表的人工智慧在 2017 年以來依然保持蓬勃發展的勢頭。因為 各個子領域採納的基本框架類似,文章都相通可以互鑑,一個嚴重的後果就是論文成災,找到含金量高的成果變成科研的一個瓶頸。

而總的來說,含金量在論文大量湧現的背景下按比例快速下降。大家都在吃上一代核心演算法的紅利。如果新一代核心演算法遲遲不能出現,這將是一個很糟糕的未來。我尤其為剛剛進入或將要進入研究生的同學們感到擔憂:花大力氣打磨出一些微小改進的工作是很無趣的。

但我還是保持謹慎的樂觀。其中一個原因是跨界人才的進入,和因此而來的新的應用領域的開啟。為大賽推薦的這幾篇文章的作者,就有來自物理、材料、化學的高階人才。他們帶來不同的問題,不同的理論框架,不同的視野,不同的技術和框架。況且,以上推薦的這些文章啟發性還是很大。各方都在憋大招,可以說是暗流湧動不可預測。

要完成自我革命,一個重要的前提是對已有框架要保持高度自覺的警惕和懷疑。我認為某些手段的濫用遮蔽了更正確的道路,卷積網路、迴圈網路、注意力機制等等,有可能成為前進的絆腳石。不理解環境的暴力強化學習(model-free reinforcement learning)、無層次無結構的執行策略(policy)等等,都應該看成一個階段性的成果,而不是全部。靈活挖掘資料背後的結構,在有標籤的情況下和圖計算結合,在無標籤的情況下使用資訊瓶頸來「擠」出結構來,是我個人看好的方向。

更可能的是,真正可怕也有趣的方向,正在我看不到的某個實驗室的角落發酵。

學界另一個不健康的趨勢是暴力選參。深度學習最後總要落實到一個優化問題上來。也許這個問題就是需要大容量的模型,就是需要做大批的引數篩選,但盲目預設這樣的前提,併為這樣的結果叫好,無疑是資源貧乏的學校等研究單位的自我降維。如果不說是自殺性的思路,至少是舉械投降的姿態。

最後說一下大家都關注的熱點,所謂中國 AI 研究已經世界老二,因為我們論文數已經第二。能發論文,說明了方法的掌握,不代表有影響力。而任何一種競賽,領先的都有帶路的責任,也所謂「一帶一路」。

那麼,所謂影響力,用論文的被引數是不是能成為一個參考呢?

我曾經聽其他學科的教授半開玩笑地說,論文裡除了介紹(introduction)那一節的引用算,其他的引用都是充數。假如把實驗部分的引用也算上,這話是有些道理的,換句話說,即便被引,也不代表有相同的影響力。

另外,「影響」這個詞也相當主觀,因每個研究者的領域不同而異。我自己從系統界跨界過來,根基不紮實,而且做得雜。正因為如此,我十分期待大賽其他評委的推薦以及最後的結果——這是一個雖然貌似主觀但事實上更客觀的標準:到底哪些工作啟發了你?

無論如何,我希望大家不要愧對了「世界 AI 大會」這麼大的名頭。

我的推薦事先徵求了不少同行的意見,包括紐約大學 CIRVR 實驗室的幾位我很看重的老師。結果大家也看見了,主要集中在工業界的幾個聚合了很多天才的實驗室,也有小部分學校,並不在中國。

我認為中國 AI 不是第二,而是第一——但是是應用轉化和落地的第一。在原創性上,我們暫時不需要去比,因為既沒有比的必要,也沒有比的可能。中國在 AI 發展的道路上,其位置一直處於一個巨大的原創 IP 的市場,而不是產地。為此,我們避免了大量的試錯成本。

但有句老話說得好:出來混,早晚要還的。是不是?

作者簡介:

上海紐約大學張崢教授:2017年影響力論文推薦

張崢:上海紐約大學計算機終身教授,紐約大學庫朗數學研究所、計算機系、資料學院兼職教授,美國伊利諾大學香檳大學(UIUC)博士。中組部千人計劃專家。《知識分子》88人專家委員會成員。原惠普中央研究院研究員,原微軟亞洲研究院系統研究方向創始人、首席研究員、副院長,主要研究領域為深度學習和人工智慧、高效能大容量計算和儲存系統,在國際會議獲多次最佳論文, 在微軟和惠普獲卓越貢獻獎。開源深度學習平臺MXNet的共同創始人和顧問。

相關文章