ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習

大資料文摘發表於2019-06-12

ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習

大資料文摘出品

當地時間6月12日,ICML 2019於美國長灘市公佈了本屆大會最佳論文結果。

谷歌大腦、MaxPlanck和蘇黎世聯邦理工學院合作的《挑戰無監督分離式表徵的常見假設》,以及劍橋大學的一篇《稀疏變分高斯過程迴歸的收斂速率》作為最佳論文摘得桂冠。另外,還有七篇論文獲得提名獎。

今年的論文錄取競爭異常激烈,ICML 2019共提交了3424篇論文,其中錄取774篇,論文錄取率為22.6%。錄取率較去年ICML 2018的25%有所降低。

ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習

ICML 2019接收論文貢獻數排名前50的機構(學界機構和業界機構)

論文錄取結果地址:

最佳論文一:谷歌幾乎全面否定了現有的同行成果

ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習

第一篇最佳論文的作者來自蘇黎世聯邦理工學院(ETH Zurich)、MaxPlanck 智慧系統研究所及谷歌大腦。

深度學習的一個重要挑戰是用無監督學習的方式理解現有資料。目前主要提出的方法是一個利用分離式表徵 (disentangled representation) 的模型,它可以捕捉到各種相互獨立的特徵,如果其中一個特徵改變了,其他特徵不會受到影響。

而該團隊測試了12,000個模型之後,對現有無監督分離式表徵學習研究發出了嚴重的質疑。

首先,並沒有發現任何經驗證據,顯示無監督方法可以學到可靠的分離式表徵,因為隨機種子和超引數似乎比模型的選擇更重要。也就是說,就算訓練了大量的模型,一部分可以得出分離式表徵,也很難在不看標籤的情況下就把這些表徵找出來。

其次,在參加評估的模型和資料集上,分離式表徵並不一定對後續任務有幫助,結果表明用了分離式表徵也不等於說AI就可以用更少的標註來學習。

最後,論文給研究者提出建議,因為根據檢測結果,不帶歸納偏置 (Inductive Biases) 的無監督學習的分離式表徵是不可能實現的,未來的研究應該清楚地描述出歸納偏置,以及隱式和顯式的監督方式。

論文地址:

最佳論文二:稀疏高斯過程迴歸變分的收斂速度

ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習

這篇最佳論文是來自英國劍橋大學和機器學習平臺Prowler.io的研究。論文名稱為《稀疏高斯過程迴歸變分的收斂速度》(Rates of Convergence for Sparse Variational Gaussian Process Regression)。此論文的工作是證明了稀疏GP迴歸變分近似到後驗變分近似的KL發散的界限,該界限僅依賴於先驗核的協方差運算元的特徵值的衰減。

ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習      

論文地址:

這篇論文的第一作者是來自劍橋大學資訊工程系的博士研究生David Burt,其主要研究領域是貝葉斯非引數和近似推理。另一位作者是Mark van der Wilk,劍橋大學機器學習專業的在讀博士研究生,主要的研究領域是貝葉斯推理、強化學習、高斯過程模型等。

7篇論文獲得最佳論文提名:國內研究機構無緣

除了2篇最佳論文外,還有7篇論文獲得最佳論文提名,分別為:

1、Analogies Explained: Towards Understanding Word Embeddings(愛丁堡大學)

論文地址:

2、SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver(CMU、南加州大學等)

論文地址:

3、A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Networks(巴黎薩克雷大學等)

論文地址:

4、Towards A Unified Analysis of Random Fourier Features(牛津大學、倫敦過國王學院)

論文地址:

5、Amortized Monte Carlo Integration(牛津大學等)

論文地址:

~balaji/udl-camera-ready/UDL-12.pdf

6、Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning(MIT、DeepMind、普林斯頓)

論文地址:

7、Stochastic Beams and Where to Find Them: The Gumbel-Top-k Trick for Sampling Sequences Without Replacement(荷蘭阿姆斯特丹大學等)

論文地址:

猜測:ICML最愛什麼樣的論文?

首先來回顧一下2018年ICML最佳論文;

第一篇是:

Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

Anish Athalye (MIT), Nicholas Carlini (UCB), David Wagner(UCB)

論文地址:

第二篇是:

Delayed Impact of Fair Machine Learning

Lydia Liu, Sarah Dean, Esther Rolf, Max Simchowitz, Moritz Hardt (全員UCB)

論文地址:

從兩年的最佳論文評選結果來看,ICML似乎對於質疑性的研究特別中意。

2018年第一篇最佳論文質疑了當時普遍使用的構建防禦對抗樣本,增加神經網路魯棒性的方法——它們都可以被更強大的最佳化攻擊擊敗。

     ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習

加入了肉眼看不見的擾動,這張貓的圖片就可以欺騙 InceptionV3 分類器,使其分類為「鱷梨醬」

並且它們使用ICLR 2018接收論文中的防禦對抗樣本論文作為研究物件,成功攻破了8 篇有關防禦對抗樣本的研究中的7篇。

ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習

而第二篇同樣也是質疑了機器學習在採用歷史資料集時,會產生“偏見”的問題,從而影響到模型對現在的分析或者對未來的預測是否是中立的,會不會對弱勢群體存在忽略。

而今年的則貌似更“過分”,來自谷歌的最佳論文則質疑了幾乎所有同行在無監督分離式表徵學習研究方向的努力。論文提出,在資料集和模型沒有歸納偏置 (Inductive Biases) 的情況下,試圖透過無監督的方法學習到可靠分離式表徵,從而來讓機器學習系統去應對沒有遇到過的場景,這是無法實現的。

ICML 2019:谷歌成最大贏家,清北皆有上榜

今年,國內企業在 ICML 會議上的成果則顯得較為低調,據目前公開資料統計,僅有少量的研究成果,其中,騰訊、阿里巴巴等科技公司依然領跑。其中騰訊的數量為10篇,阿里被收錄5篇,百度有一篇。

論文數量排名前五的公司分別是谷歌、谷歌大腦、微軟、DeepMind、Facebook,論文數量分別為:82、42、35、29、23。

   ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習

ICML 2019接收論文貢獻數排名前50的業界機構

從高校的角度看,中國有四所大學進去TOP50,其中清華大學15篇,北京大學11篇,而南京大學和香港中文大學分別是8篇和7篇。值得一提的是,排名第一的麻省理工論文數量為47篇。

將業界和學界分開來看,純學術研究論文有452篇(58.4%);僅有60篇論文純粹是由業界研究機構完成的;既包含業界也包含學界作者的論文有262篇(33.9%)。總結學界和業界對所有論文的相對貢獻可以得到:

  • 學界機構的貢獻佔77%

  • 業界機構的貢獻佔23%

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2647430/,如需轉載,請註明出處,否則將追究法律責任。

相關文章