RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

機器之心發表於2019-05-14

1. 包容性

ICLR 2019 組織者強調包容性在AI中的重要性,前兩個主要演講——Sasha Rush的開場致辭和Cynthia Dwork的受邀演講——都是有關公平和平等的。以下是一些令人擔憂的統計資料:

  • 只有8.6%的展示者(oral和poster)和15%的參會者是女性;

  • 2/3的LGBTQ+研究者沒有以專業身份出席;

  • 8名受邀演講者均為白人。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

Sasha Rush開場致辭的一頁PPT。

不幸的是,這種情況似乎並沒有引起AI研究者的注意和反思。其他的workshop都爆滿,但AI for Social Good workshop卻門可羅雀,直到Yoshua Bengio出現。在我參與的眾多ICLR交流活動中,沒有人提到過多樣性,直到有一次我大聲問出來為什麼我被邀請到這個並不適合我的科技活動,一位朋友告訴我說,“說出來可能有點冒犯,請你來是因為你是女性。”

這種現象出現的一個原因是,這類話題並非“技術性”的,因此在上面花時間並不會對你的研究生涯有所助益。另一個原因是,社會宣傳仍然存在一些問題。一位朋友曾告訴我,不要理睬那個在群聊中挑釁我的傢伙,因為“他喜歡取笑那些探討平等和多樣性的人”。我有些朋友不會在網上談論任何有關多樣性的話題,因為他們不想“和那種話題扯上關係”。

2. 無監督表徵學習 & 遷移學習

無監督表徵學習的主要目標是從無標註資料中發現有用的資料表徵,以完成後續任務。在NLP中,無監督表徵學習通常是利用語言建模完成的。然後將學到的表徵用到情感分析、命名實體識別、機器翻譯等任務中。

去年有一些比較令人振奮的論文是關於NLP無監督表徵學習的,包括ELMo (Peters et al.)、ULMFiT (Howard et al.)、OpenAI’s GPT (Radford et al.)、BERT (Devlin et al.),當然,還有「危險性太大而不能公佈的GPT-2」。

完整的GPT-2模型在ICLR上進行了展示,效果驚人。你可以輸入任意提示,由它來完成後續文字創作。

GPT-2應用網站:https://talktotransformer.com/

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

Adam King利用GPT-2做成的應用網站。輸入為“what does Amazon want to do”(ps:實際轉化速度較慢,動畫為刪減絕大部分重複幀之後的效果)。網站地址:https://talktotransformer.com/

GPT-2可以寫出各種文章、科學論文甚至是編造詞彙的定義。但是GPT-2現在看起來還沒有完全達到人類水平。該團隊正在致力於GPT-3的研究,這個模型更大,也可能更好。

雖然計算機視覺是首個成功應用遷移學習的社群,但其基本任務——在ImageNet上訓練分類模型——仍然是監督式的。自然語言處理社群和計算機視覺社群都在問同一個問題:「怎樣才能將無監督表徵學習應用到影象上?」

儘管那些最有名的實驗室已經開始研究,但只有一篇論文出現在ICLR大會上:「Meta-Learning Update Rules for Unsupervised Representation Learning」(Metz et al.)。該研究團隊沒有更新權重,而是用演算法更新學習規則。接下來在少量標註樣本上微調從學得學習規則中學到的表徵,來解決影象分類問題。他們能夠在MNIST和Fashion MNIST上找到準確率大於70%的學習規則。作者不打算公佈程式碼,因為“它與計算有關”。外層迴圈需要大約10萬訓練步,在256個GPU上需要200個小時的訓練時間。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

元學習的內、外迴圈(Metz et al.)。

我有一種感覺,在不久的將來,我們會看到更多這樣的論文。可以使用無監督學習的任務包括:自動編碼、預測影象旋轉(Gidaris等人的論文《Unsupervised Representation Learning by Predicting Image Rotations》在ICLR 2018上很火)、預測視訊中的下一幀。

3. ML的復古

機器學習領域的想法和時尚類似,都是迴圈式的。在poster session四處走走感覺像走在記憶的迴廊上。即使最受期待的ICLR辯論也終結在「先驗 vs 結構」的話題上,而這是去年Yann LeCun 和 Christopher Manning討論過的話題,這種討論類似貝葉斯學派和頻率學派之間的經年辯論。

MIT媒體實驗室的「Grounded Language Learning and Understanding」專案在2001年就中斷了,但是grounded language learning今年帶著兩篇論文重回舞臺,不過它穿上了強化學習的外衣:

  • DOM-Q-NET: Grounded RL on Structured Language (Jia et al.):給出一個用自然語言表達的目標,該強化學習演算法通過填充欄位和點選連結學習導航網頁。

  • BabyAI: A Platform to Study the Sample Efficiency of Grounded Language Learning (Chevalier-Boisvert et al.):一個和OpenAI Gym相容的平臺,具備一個手工製作的bot agent,該智慧體可以模擬人類教師指導智慧體學習合成語言。

我對這兩篇論文的想法和AnonReviewer4一樣:

「……這裡提出的方法和語義解析文獻中研究的方法非常類似,儘管這篇論文僅引用了最近的深度強化學習論文。我認為作者會從語義解析文章中受益良多,語義解析社群也可以從這篇論文中得到一些啟發……但是這兩個社群實際上交流並不多,即使在某些情況下我們研究的是類似的問題。」

確定性有限狀態自動機(DFA)也有兩篇論文登上了ICLR 2019的舞臺:

  • Representing Formal Languages: A Comparison Between Finite Automata and Recurrent Neural Networks (Michalenko et al.)

  • Learning Finite State Representations of Recurrent Policy Networks (Koul et al.)

兩篇論文的主要動機是,因為RNN中的隱藏態空間很大,是否有可能把狀態數量減少到有限的數量?我質疑DFA是否能夠有效地在語言中代表RNN,但我很喜歡在訓練階段學習RNN,然後把它轉換到DFA進行推理的想法,如同 Koul等人的論文所示。結果得到的有限表徵在遊戲Pong中只需要3個離散記憶狀態和10個觀察狀態,它也能幫助解釋RNN。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

從RNN學習一個DFA的三個階段(koul等人)。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

提取自動機(Koul等人)

4. RNN失寵

2018到2019年的提交論文主題變化反映出:RNN出現大幅下降。這也在意料之中,因為RNN雖然適用於序列資料,但也存在極大缺陷:它們無法並行化,因而無法利用2012年以來最大的研究驅動因素——算力。RNN在計算機視覺和強化學習領域並不流行,而在一度流行的自然語言處理領域,它們也正在被基於注意力的架構取代。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

RNN失寵。(圖源: ICLR 2019補充統計資料)

這是否意味著RNN將死亡。並非如此。ICLR 2019的最佳論文之一《 Ordered neurons: Integrating tree structures into Recurrent Neural Networks》 就和RNN有關。除了這篇最佳論文和上文提到的兩篇關於自動機的論文以外,ICLR 2019還接收了9篇關於RNN的論文,其中大部分研究深入挖掘RNN的數學基礎知識,而不是探索RNN的新應用。

在工業界,RNN仍然很活躍,尤其是處理時序資料的公司,比如貿易公司。而不幸的是,這些公司通常不會發表自己的研究。即使現在RNN對研究者不是那麼有吸引力,我們也知道未來它可能「捲土重來」。

5. GAN仍然勢頭強勁

相比去年,GAN的相對變化呈負數,但相關論文的數量實際上有所增長,從大約70篇增長到了100篇左右。Ian Goodfellow 受邀發表了以GAN為主題的演講,一如既往受到了眾多關注。

ICLR 2019第一個poster session是關於GAN的。出現了很多新的GAN架構、對已有GAN架構的改進,以及GAN分析。GAN應用囊括影象生成、文字生成、音訊合成等多個領域,有 PATE-GAN、GANSynth、ProbGAN、InstaGAN、RelGAN、MisGAN、SPIGAN、LayoutGAN、KnockoffGAN等不同架構。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

GAN poster session揭示了社群對GAN的反應是多麼地兩極分化。一些非GAN研究者如此評論:「我等不及想讓GAN這波風潮趕緊過去」、「一有人提到對抗,我的腦子就當機。」他們可能是嫉妒吧。

6. 缺乏生物啟發式深度學習

鑑於大家對基因測序和CRISPR嬰兒的憂慮和討論,ICLR竟然沒有出現很多結合深度學習和生物學的論文,這令人驚訝。關於這個話題一共有6篇論文:

兩篇關於生物啟發式架構:

  • Biologically-Plausible Learning Algorithms Can Scale to Large Datasets (Xiao et al.)

  • A Unified Theory of Early Visual Representations from Retina to Cortex through Anatomically Constrained Deep CNNs (Lindsey et al.)

一篇關於RNA設計:

  • Learning to Design RNA (Runge et al.)

三篇關於蛋白質控制(protein manipulation):

  • Human-level Protein Localization with Convolutional Neural Networks (Rumetshofer et al.)

  • Learning Protein Structure with a Differentiable Simulator (Ingraham et al.)

  • Learning protein sequence embeddings using information from structure (Bepler et al.)

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

受視網膜啟發的卷積神經網路 (Lindsey et al.)

沒有一篇論文是關於基因組學的,也沒有一個workshop是關於這個話題的。這挺讓人難過的,不過對生物學感興趣的深度學習研究者或對深度學習感興趣的生物學家而言,這是一個巨大的機會。

7. 強化學習仍然是提交論文中最熱門的話題

ICLR 2019大會上的研究論文表明強化學習社群正在從無模型方法轉向樣本高效的基於模型的演算法和元學習演算法。這種轉變很可能受到 TD3 (Fujimoto et al., 2018) 和 SAC (Haarnoja et al., 2018) 設定的Mujoco連續控制基準上的極高分數,以及 R2D2 (Kapturowski et al., ICLR 2019) 設定的Atari離散控制人物上的極高分數的啟發。

基於模型的演算法(即從資料中學習環境模型,然後利用該模型規劃或生成更多資料)在使用1/10-1/100的經驗進行訓練時,仍能達到和無模型演算法一樣的漸近效能。這種優勢表明基於模型的演算法適合現實世界任務。當學得的模擬器可能有缺陷時,其誤差可以通過更復雜的動態模型得到緩解,比如模擬器的整合 (Rajeswaran et al.)。將強化學習應用到現實世界問題的另一種方式是,使模擬器支援任意複雜的隨機化:在多樣化的模擬環境中訓練的策略可能認為現實世界是「另一次隨機化」,並取得成功 (OpenAI)。

可在多個任務上執行快速遷移學習的元學習演算法使得樣本效率和效能得到大幅改善 (ProMP (Rothfuss et al.)、PEARL (Rakelly et al.))。這些改善使我們更加接近「強化學習的ImageNet時刻」,即我們可以使用從其他任務上學習的控制策略,而不用從頭開始訓練策略(目前在複雜任務上這仍是無法實現的)。

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結

在六個基準任務上,PEARL (Rakelly et al.) 的漸近效能和元訓練樣本效率都優於之前的元強化學習方法。

ICLR 2019接收論文中的很大一部分,以及Structure and Priors in RL (SPiRL) workshop中的所有論文,是關於如何將環境知識整合到學習演算法的。儘管早期深度強化學習演算法的主要優勢之一是一般性(如DQN對所有Atari遊戲使用同樣的架構,而無需瞭解其中哪一個特定遊戲),但是新演算法展示出整合先驗知識有助於解決更復雜的任務。例如,在Transporter Network (Jakab et al.) 中,智慧體使用先驗知識執行具備更多資訊的結構探索。

總結來說,過去5年,強化學習社群開發了大量有效的工具來解決無模型強化學習難題。現在,是時候提出更取樣高效、可遷移的演算法在現實世界問題上利用強化學習了。

此外,Sergey Levine可能是今年接收論文最多的作者,有15篇之多。

8. 大部分接收論文很快就會被遺忘

在會上,我問一位知名研究者他如何看待今年的接收論文。他輕笑道:「大部分接收論文會議一結束就會被遺忘。」像機器學習這樣快速發展的領域,SOTA結果幾周甚至幾天後就可能被打破,大部分接收論文還沒正式展示就已經被超越也就不令人驚訝了。例如,ICLR 2018論文中8篇對抗樣本論文中的7篇在大會開始前已經被打破

大會上我經常聽到的一個評論是,論文接收/拒收很隨機。我不說名字,但一些廣為人知或者引用很高的論文就曾被大會拒收過。此外,許多接收論文可能也無人引用。

作為這個領域的一份子,我經常面臨存在危機。無論我想到了什麼靈感,似乎總有其他人已經在做了,且做得更好、更快。如果一篇論文對任何人都沒有幫助,那又有什麼發表的意義呢?誰能幫我解惑!

結論

當然,還有很多沒有覆蓋到的趨勢,例如:

  • 優化和正則化:Adam和SGD的爭論仍在繼續。今年ICLR大會提出了許多新技術,其中一些相當令人激動。看起來,每個實驗室都在開發自己的優化器,我們團隊同樣如此。

  • 評估度量:隨著生成模型越來越流行,我們不可避免地需要提出新的度量標準,以評估生成的輸出。

如果你想要了解更多,David Abel釋出了一個55頁的ICLR 2019筆記。想了解ICLR 2019熱點的人,下面這張圖會有所幫助:

RNN失寵、強化學習風頭正勁,ICLR 2019的八點參會總結看起來,應該寫一篇名為「A robust probabilistic framework for universal, transferrable unsupervised meta-learning」的論文(一定能火)。

我真的很享受ICLR,這個大會夠大,能找到很多志同道合的朋友,也夠小,不用事事都排隊,4天的會議也剛剛好。相比之下,NeurIPS就有點太長,參會四天後我就會邊看poster邊想:「看看所有這些知識,我應該現在就掌握,但卻並不想。」

我在ICLR大會上最大的收穫不僅是思路,還有動力。許多我這個年紀的研究者作出的卓越成果讓我看到了研究之美,激勵我更努力地工作。用一週的時間追論文見老朋友也非常nice。

相關文章