2019 年 NeurIPS 將於 12 月 8 日至 14 日在加拿大溫哥華舉行。NeurIPS 今年共收到投稿 6743 篇,其中接受論文 1429 篇,接受率達到了 21.1%。作為人工智慧領域的年度盛會,每年人工智慧的專家學者以及工業企業界的研發人員都會積極參會,釋出最新的理論研究結果以及應用實踐方面的成果。今年,國外的高校和研究機構一如既往的踴躍參加本屆 NeurIPS,其中 Google 共貢獻了 179 篇文章,史丹佛和卡耐基梅隆分別有 79 篇和 75 篇文章。國內的企業界騰訊上榜 18 篇、阿里巴巴上榜 10 篇,高校和研究機構中清華參與完成的文章共有 35 篇。
2019 年,NeurIPS 接受與元學習相關的研究論文約有 20 餘篇。元學習(Meta-Learning)是近幾年的研究熱點,其目的是基於少量無標籤資料實現快速有效的學習。元學習透過首先學習與相似任務匹配的內部表示,為機器提供了一種使用少量樣本快速適應新任務的方法。學習這種表示的方法主要有基於模型的(model-based meta-learning)和模型不可知的(model-agnostic meta-learning,MAML)兩類。基於模型的元學習方法利用少量樣本的任務標記(task identity)來調整模型引數,使用模型完成新任務,這種方法最大的問題是設計適用於未知任務的元學習策略非常困難。模型不可知的方法首先由 Chelsea Finn 研究組提出,透過初始化模型引數,執行少量的梯度更新步驟就能夠成功完成新的任務。
本文從 NeurIPS 2019 的文章中選擇了四篇來看看元學習的最新的研究方向和取得的成果。Chelsea Finn 以及他的老師 Pieter Abbeel 在元學習領域一直非常活躍,他們的研究團隊在這個方向已經貢獻了大量的優秀成果,推動了元學習在不同任務中的有效應用。在本次 NeurIPS 中,他們的研究團隊針對基於梯度(或最佳化)的元學習提出了一種只依賴於內部級別最佳化的解決方案,從而有效地將元梯度計算與內部迴圈最佳化器的選擇分離開來。另外,針對強化學習問題,提出了一種元強化學習演算法,透過有監督的模擬學習有效的強化學習過程,大大加快了強化學習程式和先驗知識的獲取。我們將在這篇提前看中深入分析和理解這些工作。
Chelsea Finn 是史丹佛大學電腦科學和電子工程的助理教授,同時也擔任 Google Brain 的研究科學家。Chelsea Finn 在她的博士論文《Learning to Learn with Gradients》中提出的 MAML 是目前元學習的三大方法之一,Chelsea Finn 證明了 MAML 的理論基礎,並在元學習領域中將其發揚光大,在少樣本模仿學習、元強化學習、少樣本目標推斷等中都獲得了很好的應用。
本文還選擇另外兩篇關於元學習的文章進行討論,其中一篇是 Facebook 的工作,提出了一種元序列到序列(Meta seq2seq)的方法,透過學習成分概括,利用域的代數結構來幫助理解新的語句。另外一篇提出了一個多模態 MAML(Multimodal MAML)框架,該框架能夠根據所識別的模式調整其元學習先驗引數,從而實現更高效的快速自適應。
論文清單:
Meta-Learning with Implicit Gradients
Guided Meta-Policy Search
Compositional generalization through meta sequence-to-sequence learning
Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation
1、Aravind Rajeswaran,Chelsea Finn,Sham Kakade,Sergey Levine,Meta-Learning with Implicit Gradients ,https://papers.nips.cc/paper/8306-meta-learning-with-implicit-gradients.pdf
基於最佳化的元學習方法主要有兩種途徑,一是直接訓練元學習目標模型,即將元學習過程表示為神經網路引數學習任務。另一種是將元學習看做一個雙層最佳化的過程,其中「內部」最佳化實現對給定任務的適應,「外部」最佳化的目標函式是元學習目標模型。本文是對後一種方法的研究和改進。元學習過程需要計算高階導數,因此給計算和記憶帶來不小的負擔,另外,元學習還面臨最佳化過程中的梯度消失問題。這些問題使得基於(雙層)最佳化的元學習方法很難擴充套件到涉及大中型資料集的任務,或者是需要執行許多內環最佳化步驟的任務中。
本文提出了一種隱式梯度元學習方法(implicit model-agnostic meta-learning,iMAML),利用隱式微分,推匯出元梯度解析表示式,該表示式僅依賴於內部最佳化的解,而不是內部最佳化演算法的最佳化路徑,這就將元梯度計算和內部最佳化兩個任務解耦。具體見圖 1 中所示,其中經典的任務不可知的元學習(model-agnostic meta-learning,MAML)方法沿綠色的路徑計算元梯度,一階 MAML 則利用一階倒數計算元梯度,本文提出的 iMAML 方法透過估計區域性曲率,在不區分最佳化路徑的情況下,推匯出精確的元梯度的解析表示式。