從強化學習到生成模型：ICML 2018 40篇值得一讀的論文

腾讯AI实验室發表於2018-08-06

原文網址 : https://www.jiqizhixin.com/articles/2018-08-06-7

當地時間7月10-15日，第 35 屆國際機器學習會議（ICML 2018）在瑞典斯德哥爾摩成功舉辦。和電腦科學領域內的很多其它頂級會議一樣，今年 ICML 會議的投稿量和接受量都出現了大幅增長。如下圖所示，ICML 2018 共有 2473 篇有效投稿，較上年增長 45%，其中 618 篇被接收，接收率為 25.1%。

大會主席 Francis Bach 介紹 ICML 2018 論文接收情況

騰訊 AI Lab 今年共有 16 篇論文入選，遠遠超出上一年的 4 篇，詳情請參閱騰訊 AI Lab 微信公眾號之前釋出的文章《ICML 2018 | 騰訊AI Lab詳解16篇入選論文》。

ICML 2018 所接收的論文的研究主題非常多樣，涵蓋深度學習模型/架構/理論、強化學習、優化方法、線上學習、生成模型、遷移學習與多工學習、隱私與安全等，具體統計情況見下圖：

ICML 2018 論文的研究主題分佈情況

在本文中，騰訊 AI Lab 的研究者結合自身的研究重心和研究興趣對部分 ICML 2018 論文進行了簡要介紹和解讀，其中涉及的主題包括強化學習、元學習/遷移學習、自動超引數調節/架構搜尋。當然，文中提到的論文一般都涉及多個主題，所提供的劃分方式僅作參考。

強化學習

自從 AlphaGo 橫空出世，擊敗世界頂級棋手李世石以來，機器學習領域對強化學習的研究熱情一直有增無減。今年的 ICML 同樣接收了大量強化學習方面的研究成果，這些研究可概括為以下類別：理論、網路、演算法、優化方法、探索、獎勵、基於模型的方法、分散式、分層式、元學習、遷移學習、應用。下面列出了部分值得關注的論文

強化學習理論

The Uncertainty Bellman Equation and Exploration

不確定性貝爾曼方程及探索

連結：https://arxiv.org/abs/1709.05380：

這項研究由 DeepMind 完成，研究了強化學習中的探索與利用（exploration/exploitation）問題。對於利用，貝爾曼方程能將任意時間步驟的值連線到後續時間步驟的預期值。研究者在這篇論文中提出了一種類似的不確定貝爾曼方程（UBE），可將任意時間步驟的不確定性連線到後續時間步驟的預期不確定性，由此能將策略的潛在探索效益擴充套件到多個時間步驟。這種方法能自然地擴充套件用於具有複雜的泛化問題的大型系統並且能在一些強化學習問題上更好地替代 ε-greedy 策略。

使用線性不確定性估計的一步式 UBE 探索

搜尋與規劃

Efficient Gradient-Free Variational Inference using Policy Search

使用策略搜尋的高效無梯度變分推理

連結：http://proceedings.mlr.press/v80/arenz18a/arenz18a.pdf

程式碼：https://github.com/OlegArenz/VIPS

這項研究由德國達姆施塔特工業大學和英國林肯大學合作完成。文中提出了一種高效的無梯度方法，可基於來自隨機搜尋方法的近期見解學習多模態分佈的廣義 GMM 近似。該方法會建立一個資訊幾何信任區域，以確保有效探索取樣空間和 GMM 更新的穩定性，從而實現對多變數高斯變分分佈的有效估計。相關實現的程式碼已公佈。

元學習

Been There, Done That: Meta-Learning with Episodic Recall

去過那裡，做過那事：使用情景回撥的元學習

連結：https://arxiv.org/abs/1805.09692

這項研究由 DeepMind、普林斯頓神經科學研究所、MPS-UCL 計算精神病學中心、倫敦大學學院 Gatsby 計算神經科學部合作完成。元學習智慧體很擅長根據開放式的任務分佈快速學習新任務，但它們在學習下一個任務時就會忘記已經學過的任務。針對這一問題，研究者提出了一個可以生成一系列開放式並且可重複的任務環境，從而使得元學習只能可以不斷溫故而知新。不過這種方法在元學習的演算法端沒有太大的創新，採用了“短時 LSTM 記憶+外部可微分記憶”的方法。

模型架構和環境結構

分散式學習

Implicit Quantile Networks for Distributional Reinforcement Learning

用於分散式強化學習的隱式分位數網路

連結：https://arxiv.org/abs/1806.06923

這項研究由 DeepMind 完成，文中構建了一種可廣泛應用的、靈活的、當前最佳的 DQN 分散式變體——隱式分位數網路（IQN）。研究者使用了分位數迴歸（quantile regression）來近似狀態-動作回報分佈的全分位數函式。通過在樣本空間上重新引數化一個分佈，這能得到一個隱式地定義的回報分佈並帶來一大類對風險敏感的策略。這種 IQN 相比 QR-DQN 更有優勢。

DQN 和近期幾種分散式強化學習演算法的網路架構

分層式強化學習

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings

自洽的軌跡自編碼器：使用軌跡嵌入的分層式強化學習

連結：https://arxiv.org/abs/1806.02813

實驗：https://sites.google.com/view/sectar

這項研究由加利福尼亞大學伯克利分校和谷歌大腦合作完成，其中提出了一種全新的分層式強化學習演算法 SeCTAR。該演算法的靈感來自變分自動編碼器，使用了一種自下而上的方式來學習軌跡的連續表徵，而沒有對人工設定的指標或子目標資訊的明確需求。該研究基於兩個主要思想：第一，研究者提出構建一個 skill 的連續潛在空間；第二，研究者提出使用一個能夠同時學習產生 skill 和預測它們的結果的概率隱含變數模型。

SeCTAR 模型計算圖

Hierarchical Imitation Learning and Reinforcement Learning

分層式模擬學習與強化學習

連結：https://arxiv.org/abs/1803.00590

實驗：https://sites.google.com/view/hierarchical-il-rl

這項研究由加州理工學院、微軟研究院和馬里蘭大學帕克分校合作完成，研究了有效利用專家反饋來學習序列決策策略的方法。研究者提出了一種分層式引導（hierarchical guidance）演算法框架，能利用問題的層次結構來整合不同模式的專家互動。該框架可以在不同層面整合模擬學習（IL）與強化學習（RL）的不同組合，從而顯著降低專家工作量和探索成本。

獎勵設計

Using Reward Machines for High-Level Task Specification and Decomposition in Reinforcement Learning

在強化學習中使用獎勵機進行高階任務規範和分解

連結：http://proceedings.mlr.press/v80/icarte18a/icarte18a.pdf

這項研究由多倫多大學電腦科學系、Vector Institute 和 Element AI 完成。該論文有兩大貢獻。第一，研究者引入了一種用於定義獎勵的有限狀態機——獎勵機（Reward Machine）。獎勵機能以靈活的方式（包括連線、迴圈和條件規則）分解不同的獎勵函式。當智慧體在環境中的狀態之間變化時，它也會在獎勵機中發生狀態變化。在每次變化後，獎勵機都會輸出該智慧體此時應該使用的獎勵函式。第二，研究者引入了一種“用於獎勵機的 Q 學習（QRM）”演算法，可利用獎勵機的內在結構來分解問題，從而提升樣本效率。

演算法

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

Soft Actor-Critic：使用隨機 actor 的離策略最大熵深度強化學習

連結：https://arxiv.org/abs/1801.01290

這項研究由加州大學伯克利分校電氣工程與電腦科學系完成。無模型深度強化學習演算法往往有兩大主要難題：非常高的樣本複雜度和脆弱的收斂性質；需要很細緻的超引數調節才能解決。針對這一問題，研究者提出了一種基於最大熵強化學習框架的離策略 actor-critic 深度強化學習演算法 soft actor-critic。在這個框架中，actor 的目標是在最大化熵的同時最大化預期的回報——即在成功完成任務的同時儘可能隨機地行動。之前基於這一框架的深度強化學習方法已被形式化為 Q 學習方法。通過將離策略更新與穩定的隨機 actor-critic 形式相結合，新方法在一系列連續控制的基準任務上都取得了當前最佳表現。

An Efficient, Generalized Bellman Update for Cooperative Inverse Reinforcement Learning

一種用於協作式逆向強化學習的高效廣義 Bellman 更新

連結：https://arxiv.org/abs/1806.03820

這項研究由加州大學伯克利分校電氣工程與電腦科學系完成。為了讓 AI 系統能正確識別人類使用者的目標並據此採取適當行動，協作式逆向強化學習（CIRL）將這個價值對齊（value alignment）問題當作是人類和機器人之間的雙玩家博弈問題，其中僅有人類知道獎勵函式的引數，而機器人需要通過互動學習它們。研究者在這篇論文中利用了 CIRL 的一個特定性質——人類是具有完全資訊的智慧體，來推導對標準 Bellman 更新的一種修改方式，使其能保留其中的最優性質；這能大幅降低問題的複雜性並能放寬 CIRL 對人類理性的假設。

探索

Learning to Explore via Meta-Policy Gradient

使用元策略梯度學習探索

連結：https://arxiv.org/abs/1803.05044

這項研究由百度研究院、德克薩斯大學奧斯汀分校和伊利諾伊大學香檳分校完成。離策略學習方法很依賴對探索策略的選擇，而現有的探索方法基本都基於為正在進行的 actor 策略新增噪聲，而且只能探索 actor 策略規定的附近區域性區域。研究者在這篇論文中開發了一種簡單的元策略梯度演算法，能夠自適應地學習 DDPG（深度確定性策略梯度）中的探索策略。這種演算法可以訓練獨立於 actor 策略的靈活的探索行為，實現全域性探索，從而顯著加速學習過程。

優化

Stochastic Variance-Reduced Policy Gradient

隨機的方差降低的策略梯度

連結：https://arxiv.org/abs/1806.05618

這項研究由義大利米蘭理工大學和法國國家資訊與自動化研究所（INRIA）完成。論文中提出了一種全新的強化學習演算法，其中包含一個用於求解馬爾可夫決策過程（MDP）的策略梯度的隨機式方差降低的版本。儘管 SVRG 方法在監督學習領域很成功，但卻難以應用到策略梯度方面。針對其中的難題，研究者提出了 SVRPG，能夠利用重要度權重來保留梯度估計的無偏差性。在 MDP 的標準假設下，SVRPG 能保證收斂。

Global Convergence of Policy Gradient Methods for the Linear Quadratic Regulator

線性二次調節器的策略梯度方法的全域性收斂性

連結：https://arxiv.org/abs/1801.05039

這項研究由華盛頓大學和杜克大學合作完成。直接策略梯度方法是一種常用於強化學習和連續控制問題的方法，但也有一個顯著的缺點：即使是在最基本的連續控制問題（線性二次調節器）中，這些方法都必須求解一個非凸優化問題，而人們在計算方面和統計方面對它們的效果的理解都知之甚少。相對而言，最優控制理論中的系統辨識和基於模型的規劃具有更加堅實的理論基礎。這篇論文填補了這一空白，研究表明（無模型的）策略梯度方法能全域性收斂到最優解，並且在取樣和計算複雜度方面是有效的。

多智慧體強化學習

Competitive Multi-Agent Inverse Reinforcement Learning with Sub-optimal Demonstrations

具有次優演示的競爭性多智慧體逆向強化學習

連結：https://arxiv.org/abs/1801.02124

這項研究由美國西北大學完成，研究了零和隨機博弈中當專家演示已知不是最優時的逆向強化學習問題。相比於之前通過假設專家策略中的最優性來解耦博弈中的智慧體的工作，該論文引入了一個新的目標函式，可直接讓專家與納什均衡策略鬥爭。研究者設計了一個演算法，可以在以深度神經網路作為模型近似的逆向強化學習背景中求解其獎勵函式。在這樣的設定中，模型和演算法不會被解耦。研究者還提出了一種用於零和隨機博弈的對抗訓練演算法，可用於尋找大規模博弈中的納什均衡。

Modeling Others Using Oneself in Multi-Agent Reinforcement Learning

在多智慧體強化學習中使用自身建模其它智慧體

連結：https://arxiv.org/abs/1802.09640

這項研究由紐約大學電腦科學系和 Facebook 人工智慧研究中心完成。論文中提出了一種名為 Self Other-Modeling（SOM）的新方法，其中智慧體可使用自己的策略以線上的形式來預測其它智慧體的動作並更新自己對它們的隱藏狀態的信念。這樣，不管是以協作方式還是以對抗方式，多個智慧體都能基於對其它智慧體的估計來學習更好的策略。
從強化學習到生成模型：ICML 2018 40篇值得一讀的論文

一個給定智慧體的 SOM 架構

QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning

QMIX：用於深度多智慧體強化學習的單調價值函式因子分解

連結：https://arxiv.org/abs/1803.11485

這項研究由牛津大學和 Russian-Armenian 大學完成。論文中提出了一種能以中心化的端到端的方式訓練去中心化策略的基於價值的全新方法 QMIX。QMIX 能夠將僅基於區域性觀察的每個智慧體的價值以複雜的非線性方式組合起來，估計聯合的動作-價值。研究者在一組高難度《星際爭霸2》微操作任務上評估了 QMIX，得到了很好的結果。

（a）混合網路結構。藍色是混合網路的層，紅色是為混合網路產生權重和偏置的超網路；（b）整體 QMIX 架構；（c）智慧體的網路結構

Mean Field Multi-Agent Reinforcement Learning

平均場多智慧體強化學習

連結：https://arxiv.org/abs/1802.05438

這項研究由完成。現有的多智慧體強化學習方法的智慧體數量通常很小，因為維度災難和巨量智慧體互動讓更多智慧體的強化學習難以真正實現。針對這一難題，研究者提出了平均場強化學習，其中多智慧體之間的互動是由一個單個智慧體與群體智慧體或鄰近智慧體的平均效應之間的互動近似得到的；這兩個實體之間的相互作用能互相強化：單個智慧體的最優策略的學習取決於群體的動態，而群體的動態會根據單個策略的集體模式而變化。

強化學習中的元學習/遷移學習

Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement

使用後繼特徵和廣義策略提升的深度強化學習遷移

連結：http://proceedings.mlr.press/v80/barreto18a/barreto18a.pdf

這項研究由 DeepMind 完成，其研究基礎是可通過遷移之前任務的知識/技巧到新的任務來實現強化學習加速。這項工作基於 SF&GPI 框架，其中 SF 是指後繼特徵，GPI 是指廣義策略提升，並做了以下兩點改進：1）放鬆了後繼特徵必須為一個固定特徵集的線性組合這個假設；2）可以把前序任務的獎勵函式作為特徵遷移到後序任務並改善該任務。研究者在一個複雜的 3D 環境上進行了實驗驗證，結果表明 SF&GPI 推動實現的遷移幾乎立刻就能在未曾見過的任務上得到非常優良的策略。

Policy and Value Transfer in Lifelong Reinforcement Learning

終身強化學習中的策略和價值遷移

連結：http://proceedings.mlr.press/v80/abel18b/abel18b.pdf

程式碼：https://github.com/david-abel/transfer_rl_icml_2018

這項研究由布朗大學電腦科學系完成，研究瞭如何最好地使用之前的經驗來提升終身學習效果的問題。首先，針對終身學習的越來越複雜類別的策略和任務分佈，研究者先確定能優化在這些任務分佈上的預期表現的初始策略。考慮到策略初始化這種簡單的遷移策略的效果不是很理想，因此研究者提出使用價值函式來初始化遷移策略。研究者證明後者不但可以提升遷移表現，而且可以保證 PAC 理論的完備性。相關實驗的程式碼已經開放。

State Abstractions for Lifelong Reinforcement Learning

用於終身強化學習的狀態抽象

連結：https://david-abel.github.io/papers/lifelong_sa_icml_18.pdf

程式碼：https://github.com/david-abel/rl_abstraction

這項研究同樣由布朗大學電腦科學系完成，試圖從表徵壓縮（即狀態抽象）的角度來解決終身強化學習問題。研究者指出，由於在終身強化學習中需要同時完成知識遷移、探索、信度分配等問題，因此對通用表徵進行壓縮可以提高計算效率。文中提出了兩種狀態抽象方法：1）過渡式狀態抽象，其最優形式可有效地計算得到；2）PAC 狀態抽象，其能保證與任務分佈一致。研究者表明過渡式 PAC 抽象的聯合方法能夠有效得到、能保留接近最優的行為、還能降低簡單域中的樣本複雜性，從而得到一系列可用於終身強化學習的所需抽象。相關實驗的程式碼已經開放。

Continual Reinforcement Learning with Complex Synapses

使用複雜突觸的持續強化學習

連結：https://arxiv.org/abs/1802.07239

這項研究由倫敦帝國理工學院計算系和生物工程系與 DeepMind 合作完成。為了解決災難性遺忘（catastrophic forgetting）問題，研究者提出在表格式的深度強化學習演算法中加入一個具備生物複雜性的突觸模型，並且證實該改進確實可以在不同時間尺度上減輕災難性遺忘問題。值得一提的是，研究者還發現這種方法除了能在兩個簡單任務的序列訓練上實現持續學習之外，還能通過降低對經歷重放資料庫的需求而克服任務內的遺忘問題。

元學習/遷移學習

從以上的統計資訊中可以看出來，遷移學習和多工學習這個主題雖不如強化學習這麼火爆，也佔據了很大一席位置。遷移學習這個方向的發展已從過去一兩年的基於深度學習的一系列無監督域適應方法跳了出來，往更有意義且更具挑戰性的遷移學習本身的理論以及優化方法發展，這也是一個趨勢。重點論文總結如下：

CyCADA: Cycle-Consistent Adversarial Domain Adaptation

CyCADA：迴圈一致的對抗域適應

連結：https://arxiv.org/abs/1711.03213

這項研究由伯克利人工智慧研究實驗室（BAIR）、OpenAI 和波士頓大學合作完成。該論文和下一篇論文是僅有的兩篇基於深度學習和對抗損失的無監督域適應研究。這篇論文的核心思想是把 CycleGAN 裡的核心思想引入到無監督域適應，以在從源域生成目標域後再從目標域生成源域，能使得生成的源域和原來的源域保持足夠接近。研究者提出的 CyCADA 模型在畫素層面和特徵層面上都能進行適應，在利用任務損失的同時能保持迴圈一致性，而且無需對齊的配對。研究者在數字分類和道路場景形義分割等多個適應任務上進行了實驗，取得了新的當前最佳結果。

使用畫素空間輸入的迴圈一致性對抗適應。通過直接將源訓練資料再次對映到目標域，能夠移除這些域之間的低層面差異，確保任務模型能很好地立足於目標資料

Learning Semantic Representations for Unsupervised Domain Adaptation

學習用於無監督域適應的語義表徵

連結：http://proceedings.mlr.press/v80/xie18c/xie18c.pdf

程式碼：https://github.com/Mid-Push/Moving-Semantic-Transfer-Network

這項研究由中山大學完成。這篇論文的貢獻在於通過偽標籤（pseudo label），用一種有監督的類別判別式方法對齊兩個領域之間的距離。預計在同一類別但不同域中的特徵會被對映在臨近的位置，從而導致目標分類準確度提升。相關實驗的程式碼已經開放。

除了標準的源分類損失，其中也使用了域對抗損失來對齊兩個域的分佈

GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

GradNorm：用於深度多工網路中自適應損失平衡的梯度歸一化

連結：https://arxiv.org/abs/1711.02257

這項研究由 Magic Leap 完成。這篇論文解決了一個非常有意思並且非常實用的問題，即多工學習中多個任務難易程度不同所導致的優化不同步問題。作者提出了一種梯度傳播機制，其核心思想是動態調整多個任務的權重，這些權重通過各個任務的實時梯度再進行反向傳播和更新。研究表明，GradNorm 演算法對多種不同的網路架構都有效，而且無論是迴歸任務還是分類任務，無論是合成資料集還是真實資料集，GradNorm 在多個任務上都能實現優於單任務網路的準確度並降低過擬合。GradNorm 也能得到比肩或超過窮舉網格搜尋方法的表現，儘管其僅涉及到單個不對稱超引數 α。因此，曾經每增加一個任務都會導致計算需求指數增長的繁瑣的搜尋過程現在只需幾次訓練就能完成了，而且無論任務有多少都一樣。研究者還表明梯度操作能實現對多工網路的訓練動態的更好控制。

梯度歸一化。不同任務上不平衡的梯度範數（左圖）會導致多工網路訓練效果次優。GradNorm 通過計算一個全新的梯度損失 Lgrad（右圖）來調節損失權重，從而解決梯度範數中的不平衡。

Detecting and Correcting for Label Shift with Black Box Predictors

使用黑箱預測器檢測和校正標籤偏移

連結：https://arxiv.org/abs/1802.03916

這項研究由卡內基·梅隆大學和 Amazon AI聯合完成。克服並減小域偏移（domain shift）是遷移學習中非常重要的問題。這篇工作首次提出了黑箱偏移估計（BBSE）方法——其在標籤偏移的情形下可以量化和糾正標籤偏移。雖然更好的預測因子能帶來更嚴格的估計，但即使預測因子有偏差、不準確或未校準，只要它們的混淆矩陣是可逆的，BBSE 就有效。

Meta-Learning by Adjusting Priors Based on Extended PAC-Bayes Theory

通過調整基於擴增 PAC-貝葉斯理論的先驗的元學習

連結：https://arxiv.org/abs/1711.01244

程式碼：https://github.com/ron-amit/meta-learning-adjusting-priors

這項研究由以色列理工學院Viterbi 電氣工程學院的 Ron Amit 和 Ron Meir 完成。ICML 2018 上單純研究元學習的工作不多，大多數是元學習與強化學習等結合的工作，所以這算其中之一。這篇論文字質上是擴充套件了經典的元學習方法 MAML——鼓勵初始值是之前任務的引數的一個由先驗函式（prior function）所決定的概率分佈。同時， MAML 的作者 Chelsea Finn 也在今年 NIPS 提交了一篇概率 MAML（probabilistic MAML）。兩者基本思路類似。相關實驗的程式碼已經開放。

元學習器使用被觀察任務的資料集來推理“先驗知識”，這反過來又能促進該任務環境中未來任務中的學習

Gradient-Based Meta-Learning with Learned Layerwise Metric and Subspace

使用所學習到的逐層式度量和子空間的基於梯度的元學習

連結：https://arxiv.org/abs/1801.05558

這項研究由韓國浦項科技大學電腦科學與工程系完成。這篇元學習的工作相對較有意思。首先，它不但遷移了引數作為初始值，同時遷移了每層的啟用。這個思路應該是借鑑了知識蒸餾（knowledge distillation）的相關工作。更重要的是其中關於相似度度量的定義，該方法是直接學習一個新的適合各個任務進行比較的度量空間。

（a）一個變換網路（T-net）的適應過程圖示，（b）一個掩模變換網路（MT-net）的適應過程圖示

自動超引數調節/架構搜尋

現代深度學習方法往往具有大量超引數，而且這些超引數對模型的效能和表現有很大的影響，因此高效實用的調節方法具有很重要的價值。因此，自動超引數調節可以說是機器學習領域的核心研究方向之一，所以這方面的研究非常多，下面列出了 2 篇這個方向的論文，另外還有 2 篇研究架構搜尋的論文。

BOHB: Robust and Efficient Hyperparameter Optimization at Scale

BOHB：規模化的穩健且高效型超引數優化

連結：https://arxiv.org/abs/1807.01774

這項研究由德國弗萊堡大學電腦科學系完成。這篇文章的出發點是結合 TPE 的探索（exploration）過程和 GP 的利用（exploitation）工作，用以解決當前長時間序列下現在 GP 優化時間長開銷大以及 TPE 效能不足的問題。研究者提出了一種新的超引數優化方法，能在多種不同問題型別上都得到優於貝葉斯優化和 Hyperband 的表現，其中包括支援向量機、貝葉斯神經網路和卷積神經網路等。

BOHB 中取樣過程的虛擬碼

Fast Information-theoretic Bayesian Optimisation

快速資訊理論貝葉斯優化

連結： https://arxiv.org/abs/1711.00673

程式碼：https://github.com/rubinxin/FITBO

這項研究主要由牛津大學工程科學系完成。這篇工作基於資訊理論提出了一個新的演算法 FITBO。該演算法可以直接量化兩個域之間的距離大小。其基本邏輯是，FITBO 可以避免重複取樣全域性極小化量（global minimizer）。並且，該演算法中核（kernel）的選擇相對較多，因此效能上可能會更優。研究者已公開 FITBO 的 Matlab 程式碼。

FITBO 採集函式

Efficient Neural Architecture Search via Parameter Sharing

通過引數共享實現高效神經架構搜尋

連結：https://arxiv.org/abs/1802.03268

這項研究由 Google Brain、卡內基梅隆大學語言技術研究所和史丹佛大學電腦科學系合作完成。這篇工作很有名，即自動學習神經網路的結構。研究者提出了高效神經架構搜尋（ENAS），這是一種快速且低成本的自動模型設計方法。相比於在前 N 個資料上得到結果，ENAS 通過引數共享有效地遷移了一部分知識進來；相比於 NAS 等其它基準，效果提高了將近 1000 倍。

在有 4 個計算節點（表明卷積網路有 4 層）的搜尋空間中一個卷積單元的執行示例。上圖：控制器 RNN 的輸出。左下圖：對應於該網路架構的計算 DAG，紅色箭頭表示活動的計算路徑。右下圖：完整網路，虛線箭頭表示 skip 連線。

Learning to search with MCTSnets

使用 MCTSnets 學習搜尋

連結：https://arxiv.org/abs/1802.04697

這項研究由 DeepMind 完成。通常人工智慧規劃用樹搜尋來實現。這篇文章中就提出了一個基於蒙特卡洛樹搜尋（MCTS）進行自動結構搜尋的方法 MCTSnet，該方法可以自動學習搜尋的位置/內容/方法（where/what/how）。該方法的大致思路即是在神經網路內部建立一種類似於 MCTS 的模擬機制，從而進行擴充套件/評估/儲存向量嵌入等操作。

MCTSnet 演算法

深度學習架構

深度網路架構的設計一直以來都是深度學習的關鍵問題，針對不同目的（例如提高模型分類能力、提高多工場景能力、複用已有模型知識），在結構設計上也有不同的考慮，下面將介紹幾篇有代表性的網路結構設計論文。

Beyond Finite Layer Neural Networks: Bridging Deep Architectures and Numerical Differential Equations

超越有限層數的神經網路：搭建深度架構和數值微分方程之間的橋樑

連結：https://arxiv.org/abs/1710.10121

這項研究的作者所屬機構非常多，包括北京大學多個機構、哈佛醫學院、北京大資料研究院等。這篇論文討論了深度神經網路的設計與微分方程（ODE 和 PDE）之間的關係，認為神經網路結構設計很多其實與微分方程原理不謀而合，舉例說了 ResNet、PolyNet、RevNet 等經典網路可如何表達成微分方程的形式。並且依據 ODE 原理設計了一種新型結構 LM-ResNet，該結構在 ImageNet、CIFAR 等資料集上超過了 ResNet 的效果。

Deep Asymmetric Multi-task Feature Learning

深度非對稱多工特徵學習

連結：https://arxiv.org/abs/1708.00260

這項研究由韓國蔚山科技大學、AItrics 和韓國科學技術院合作完成。這篇論文提出了一種新的多工學習模型，該模型是 ICML 16 工作 AMTL 的擴充套件，AMTL提出了一種非對稱的多工學習框架，認為容易的任務學習到的資訊需要更多傳遞給難任務以幫助難任務的學習，而難任務學習到的資訊傳遞給容易任務的必要性低，因而提出一種引數重建（weight reconstruction）的方法，實現了不同任務引數的不對稱重建，但該框架對多類別的可擴充套件性差，也不易於與深度網路結合，本文提出一種基於自動編碼器的方法，讓不同任務學習到的資訊能不對稱地傳遞到共有特徵層，效果優於 ATML。

Born-Again Neural Networks

再生神經網路

連結：https://arxiv.org/abs/1805.04770

這項研究由南加州大學、卡內基梅隆大學、Amazon AI、蘇黎世聯邦理工工學院和加州理工學院合作完成。這篇論文用已有網路學到的知識重新訓練一個相同結構的網路模型，如此遞進式地訓練，最終將中間得到的多個模型融合，能取得最佳的效果，該訓練方式對現有 ResNet、DenseNet 等經典結構都適用。

再生網路訓練流程圖示。第 1 步，根據標籤 Y 訓練教師模型 T；然後在後續每一步，根據不同的隨機種子初始化並根據前一代的監督訓練一個相同的新模型。在這個流程最後，可以使用多代學生模型的集合來實現額外的增益。

Disentangled Sequential Autoencoder

解開的序列自動編碼器

連結：https://arxiv.org/abs/1803.02991

這項研究由劍橋大學和迪斯尼研究院合作完成。研究者提出了一種用於編碼和生成視訊或音訊等高維序列資料的 VAE 架構。相比於之前的方法，研究者通過精心設計概率圖模型實現瞭解開的表徵。這種架構使用了隱含變數來表徵內容（即在序列中不變的資訊），並使用了與每一幀相關的一組隱含變數來表徵動態資訊（比如姿態和位置）。這種方法重在通過學習視訊/音訊內容和動態的分佈來實現序列生成，而不是基於被觀察到的序列來預測未來幀。因此，這種模型還能用於未曾見過的序列。

Attention-based Deep Multiple Instance Learning

基於注意的深度多例項學習

連結：https://arxiv.org/abs/1802.04712

這項研究由阿姆斯特丹大學完成。多例項學習（MIL）是一種將單個類別標籤分配給一袋（bag）例項的監督學習。研究者在這篇論文中將 MIL 問題描述成了學習袋標籤（bag label）的伯努利分佈的問題，其中袋標籤的概率可通過神經網路完全引數化。此外，研究者還提出了一種基於神經網路的排列不變聚合運算元，可對應於注意機制。這種基於注意的運算元能幫助瞭解每個例項對袋標籤的貢獻。

生成模型

自生成對抗網路（GAN）被提出以來，生成模型近幾年來一直是機器學習各大會議的研究熱點。在這次 ICML 中一共有 20 餘篇關於生成模型的論文，每天都至少有一個獨立的生成模型的議程。我們主要關注以下幾篇論文：

Chi-square Generative Adversarial Network

卡方生成對抗網路

連結：http://proceedings.mlr.press/v80/tao18b/tao18b.pdf

這項研究由杜克大學與復旦大學完成。為了評估真實資料和合成資料之間的差異，可使用分佈差異度量來訓練生成對抗網路（GAN）。資訊理論散度、積分概率度量和 Hilbert 空間差異度量是三種應用比較廣泛的度量。在這篇論文中，研究者闡述了這三種流行的 GAN 訓練標準之間的理論聯絡，並提出了一種全新的流程——（χ²）卡方GAN，其概念簡單、訓練穩定且能夠耐受模式崩潰。這個流程可用於解決多個分佈的同時匹配問題。此外，研究者還提出了一種重取樣策略，可通過一種重要度加權機制為訓練後的 critic 函式重新設定目標，從而顯著提升樣本質量。

RadialGAN: Leveraging multiple datasets to improve target-specific predictive models using Generative Adversarial Networks

RadialGAN：使用生成對抗網路利用多個資料集來改進特定目標的預測模型

連結：https://arxiv.org/abs/1802.06403

這項研究由加州大學、牛津大學和阿蘭·圖靈研究所完成。訓練機器學習預測模型的資料並不總是足夠的，研究者在這篇論文中提出了一種可以利用來自相關但不同的來源的資料的新方法，即使用多個 GAN 架構來學習將一個資料集“翻譯”成另一個資料集，由此有效地擴增目標資料集。

First Order Generative Adversarial Networks

一階生成對抗網路

連結：https://arxiv.org/abs/1802.04591

程式碼：https://github.com/zalandoresearch/first_order_gan

這項研究由 Zalando Research 和奧地利林茨約翰·開普勒大學完成。在最早的 GAN 和 WGAN-GP 等變體中，在更新生成器引數的方向上都存在問題——不對應於目標的最陡的下降方向。研究者在這篇論文中引入了一個描述最優更新方向的理論框架，該框架可推導散度和用於確定更新方向的對應方法的條件要求，這些條件要求能夠確保在最陡的下降方向上完成無偏差的 mini-batch 更新。研究者還提出了一種能在近似 Wasserstein 距離的同時正則化 critic 的一階資訊的新散度。配合相應的更新方向，這種散度能夠滿足無偏差最陡下降更新的要求。

GAIN: Missing Data Imputation using Generative Adversarial Nets

GAIN：使用生成對抗網路的缺失資料插補

連結：https://arxiv.org/abs/1806.02920

這項研究由加州大學、牛津大學和阿蘭·圖靈研究所完成。研究者提出了一種通過調整生成對抗網路（GAN）框架插補缺失資料的新方法——生成對抗插補網路（GAIN）。其中，生成器（G）觀察一個真實資料向量的某些分量，然後基於所觀察的內容插補缺失的分量，輸出完整向量。而鑑別器（D）則以完整向量為輸入，然後判定其中哪些分量是真實的，哪些是插補的。為了確保 D 能讓 G 學習到所需分佈，研究者以“暗示”向量的形式向 D 提供了一些額外資訊。這些暗示會讓 D 獲得有關原始樣本的缺失情況的部分資訊，這可被 D 用於將注意重點放在特定分量的插補質量上。從而確保 G 確實能學習根據真實資料分佈生成結果。

GAIN 架構和虛擬碼

PixelSNAIL: An Improved Autoregressive Generative Model

PixelSNAIL：一種改進型自迴歸生成模型

連結：https://arxiv.org/abs/1712.09763

程式碼：https://github.com/neocxi/pixelsnail-public

這項研究由 Embodied Intelligence 和加利福尼亞大學伯克利分校完成。受元強化學習的近期研究的啟發，研究者提出了一種新的生成模型架構，將因果卷積（causal convolutions）和自注意（self attention）結合到了一起。其中因果卷積能夠更好地訪問序列的更早部分，從而幫助 RNN 更好地建模長程依賴；而自注意可將序列轉換為無序的鍵值儲存並能根據內容查詢，它們具有無限的感受野，能實現對序列中相距較遠的資訊的無損訪問。兩者具有互補性，前者能實現在有限上下文規模上的高頻寬訪問，而後者能實現在無限大上下文上的訪問。兩者結合，可讓模型實現資訊量無限制的高頻寬訪問。

PixelSNAIL 模型架構

NeurIPS 2018值得一讀的強化學習論文清單
2018-12-13
強化學習
ICML 2018 | 模型層面的對偶學習
2018-07-10
模型
【強化學習篇】--強化學習從初識到應用
2018-06-30
強化學習
近期有哪些值得讀的QA論文？| 專題論文解讀
2018-06-05
強化學習（一）模型基礎
2018-07-29
強化學習模型
一文讀懂深度學習：從神經元到BERT
2019-05-28
深度學習
谷歌論文：使用深度強化學習的晶片佈局
2020-05-07
谷歌強化學習晶片
AAAI 2020 論文解讀：關於生成模型的那些事
2020-02-17
AI模型
ICML：2019論文接收結果視覺化
2019-05-12
視覺化
ICML 2019 | 強化學習用於推薦系統，螞蟻金服提出生成對抗使用者模型
2019-06-04
強化學習模型
一文讀懂人工智慧、機器學習、深度學習、強化學習的關係（必看）
2019-02-14
人工智慧機器學習深度學習強化學習
ICML2019｜強化學習用於推薦系統，螞蟻金服提出生成對抗使用者模型
2019-06-11
強化學習模型
ICLR 2021投稿中值得一讀的NLP相關論文
2020-11-10
ICLR
無模型的強化學習方法
2024-03-09
模型強化學習
一文讀懂機器學習中的模型偏差
2018-10-16
機器學習模型
ICLR 2020 多智慧體強化學習論文總結
2020-09-29
ICLR智慧體強化學習
一文讀懂強化學習：RL全面解析與Pytorch實戰
2023-11-02
強化學習PyTorch
ECCV 2018最佳論文解讀：基於解剖結構的面部表情生成
2018-09-14
近期值得讀的10篇GAN進展論文
2019-01-03
並行多工學習論文閱讀（五）：論文閱讀總結
2021-11-12
並行
AAAI 2020 | 52篇深度強化學習accept論文彙總
2020-02-03
AI強化學習
帶你讀論文 | 端到端語音識別模型
2020-11-18
模型
從起源到具體演算法，這是一份適合所有人讀的深度學習綜述論文
2018-03-12
演算法深度學習
ICML 2024高分論文 | 零階最佳化器微調大模型，大幅降低記憶體
2024-07-04
大模型記憶體
並行多工學習論文閱讀（一）：多工學習速覽
2021-10-29
並行
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
【論文速讀】位元組跳動音樂生成模型 Seed-Music
2024-10-15
模型
ICML 2017大熱論文：Wasserstein GAN | 經典論文復現
2018-10-31
COLING 2018 最佳論文解讀：序列標註經典模型復現
2018-07-02
模型
ICML 2019最佳論文：測試12000個模型後，谷歌質疑現有無監督分離式表徵學習
2019-06-12
模型谷歌
每月都有重磅研究，2024全年值得一讀的論文都在這了
2025-01-01
深度學習論文閱讀路線圖
2018-08-06
深度學習
非得從零開始學習？扒一扒強化學習的致命缺陷
2018-07-13
強化學習
一文了解強化學習的商業應用2
2018-11-09
強化學習
【強化學習篇】--強化學習案例詳解一
2018-06-30
強化學習
icml和nips等會議論文地址
2020-06-28
當博弈論遇上機器學習：一文讀懂相關理論
2019-10-28
機器學習
【深度學習論文篇 02-1 】YOLOv1論文精讀
2022-04-14
深度學習YOLOv1

從強化學習到生成模型：ICML 2018 40篇值得一讀的論文

元學習/遷移學習

自動超引數調節/架構搜尋

深度學習架構

生成模型

相關文章