NeurIPS 2020 | 微軟亞洲研究院論文摘錄之強化學習&GAN篇

微软研究院AI头条發表於2020-12-11

上週我們與大家分享了,微軟亞洲研究院入選 NeurIPS 2020 的目標檢測工作。今天,我們精選了微軟亞洲研究院入選 NeurIPS 2020 中有關強化學習和生成式對抗網路 GAN 領域的工作,為大家進行介紹。

RD$^2$: Reward Decomposition with Representation Disentanglement

基於表示分解的獎勵分解

論文連結:https://paperswithcode.com/paper/rd-2-reward-decomposition-with-representation

強化學習演算法可以由更細粒度的獎勵函式大幅提升樣本效率,但自主學習該細粒度獎勵函式的方法目前還很不成熟。在此前的工作中,尚未有廣泛通用的學習細粒度獎勵函式的工作。Hybrid Reward Structure (HRA) 中,細粒度獎勵函式是手動給出的,並且驗證了細粒度獎勵函式對樣本效率的提升。而 Independently-Obtainable Reward Functions, DRDRL 則是將細粒度獎勵函式的學習與玩家的策略繫結,該做法的好處是便於定義,但與此同時缺乏了通用性且難以在下游任務中利用。

演算法RD$^2$

受到最近關於非耦合表示(disentangled representation)工作的啟發,微軟亞洲研究院的研究員們提出了新演算法 RD$^2$。該演算法能夠以更通用的方式來定義並學習一個最優細粒度獎勵函式,而非受限於手動給出或依賴於強化學習本身的策略。

該研究提出的最優細粒度獎勵函式的定義主要基於以下幾點:

  1. 原獎勵函式可線性分解為多個具有“獨特性”的子獎勵函式;

  2. 該線性分解不能是簡單的;

  3. 該線性分解需要是最簡的。

為了便於大家理解,這裡用以一個簡單的遊戲作為例子(如下圖所示)。該遊戲的規則為玩家碰到金塊獲得1分,碰到怪物獲得-1分。

圖片


理想的最優細粒度獎勵函式是將金塊相關的分數與怪物相關的分數分到兩個不同的子獎勵函式上。以下展示了三種獎勵分解,以及與每個子獎勵相關的子狀態:在情況1中,兩個子獎勵函式都包含了金塊部分的獎勵,因此第二個子獎勵不獨特;情況2是一種簡單的分解,即令其中一個子獎勵函式等於原獎勵函式;情況3則是滿足上述最優細粒度獎勵函式的一種情況。

情況1:

圖片


情況2:

圖片


情況3:

圖片

將該認識以嚴謹的數學語言表達出來,就形成了以下定義:

圖片


由於直接計算或估算資訊熵的代價往往較為巨大,所以研究員們給出了深度學習情況下無需計算資訊熵的近似最佳化目標:

圖片

實驗結果

研究員們在簡單任務(前文提到的遊戲)和複雜任務(Atari 遊戲)上分別進行了實驗。在簡單任務上,輸入玩家、金塊、怪物的位置座標,輸出預測的兩個子獎勵,用研究提出的最佳化目標訓練網路。訓練結果如圖1所示,可以看到透過最佳化,能夠學出來最優的掩碼:網路輸出的第一個分支包含了玩家和金塊的位置座標,網路輸出的第二個分支包含了玩家和怪物的位置座標。同時,如表1所示,演算法可以精確地將兩種子獎勵分開。

圖片

圖1:簡單任務上的訓練曲線圖

圖片

表1:簡單任務上的獎勵分解

在複雜任務 Atari 遊戲上則在具有子獎勵的一些環境上進行實驗。為了帶來更強的表達力,研究員們引入了狀態依賴的掩碼(mask)網路,並在實驗中,用 Rainbow 和 DRDRL 作為基線演算法。首先,用 RD$^2$ 學習獎勵分解,圖2展示了分解的效果,可以看到,在複雜的影像任務上,演算法 RD$^2$ 同樣能夠比較精確地把不同的自獎勵區分開,這也證明了該演算法的有效性。

圖片

圖2:分解效果展示

為了進一步理解演算法 RD$^2$ 的優勢,研究員們用顯著圖 (saliency map)對網路的不同分支做了視覺化,嘗試觀察不同分支所關注的輸入。如圖3所示,不同的分支會關注輸入的不同部分,進而幫助該分支預測其對應的子獎勵。這證明了該演算法可以學出有意義的非耦合表示。

圖片

圖3:不同分支視覺化

最後,研究員們嘗試用學習出來的子獎勵分解直接訓練子 Q 網路 (sub-Q network),用以下的 sub-Q TD error 作為額外的最佳化目標。

圖片

研究發現,用訓練出來的子獎勵直接訓練子 Q 網路,會大大加速網路的訓練過程,相比於 Rainbow 和 DRDRL 來說,演算法 RD$^2$ 帶來了樣本效率的巨大提升。
圖片
圖4:在一些 Atari 遊戲上的訓練曲線

Sampling-Decomposable Generative Adversarial Recommender

如何為推薦系統的訓練快速生成並有效利用負樣本?

論文連結:https://arxiv.org/abs/2011.00956

程式碼連結:https://github.com/BinbinJin/SD-GAR

IRGAN 是第一篇將生成式對抗網路(GAN)框架應用於資訊檢索(包括推薦系統)的研究工作。在該工作中,IRGAN 訓練了一個生成器和一個判別器,其中生成器用來自適應地生成合適的負樣本以幫助判別器訓練;而判別器則是用來判斷樣本是來自使用者真實的反饋還是生成器生成的樣本。透過兩者交替式對抗性地訓練達到互相提升效果的目的。

透過對 IRGAN 的理論分析,可以發現其存在兩個侷限性:

  1. 在 IRGAN 中,最後採用生成器用於推薦,然而生成器是用來生成負樣本的,判別器應當真正地用於推薦。在真實情況中,判別器用於推薦的效果並不好,可能的原因是透過訓練得到的生成器與最優形式的生成器存在一定的偏差,最終導致判別器無法訓練的非常好。

  2. 由於生成器得到的分佈是需要經過 softmax 操作的,因此從生成器中進行取樣是非常費時的,尤其當商品數量達到百萬、千萬級別時,取樣的效率非常低。

為此,為了克服 IRGAN 中存在的侷限性,微軟亞洲研究院和中國科學技術大學的研究員們提出了取樣可分解的生成對抗推薦系統 SD-GAR。

SD-GAR

圖片

圖5:SD-GAR 框架圖

從對 IRGAN 的理論分析可知,生成器的最優形式為 P_(G_T^⋆ ) (⋅│c)。為了避免每次對大量的商品使用softmax操作,所以引入另一個生成器 Q_G (⋅│c) 來估計 P_(G_T^⋆ ) (⋅│c)。同時,為了補償兩者之間的偏差,微軟亞洲研究院的研究員們提出使用自歸一重要性取樣來估計目標函式

圖片
接下來,一個重要的目標是如何設計得到一個高效的生成器 Q_G (⋅│c)。傳統生成器的做法是為每一個使用者和每一個商品分別設定一個隱向量,最後透過矩陣乘法和 softmax 得到使用者對每一個商品的喜好分佈。這種方法十分低效。為此,該研究提出了取樣可分解的生成器,對於該生成器,使用 Vose-Alias 演算法,可以在 O(1) 的時間複雜度內取樣一個樣本。

根據對估計量 V_T (D,S) 的分析,當 Q_G (i│c)∝P_(G_T^⋆ ) (i│c)|f_c (i)-μ_c| 時,估計量的方差達到最小。基於此研究員們提出了生成器的最佳化目標:
圖片

為了進行最佳化,研究員們提出用交替最佳化演算法。假設使用者數為 N,商品數為 M,隱向量維度為 K,商品取樣數量為 |S_c|,使用者取樣數量為 |S_i|,SD-GAR 的時間複雜度為 O(NK|S_c|+MK|S_i|)。由於 K、|S_c|、|S_i|≪N,M,因此訓練生成器非常高效。

IRGAN 的時間複雜度是 O(NMK),因此 SD-GAR 演算法相比於 IRGAN 是更加高效的。

實驗結果

研究員們在 CiteULike、Gowalla、Amazon、MovieLens10M、Echonest 五個資料集上進行了驗證。從表2上可以看到,演算法 SD-GAR 顯著優於 SA、IRGAN、DNS、CML、WARP、AOBPR、BPR 等推薦演算法。相比於最好的基準演算法 SA,其在NDCG@50 指標上要平均高出10.5%。

在演算法效率上,對比 SD-GAR 和 IRGAN 在判別器和生成器上的訓練速度。如圖6左所示,在 Amazon(Echonest)資料集上,SD-GAR 的訓練速度要明顯快於 IRGAN。在圖6右中可以看出隨著商品數量的增加,SD-GAR 的訓練時間增長率(實線)要明顯低於 IRGAN 的訓練時間增長率(虛線)。

圖片

表2:和基準演算法的對比

圖片

圖6:時間開銷對比

Learning Semantic-aware Normalization for Generative Adversarial Networks

走向更加真實、可控的影像生成:語義感知生成模型

程式碼連結:https://github.com/researchmm/SariGAN

影像生成任務旨在學習從隱空間到影像空間的對映,而影像空間是由語義組成的。將隱空間根據這些語義進行解耦可以大大簡化生成任務:從學習隱空間對語義組合的對映簡化為學習隱空間對每個語義的對映

基於語義對隱空間解耦,需要兩步:1)找到生成網路中與語義相關的表達並將不同語義分開;2)挖掘並利用以上語義表達和隱空間的關係。

對於第一步,透過訓練生成式對抗網路(GAN)可以得到粗略的語義表達。於是微軟亞洲研究院的研究員們設計了一個基於相似度的語義分組模組,這個模組的基本想法是:如果兩個卷積通道的語義相似,那麼它們的分組資訊也應該相似。使用 MSE 損失對此進行約束,透過最佳化可以得到每層卷積中各個通道的分組資訊。

對於第二步,AdaIN 操作提供瞭解決思路。AdaIN 操作逐通道得對卷積通道和隱空間進行融合,由此,卷積通道的語義就可以傳遞到隱空間。研究員們提出讓學到的語義分組資訊在此融合過程中發揮作用。具體來說,就是用 Group AdaIN 融合每一個語義的隱空間資訊和對應語義的卷積通道:

圖片

此外,研究員們還設計了一種 AdaGN(自適應分組歸一化)操作,透過學習並控制不同組之間的相對重要性將不同組的特徵進行融合:

圖片

最後,三個損失函式被提出用來最佳化整個網路:對抗損失,分組損失,以及互資訊損失:

圖片

以上設計可以使網路對隱空間基於語義解耦,從而生成更真實的影像,並且進行語義級別的控制。整個框架圖如圖7所示:

圖片

圖7:語義感知生成模型框架圖

實驗結果

研究提出的模型在 FFHQ、LSUN CARS 和 LSUNCATS 三個資料集上進行了實驗測評,透過圖8可以看到該模型可以生成照片級別真實的影像。

圖片

圖8:可感知語義生成模型在兩個資料集上的視覺化結果圖

圖片

圖9:可感知語義生成模型和 StyleGAN2 在 LSUN CATS 資料集上的視覺化對比結果

圖9展示了可感知語義生成模型和 StyleGAN2 在 LSUN CATS 資料集上視覺化的對比結果。可以看到,在同樣的迭代次數下,該模型可以達到更好的 FID,生成更加真實自然的圖片。

圖片
圖10:影像修復任務上的視覺化比較 

此外,實驗還在基於條件的影像生成任務(影像修復)上進行,如圖10所示,可感知語義生成模型可以更好地修復影像。

綜上,透過設計語義分組模組和基於分組的隱空間/卷積特徵融合方式,可以將語義解耦引入生成網路中,從而生成更真實的影像,並且可以對生成的影像進行語義級別的控制,從而進行影像編輯。

相關文章