在推薦系統中應用強化學習(RL)有很大的研究價值,但也面臨諸多挑戰。在這樣的配置中,線上使用者是環境(environment),但是並沒有明確定義獎勵函式(reward)和環境動態(transition),這些都對 RL 的應用造成了挑戰。
本文提出利用生成對抗網路同時學習使用者行為模型(transition)以及獎勵函式(reward)。將該使用者模型作為強化學習的模擬環境,研究者開發了全新的 Cascading-DQN 演算法,從而得到了可以高效處理大量候選物品的組合推薦策略。
本文用真實資料進行了實驗,發現和其它相似的模型相比,這一生成對抗使用者模型可以更好地解釋使用者行為,而基於該模型的 RL 策略可以給使用者帶來更好的長期收益,並給系統提供更高的點選率。
論文:Generative Adversarial User Model for Reinforcement Learning Based Recommendation System
論文地址:https://arxiv.org/pdf/1812.10613.pdf
推薦系統的 RL 挑戰
幾乎對所有的線上服務平臺來說,推薦系統都是很關鍵的一部分。系統和使用者之間的互動一般是這樣的:系統推薦一個頁面給使用者,使用者提供反饋,然後系統再推薦一個新的頁面。
構建推薦系統的常用方式是根據損失函式評估可以使模型預測結果和即時使用者響應之間差異最小化的模型。換句話說,這些模型沒有明確考慮使用者的長期興趣。但使用者的興趣會根據他看到的內容隨著時間而變化,而推薦者的行為可能會顯著影響這樣的變化。
從某種意義上講,推薦行為其實是通過凸顯特定物品並隱藏其他物品來引導使用者興趣的。因此,設計推薦策略會更好一點,比如基於強化學習(RL)的推薦策略——它可以考慮使用者的長期興趣。但由於環境是與已經登陸的線上使用者相對應的,因此 RL 框架在推薦系統設定中也遇到了一些挑戰。
首先,驅動使用者行為的興趣點(獎勵函式)一般是未知的,但它對於 RL 演算法的使用來說至關重要。在用於推薦系統的現有 RL 演算法中,獎勵函式一般是手動設計的(例如用 ±1 表示點選或不點選),這可能無法反映出使用者對不同專案的偏好如何 (Zhao et al., 2018a; Zheng et al., 2018)。
其次,無模型 RL 一般都需要和環境(線上使用者)進行大量的互動才能學到良好的策略。但這在推薦系統設定中是不切實際的。如果推薦看起來比較隨機或者推薦結果不符合線上使用者興趣,她會很快放棄這一服務。
因此,為了解決無模型方法樣本複雜度大的問題,基於模型的 RL 方法更為可取。近期有一些研究在相關但不相同的環境設定中訓練機器人策略,結果表明基於模型的 RL 取樣效率更高 (Nagabandi et al., 2017; Deisenroth et al., 2015; Clavera et al., 2018)。
基於模型的方法的優勢在於可以池化大量的離策略(off-policy)資料,而且可以用這些資料學習良好的環境動態模型,而無模型方法只能用昂貴的在策略(on-policy)資料學習。但之前基於模型的方法一般都是根據物理或高斯過程設計的,而不是根據使用者行為的複雜序列定製的。
解決方案
為了解決上述問題,本文提出了一種新的基於模型的 RL 框架來用於推薦系統,該框架用統一的極小化極大(minimax)框架學習使用者行為模型和相關的獎勵函式,然後再用這個模型學習 RL 策略。
圖 1:使用者與推薦系統之間的互動。綠色箭頭表示推薦者資訊流,橙色箭頭表示使用者資訊流。
本文的主要技術貢獻在於:
開發了生成對抗學習(GAN)方法來模擬使用者行為動態並學習其獎勵函式。可以通過聯合極小化極大優化演算法同時評估這兩個元件。該方法的優勢在於:(i)可以得到更準確的使用者模型,而且可以用與使用者模型一致的方法學習獎勵函式;(ii)相較於手動設計的簡單獎勵函式,從使用者行為中學習到的獎勵函式更有利於後面的強化學習;(iii)學習到的使用者模型使研究者能夠為新使用者執行基於模型的 RL 和線上適應從而實現更好的結果。
用這一模型作為模擬環境,研究者還開發了級聯 DQN 演算法來獲得組合推薦策略。動作-價值函式的級聯設計允許其在大量候選物品中找到要顯示的物品的最佳子集,其時間複雜度和候選物品的數量呈線性關係,大大減少了計算難度。
用真實資料進行實驗得到的結果表明,從保留似然性和點選預測的角度來說,這種生成對抗模型可以更好地擬合使用者行為。根據學習到的使用者模型和獎勵,研究者發現評估推薦策略可以給使用者帶來更好的長期累積獎勵。此外,在模型不匹配的情況下,基於模型的策略也能夠很快地適應新動態(和無模型方法相比,和使用者互動的次數要少得多)。
生成對抗使用者
本文提出了一個模擬使用者順序選擇的模型,並討論了該模型的引數化和評估值。使用者模型的建立受到了模仿學習的啟發,模仿學習是根據專家演示來學習順序決策策略的強大工具。研究者還制訂了統一的極小化極大優化演算法,可以根據樣本軌跡同時學習使用者行為模型和獎勵函式。
將使用者行為作為獎勵最大化
研究者還根據兩個現實的假設模擬了使用者行為:(i)使用者不是被動的。相反,當給使用者展示 k 個物品的集合時,她會做出選擇,從而最大化自己的獎勵。獎勵 r 度量了她對一個物品的興趣有多大或滿意程度。另外,使用者可以選擇不點選任何物品。然後她得到的獎勵就是沒在無聊的物品上浪費時間。(ii)獎勵不僅取決於所選物品,還取決於使用者的歷史。
例如,一個使用者可能一開始對 Taylor Swift 的歌沒什麼興趣,但有一次她碰巧聽到了她的歌,她可能喜歡上了這首歌,於是開始對她的其他歌感興趣。此外,使用者在反覆聽 Taylor Swift 的歌之後可能會覺得無聊。換句話說,使用者對物品的評價可能會隨著她的個人經歷而產生變化。
模型公式為:
模型引數化
圖 2 說明了模型的整體引數化。簡單起見,研究者將獎勵函式中所有參數列示為 θ,將使用者模型中的所有引數集表示為 α,因此分別用符號 γ_θ 和 φ_α 表示。
圖 2:由 (a) 位置權重 (PW) 或 (b) LSTM 引數化的模型架構。(c) 級聯 Q 網路。
生成對抗訓練
在實踐中,使用者獎勵函式 γ(s^t, a^t) 和行為模型 φ(s^t,A^t) 都是未知的,需要評估資料得到。行為模型 φ試圖模模擬實使用者的行為序列,該使用者採取行為以最大化獎勵函式 γ。與生成對抗網路相似:(i) φ 作為生成器,會根據使用者的歷史來生成她的下一個行為;(ii) γ 作為判別器,試圖將行為模型 φ 生成的行為與使用者的實際行為區分開來。因此,受 GAN 框架的啟發,研究者通過極小化極大方法同時評估了 φ 和 γ。
更確切地說,給定某個使用者的 T 個觀測到的行為的軌跡 {a^1_true, a^2_true, . . . , a^T_true} 及相應的所點選物品的特徵 {f^1_∗ , f^2_∗ , . . . , f^T_∗ },研究者通過求解下面的極小化極大優化方法共同學習到使用者的行為模型和獎勵函式:
研究者用 s^t_true 強調這是在資料中觀測到的值。
實驗
研究者用三組實驗來評估其生成對抗使用者模型(GAN 使用者模型)和由此產生的 RL 推薦策略。該實驗旨在解決下列問題:(1)GAN 使用者模型可以更好地預測使用者行為嗎?(2)GAN 使用者模型可以帶來更高的使用者獎勵和點選率嗎?(3)GAN 使用者模型是否有助於降低強化學習的樣本複雜度?
下面展示的是具有位置權重(GAN-PW)和 LSTM(GAN-LSTM)的 GAN 使用者模型的預測準確率,表 1 結果表明 GAN 模型的效能顯著優於基線。此外,GAN-PW 的效能幾乎和 GAN-LSTM 一樣,但訓練效率更高。因此後續實驗使用的是 GAN-PW(後面統稱 GAN)。
表 1:預測效能的比較,研究者在 GAN-PW 和 GAN-LSTM 中使用的是夏農熵。
另一個在 Movielens 上得到的結果很有趣,如圖 3 所示。藍色曲線表示使用者隨時間推移的實際選擇。橙色曲線則是 GAN 和 W&D-CCF 預測的行為軌跡。
圖 3:對比使用者選擇的真實軌跡(藍色曲線)、GAN 模型預測得到的模擬軌跡(上部分圖中的橙色曲線)和 W&D-CFF 預測得到的模擬軌跡(下圖中的橙色曲線)。Y 軸表示 80 個電影類別。