ICML2019|強化學習用於推薦系統,螞蟻金服提出生成對抗使用者模型
將強化學習用於推薦系統,能更好地考慮使用者的長期效益,從而保持使用者在平臺中的長期滿意度、活躍度。但是,強化學習需要大量訓練樣本,例如,AlphaGoZero [1] 進行了 490 百萬局模擬圍棋訓練,Atari game 的強化學習在電腦中高速執行了超過 50 個小時 [2]。而在推薦系統的場景中,線上使用者是訓練環境,系統需要與使用者進行大量的互動,利用使用者的線上反饋來訓練推薦策略。該過程將消耗大量互動成本、影響使用者體驗。在螞蟻金服被 ICML 2019 接收的這篇論文中,們提出用生成對抗使用者模型作為強化學習的模擬環境,先在此模擬環境中進行線下訓練,再根據線上使用者反饋進行即時策略更新,以此大大減少線上訓練樣本需求。此外,提出以集合(set)為單位而非單個物品(item)為單位進行推薦,並利用 Cascading-DN 的神經網路結構解決組合推薦策略空間過大的問題。
在推薦系統中應用強化學習(RL)有很大的研究價值,但也面臨諸多挑戰。在這樣的配置中,線上使用者是環境(enironment),但是並沒有明確定義獎勵函式(reward)和環境動態(transition),這些都對 RL 的應用造成了挑戰。
本文提出利用生成對抗網路同時學習使用者行為模型(transition)以及獎勵函式(reward)。將該使用者模型作為強化學習的模擬環境,研究者開發了全新的 Cascading-DN 演算法,從而得到了可以高效處理大量候選物品的組合推薦策略。
本文用真實資料進行了實驗,發現和其它相似的模型相比,這一生成對抗使用者模型可以更好地解釋使用者行為,而基於該模型的 RL 策略可以給使用者帶來更好的長期收益,並給系統提供更高的點選率。
論文:Generatie Adersarial User Model for Reinforcement Learning Based Recommendation System
論文地址:
推薦系統的 RL 挑戰
幾乎對所有的線上服務平臺來說,推薦系統都是很關鍵的一部分。系統和使用者之間的互動一般是這樣的:系統推薦一個頁面給使用者,使用者提供反饋,然後系統再推薦一個新的頁面。
構建推薦系統的常用方式是根據損失函式評估可以使模型預測結果和即時使用者響應之間差異最小化的模型。換句話說,這些模型沒有明確考慮使用者的長期興趣。但使用者的興趣會根據他看到的內容隨著時間而變化,而推薦者的行為可能會顯著影響這樣的變化。
從某種意義上講,推薦行為其實是透過凸顯特定物品並隱藏其他物品來引導使用者興趣的。因此,設計推薦策略會更好一點,比如基於強化學習(RL)的推薦策略——它可以考慮使用者的長期興趣。但由於環境是與已經登陸的線上使用者相對應的,因此 RL 框架在推薦系統設定中也遇到了一些挑戰。
首先,驅動使用者行為的興趣點(獎勵函式)一般是未知的,但它對於 RL 演算法的使用來說至關重要。在用於推薦系統的現有 RL 演算法中,獎勵函式一般是手動設計的(例如用 ±1 表示點選或不點選),這可能無法反映出使用者對不同專案的偏好如何 (Zhao et al., 2018a; Zheng et al., 2018)。
其次,無模型 RL 一般都需要和環境(線上使用者)進行大量的互動才能學到良好的策略。但這在推薦系統設定中是不切實際的。如果推薦看起來比較隨機或者推薦結果不符合線上使用者興趣,她會很快放棄這一服務。
因此,為決無模型方法樣本複雜度大的問題,基於模型的 RL 方法更為可取。近期有一些研究在相關但不相同的環境設定中訓練機器人策略,結果表明基於模型的 RL 取樣效率更高 (Nagabandi et al., 2017; Deisenroth et al., 2015; Claera et al., 2018)。
基於模型的方法的優勢在於可以池化大量的離策略(off-policy)資料,而且可以用這些資料學習良好的環境動態模型,而無模型方法只能用昂貴的在策略(on-policy)資料學習。但之前基於模型的方法一般都是根據物理或高斯過程設計的,而不是根據使用者行為的複雜序列定製的。
解決方案
為決上述問題,本文提出了一種新的基於模型的 RL 框架來用於推薦系統,該框架用統一的極小化極大(minimax)框架學習使用者行為模型和相關的獎勵函式,然後再用這個模型學習 RL 策略。
圖 1:使用者與推薦系統之間的互動。綠色箭頭表示推薦者資訊流,橙色箭頭表示使用者資訊流。
本文的主要技術貢獻在於:
開發了生成對抗學習(GAN)方法來模擬使用者行為動態並學習其獎勵函式。可以透過聯合極小化極大最佳化演算法同時評估這兩個元件。該方法的優勢在於:(i)可以得到更準確的使用者模型,而且可以用與使用者模型一致的方法學習獎勵函式;(ii)相較於手動設計的簡單獎勵函式,從使用者行為中學習到的獎勵函式更有利於後面的強化學習;(iii)學習到的使用者模型使研究者能夠為新使用者執行基於模型的 RL 和線上適應從而實現更好的結果。用這一模型作為模擬環境,研究者還開發了級聯 DN 演算法來獲得組合推薦策略。動作-價值函式的級聯設計允許其在大量候選物品中找到要顯示的物品的最佳子集,其時間複雜度和候選物品的數量呈線性關係,大大減少了計算難度。用真實資料進行實驗得到的結果表明,從保留似然性和點選預測的角度來說,這種生成對抗模型可以更好地擬合使用者行為。根據學習到的使用者模型和獎勵,研究者發現評估推薦策略可以給使用者帶來更好的長期累積獎勵。此外,在模型不匹配的情況下,基於模型的策略也能夠很快地適應新動態(和無模型方法相比,和使用者互動的次數要少得多)。
生成對抗使用者
本文提出了一個模擬使用者順序選擇的模型,並討論了該模型的引數化和評估值。使用者模型的建立受到了模仿學習的啟發,模仿學習是根據專家演示來學習順序決策策略的強大工具。研究者還制訂了統一的極小化極大最佳化演算法,可以根據樣本軌跡同時學習使用者行為模型和獎勵函式。
將使用者行為作為獎勵最大化
研究者還根據兩個現實的假設模擬了使用者行為:(i)使用者不是被動的。相反,當給使用者展示 k 個物品的集合時,她會做出選擇,從而最大化自己的獎勵。獎勵 r 度量了她對一個物品的興趣有多大或滿意程度。另外,使用者可以選擇不點選任何物品。然後她得到的獎勵就是沒在無聊的物品上浪費時間。(ii)獎勵不僅取決於所選物品,還取決於使用者的歷史。
例如,一個使用者可能一開始對 Taylor Swift 的歌沒什麼興趣,但有一次她碰巧聽到了她的歌,她可能喜歡上了這首歌,於是開始對她的其他歌感興趣。此外,使用者在反覆聽 Taylor Swift 的歌之後可能會覺得無聊。換句話說,使用者對物品的評價可能會隨著她的個人經歷而產生變化。
模型公式為:
模型引數化
圖 2 說明了模型的整體引數化。簡單起見,研究者將獎勵函式中所有參數列示為 θ,將使用者模型中的所有引數集表示為 α,因此分別用符號 γ_θ 和 φ_α 表示。
圖 2:由 (a) 位置權重 (PW) 或 (b) LSTM 引數化的模型架構。(c) 級聯 網路。
生成對抗訓練
在實踐中,使用者獎勵函式 γ(s^t, a^t) 和行為模型 φ(s^t,A^t) 都是未知的,需要評估資料得到。行為模型 φ試圖模模擬實使用者的行為序列,該使用者採取行為以最大化獎勵函式 γ。與生成對抗網路相似:(i) φ 作為生成器,會根據使用者的歷史來生成她的下一個行為;(ii) γ 作為判別器,試圖將行為模型 φ 生成的行為與使用者的實際行為區分開來。因此,受 GAN 框架的啟發,研究者透過極小化極大方法同時評估了 φ 和 γ。
更確切地說,給定某個使用者的 T 個觀測到的行為的軌跡 {a^1_true, a^2_true, . . . , a^T_true} 及相應的所點選物品的特徵 {f^1_ , f^2_ , . . . , f^T_ },研究者透過求解下面的極小化極大最佳化方法共同學習到使用者的行為模型和獎勵函式:
研究者用 s^t_true 強調這是在資料中觀測到的值。
實驗
研究者用三組實驗來評估其生成對抗使用者模型(GAN 使用者模型)和由此產生的 RL 推薦策略。該實驗旨在解決下列問題:(1)GAN 使用者模型可以更好地預測使用者行為嗎?(2)GAN 使用者模型可以帶來更高的使用者獎勵和點選率嗎?(3)GAN 使用者模型是否有助於降低強化學習的樣本複雜度?
下面展示的是具有位置權重(GAN-PW)和 LSTM(GAN-LSTM)的 GAN 使用者模型的預測準確率,表 1 結果表明 GAN 模型的效能顯著優於基線。此外,GAN-PW 的效能幾乎和 GAN-LSTM 一樣,但訓練效率更高。因此後續實驗使用的是 GAN-PW(後面統稱 GAN)。
表 1:預測效能的比較,研究者在 GAN-PW 和 GAN-LSTM 中使用的是夏農熵。
另一個在 Moielens 上得到的結果很有趣,如圖 3 所示。藍色曲線表示使用者隨時間推移的實際選擇。橙色曲線則是 GAN 和 W&D-CCF 預測的行為軌跡。
圖 3:對比使用者選擇的真實軌跡(藍色曲線)、GAN 模型預測得到的模擬軌跡(上部分圖中的橙色曲線)和 W&D-CFF 預測得到的模擬軌跡(下圖中的橙色曲線)。Y 軸表示 80 個電影類別
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69904796/viewspace-2647246/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- ICML 2019 | 強化學習用於推薦系統,螞蟻金服提出生成對抗使用者模型強化學習模型
- 螞蟻金服!實習生!提前批!強勢內推!
- 螞蟻金服!前端實習生!內推!提前批!前端
- 深度學習預測RNA二級結構,螞蟻金服提出端到端模型E2Efold深度學習模型
- Flink + 強化學習 搭建實時推薦系統強化學習
- (螞蟻金服mPaaS)統一儲存
- [從原始碼學設計]螞蟻金服SOFARegistry之推拉模型原始碼模型
- 螞蟻金服核心技術:百億特徵實時推薦演算法揭祕特徵演算法
- 【實習】螞蟻金服中介軟體實習生招聘
- 螞蟻金服有哪些金融特色的機器學習技術?機器學習
- 螞蟻金服開源自動化測試框架 SOFAACTS框架
- 論文分享:用於模型解釋的對抗不忠學習模型
- 螞蟻金服 Service Mesh 實踐探索
- 螞蟻金服RPC框架結構分析RPC框架
- 螞蟻金服 Service Mesh 深度實踐
- 9.9螞蟻金服二三輪面試面試
- 開篇 | 螞蟻金服 mPaaS 服務端核心元件體系概述服務端元件
- [從原始碼學設計]螞蟻金服SOFARegistry 之 ChangeNotifier原始碼
- 螞蟻金服面對億級併發場景的元件體系設計元件
- 招聘貼:螞蟻金服招Java研發Java
- 招聘貼:螞蟻金服招前端開發前端
- 【北京】Golang技術專家--螞蟻金服Golang
- 【推薦系統篇】--推薦系統之訓練模型模型
- [從原始碼學設計]螞蟻金服SOFARegistry之服務上線原始碼
- 《推薦系統》-DIN模型模型
- 《推薦系統》-PNN模型模型
- 螞蟻金服通訊框架SOFABolt解析|序列化機制(Serializer)框架
- 螞蟻金服通訊框架SOFABolt解析 |序列化機制(Serializer)框架
- 乾貨分享:螞蟻金服前端框架和工程化實踐前端框架
- 螞蟻金服面試經歷-前期準備面試
- 螞蟻金服 DB Mesh 的探索與實踐
- 解構螞蟻金服:巨擘崛起(附下載)
- 提效降本:螞蟻金服如何用融合計算改造線上機器學習機器學習
- 螞蟻金服開源的機器學習工具 SQLFlow,有何特別之處?機器學習SQL
- 螞蟻金服楊軍:螞蟻資料分析平臺的演進及資料分析方法的應用
- [從原始碼學設計]螞蟻金服SOFARegistry之延遲操作原始碼
- [從原始碼學設計]螞蟻金服SOFARegistry之配置資訊原始碼
- 乾貨|個性化推薦系統五大研究熱點之強化學習(三)強化學習