全標題:Leveraging Long and Short-term Information in Context-aware movie recommendation - 融合 MF 和 RNN 的電影推薦系統
介紹本期的工作之前,先打一個緊急的招生廣告,我們組現還有一個博士名額,想要來中科院深圳先進技術研究院讀博的同學可以聯絡我,主要做一些關於自然語言處理、資料探勘、計算機視覺、機器學習等的工作,報名結束日期是 2018 年 1 月 12 號。
聯絡方式和主頁地址如下:
郵箱:min.yang@siat.ac.cn
主頁:www.minyang.me
隨著網際網路技術飛速發展,線上資料越來越龐大,如何幫助使用者從海量資料中找到所需資訊是急需解決的問題。
個性化推薦系統能夠有效的解決資訊過載問題,推薦系統根據使用者的歷史偏好和約束為使用者提供排序的個性化物品(item)推薦列表,更精準的推薦系統可以提升和改善使用者體驗。所推薦的物品可以包括電影、書籍、餐廳、新聞條目等等。
本文主要針對電影推薦做了深入研究,但所提出的方法可以很方便地遷移到其他物品推薦中。
目前,協同過濾技術已成為最廣泛採用的推薦技術,已經被廣泛應用到了很多商業系統中,比較著名的有 Amazon、Netflix、淘寶等。
傳統的基於協同過濾的推薦系統是認為使用者偏好和電影屬性都是靜態的,但他們實質是隨著用時間的推移而緩慢變化的。例如,一個電影的受歡迎程度可能由外部事件(如獲得奧斯卡獎)所改變。
除了對時間演化進行建模的需求外,協同過濾方法使用了未來的評分來評估當前的喜好,這一定程度違背了統計分析中的因果關係。
另一方面,隨著深度學習應用的爆發式發展,特別是在計算機視覺、自然語言處理和語音方面的進展,基於深度學習的推薦系統越來越引發大家的關注。迴圈神經網路(RNN)理論上能夠有效地對使用者偏好和物品屬性的動態性進行建模,基於當前的趨勢,預測未來的行為。
為了有效地利用傳統協同過濾推薦技術(i.e., 矩陣分解)和深度學習方法(i.e., 迴圈神經網路)各自的優點,捕獲使用者和電影之間的長期(全域性)和短期(區域性)關聯,本文主要研究和探索矩陣分解(Matrix Factorization, MF)和迴圈神經網路(Recurrent Neural Network, RNN)在推薦系統上的互補性。
該項工作已經發表在 arXiv 上,更多細節可以點選本文底部的“閱讀原文”檢視原論文,我們會在論文發表後放出程式碼。
我們提出一種 LSIC 模型(Leveraging Long and Short-term Information in Context-aware movie recommendation),具體框架如下:
請點選此處輸入圖片描述
LSIC 模型採用了生成對抗網路(GAN)框架將基於 MF 和 RNN 的模型融合,同時捕獲使用者長期偏好和短期會話資訊,從而最大限度地提高推薦系統的最終效能,達到 state-of-the-art 的效果。我們介紹了 4 種方法來融合 MF 模型和 RNN 模型,具體如下:
請點選此處輸入圖片描述
LSIC-V1: Hard 機制
採用簡單的求和方法混合 MF 和 RNN 預測的分數,如圖 Figure2(a),公式如下:
請點選此處輸入圖片描述
LSIC-V2
我們透過預訓練 MF 得到使用者和影片的 latent factors,再初始化使用者 LSTM 和影片 LSTM 的隱狀態,如圖 Figure2(b)。
LSIC-V3
我們對 LSIC-V2 進展擴充套件,取樣 MF 得到的 latent factors 作為兩個 LSTM 的 static context vectors 加到每個時刻 t 的輸入中,如圖 Figure2(c)。
LSIC-V4
我們採用 attention 機制動態調整 MF 和 RNN 的融合方式,如圖 Figure2(d),公式如下:
生成對抗網路:判別器嘗試區別影片的真假,它是來自訓練集中的高分影片還是生成器生成出來的偽高分影片。生成器嘗試去生成真高分影片來欺騙判別器。具體細節請參考【5】,我們以這篇工作為基礎做了許多改進,比如透過 GAN 有效結合使用者長期偏好的短期會話的模型等。
生成器:(Figure1 的左邊)類似於條件 GAN,我們的生成器 G 輸入使用者偏好資料和時刻 t,給使用者 i 生成推薦列表,具體公式如下:
其中,M 是影片集合,m_(g, t) 是在 t 時刻生成的影片 index。
判別器(Figure1 的右邊)我們採用 Siamese 網路構建判別器 D,並且以 pair-wise 的方法融合長短時模型。具體來說,判別器 D 有兩個對稱的 point-wise 網路,她們共享引數並且採用 pair-wise 的損失函式來更新。具體的目標函式如下:
U 是使用者集合,u_i 是使用者 i,m_+ 是高分影片,m__ 是隨機從影片集合中取樣出的低分影片,最後我們採用 hinge 損失函式來最佳化判別器 D,具體公式如下:
強化學習:由於影片取樣的過程是離散的,不能採用標準的 GAN 公式來最佳化。因此,我們採用 policy gradient 來最佳化生成器 G,使得 G 能生成高收益的推薦列表來欺騙判別器 D。具體來說,推導如下:
資料集:為了驗證我們模型的有效性,我們在兩個廣泛使用的資料集進行測試 Movielens100K 和 Netflix,為了評估模型的魯棒性,我們分別進行了 3 個月 Netflix 和全集 Netflix 的實驗,資料集細節如下:
對比演算法: 在實驗中,我們和一些 baseline 和 state-of-art 進行對比:BPR [1],PRFM [2],LambdaFM [3],RRN [4],IRGAN [5]。
實驗結果:
此外,我們還進行了 case study 的分析。我們從 Netflix 資料集中隨機選擇兩個使用者併為其生成推薦列表。LSIC 模型可以更有效的進行推薦。例如,使用者“8003”的電影“9 Souls”從排名5(LambdaFM)增加到排名 1(LSIC-V4)。
總結:我們提出了一種新穎的基於生成對抗網路的推薦系統,採用強化學習動態調整歷史長期偏好和短期會話的模型,此外,我們加入了封面圖片特徵進一步提升系統效能,最後在兩個資料集上做到 state-of-art 的效能。
參考文獻
1. Steffen Rendle, Christoph Freudenthaler, Zeno Gantner, and Lars SchmidtThieme. 2009. BPR: Bayesian personalized ranking from implicit feedback. InProceedings of the twenty- fth conference on uncertainty in articial intelligence. AUAI Press, 452–461.
2. Runwei Qiang, Feng Liang, and Jianwu Yang. 2013. Exploiting ranking factorization machines for microblog retrieval. In Proceedings of the 22nd ACM international conference on Conference on information & knowledge management. ACM, 1783–1788.
3. Fajie Yuan, Guibing Guo, Joemon M Jose, Long Chen, Haitao Yu, and Weinan Zhang. 2016. Lambdafm: learning optimal ranking with factorization machines using lambda surrogates. In Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. ACM, 227–236.
4. Chao-YuanWu, Amr Ahmed, Alex Beutel, Alexander J Smola, and How Jing. 2017. Recurrent recommender networks. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining. ACM, 495–503.
5. Jun Wang, Lantao Yu, Weinan Zhang, Yu Gong, Yinghui Xu, Benyou Wang, Peng Zhang, and Dell Zhang. 2017. IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. 515–524.