淺談個性化推薦系統中的非取樣學習

PaperWeekly發表於2020-02-19

引言

隨著網際網路技術和產業的迅速發展,推薦系統(Recommender System)成為網路應用中不可缺少的重要組成部分,是當前解決資訊過載問題的最有效的方法之一,因此也受到了學界和工業界的廣泛關注。

近年來,深度學習技術在許多領域展現出非凡的應用效果。然而,現有的將深度學習應用到推薦系統任務的工作主要集中在探索和引入不同的神經網路框架,在模型學習演算法方面的研究相對較少。

為了優化模型,現有的工作往往使用負取樣策略(Negative Sampling)進行訓練。雖然負取樣方便並且易於實現,但是許多最近的研究表明負取樣策略的魯棒性較差,可能會忽略掉重要的訓練樣例從而導致模型無法收斂到最優的狀態。

在近兩年,清華大學資訊檢索課題組(THUIR)首次探索了將非取樣策略(Non-Sampling, Whole-data based Learning)應用到基於神經網路的推薦系統中。

通過嚴格的數學推理,我們設計了一系列高效的非取樣學習演算法,使得整體資料中學習的時間複雜度在理論數量級上有所降低。基於所設計的高效非取樣演算法框架,我們分別設計了不同應用場景下的神經網路推薦模型,並在多個現實資料集上相比於已有 state-of-the-art 方法在訓練時間和模型表現上均取得了非常顯著的效果,包括:

1. 基礎場景 (只使用使用者和商品 ID 資訊):推薦效果提升 5% 以上,訓練時間快 30 倍以上(TOIS 錄用)

2. 基於社交關係的推薦系統:推薦效果提升 4% 以上,訓練時間快 7 倍以上(SIGIR 2019 錄用)

3. 基於多行為資料的推薦系統:推薦效果提升 40% 以上,訓練時間快 10 倍以上(AAAI 2020 錄用)

4. 包含特徵(feature)和上下文(context)的推薦系統:推薦效果提升 9% 以上,訓練時間快 5 倍以上(WWW 2020 錄用)

接下來我們簡要介紹相關工作的主要內容。

相關文章