乾貨|個性化推薦系統五大研究熱點之強化學習(三)

先薦發表於2019-01-09

【編者按】微軟亞洲研究院社會計算組的研究員們從深度學習、知識圖譜、強化學習、使用者畫像、可解釋性推薦等五個方面,展望了未來推薦系統發展的方向。

在前兩篇文章中,我們分別介紹了深度學習技術知識圖譜在推薦系統中的應用以及未來可能的研究方向。在今天的文章中,我們將介紹強化學習在推薦系統中的應用。


通過融合深度學習與知識圖譜技術,推薦系統的效能取得了大幅的提升。然而,多數的推薦系統仍是以一步到位的方式建立的:它們有著類似的搭建方式,即在充分獲取使用者歷史資料的前提下,設計並訓練特定的監督模型,從而得到使用者對於不同物品的喜好程度。這些訓練好的模型在部署上線後可以為特定使用者識別出最具吸引力的物品,為其做出個性化推薦。在此,人們往往假設使用者資料已充分獲取,且其行為會在較長時間之內保持穩定,使得上述過程中所建立的推薦模型得以應付實際中的需求。


                    乾貨|個性化推薦系統五大研究熱點之強化學習(三)

然而對於諸多現實場景,例如電子商務或者線上新聞平臺,使用者與推薦系統之間往往會發生持續密切的互動行為。在這一過程中,使用者的反饋將彌補可能的資料缺失,同時有力地揭示其當前的行為特徵,從而為系統進行更加精準的個性化推薦提供重要的依據。

強化學習為解決這個問題提供了有力支援。依照使用者的行為特徵,我們將涉及到的推薦場景劃分為靜態與動態,並分別對其進行討論。

1. 靜態場景下的強化推薦

在靜態場景之下,使用者的行為特徵在與系統的互動過程中保持穩定不變。對於這一場景,一類有代表性的工作是基於上下文多臂老虎機(contextual multi-armed bandit)的推薦系統,它的發展為克服推薦場景中的冷啟動問題提供了行之有效的解決方案。

在許多現實應用中,使用者的歷史行為往往服從特定的長尾分佈,即大多數使用者僅僅產生規模有限的歷史資料,而極少的使用者則會生成較為充足的歷史資料。這一現象所帶來的資料稀疏問題使得傳統模型在很多時候難以得到令人滿意的實際效果。

為此,一個直接的應對方法是對使用者行為進行主動式的探索,即通過對使用者發起大量嘗試性的推薦,以充分的獲得其行為資料,從而保障推薦系統的可用性。然而不幸的是,這一簡單的做法勢必引發極大的探索開銷,使得它在現實中並不具備可行性。

為使主動式探索具備可行的效用開銷,人們嘗試藉助多臂老虎機問題所帶來的啟發。多臂老虎機問題旨在於“探索-利用”間做出最優的權衡,為此諸多經典演算法被相繼提出。儘管不同的演算法有著不同的實施機制,它們的設計都本著一個共同的原則。

具體說來,系統在做出推薦的時候會綜合考慮物品的推薦效用以及累積嘗試。較高的推薦效用預示著較低的探索開銷,而較低的累積嘗試則表明較高的不確定性。為此,不同的演算法都會設計特定的整合機制,使得同時具備較高推薦效用與不確定性物品可以得到優先嚐試。

      乾貨|個性化推薦系統五大研究熱點之強化學習(三)

2. 動態場景下的強化推薦

在多臂老虎機的設定場景下,使用者的實時特徵被假設為固定不變的,因此演算法並未涉及使用者行為發生動態遷移的情況。然而對於諸多現實中的推薦場景,使用者行為往往會在互動過程中不斷變化。這就要求推薦系統依照使用者反饋精確估計其狀態發展,併為之制定優化的推薦策略。

具體來講,一個理想的推薦系統應滿足如下雙方面的屬性。一方面,推薦決策需要充分基於使用者過往的反饋資料;另一方面,推薦系統需要優化整個互動過程之中的全域性收益。強化學習為實現上述目標提供了有力的技術支援。

乾貨|個性化推薦系統五大研究熱點之強化學習(三)

在強化學習的框架之下,推薦系統被視作一個智慧體(agent),使用者當前的行為特徵被抽象成為狀態(state),待推薦的物件(如候選新聞)則被當作動作(action)。在每次推薦互動中,系統依據使用者的狀態,選擇合適的動作,以最大化特定的長效目標(如點選總數或停留時長)。推薦系統與使用者互動過程中所產生的行為資料被組織成為經驗(experience),用以記錄相應動作產生的獎勵(reward)以及狀態轉移(state-transition)。基於不斷積累的經驗,強化學習演算法得出策略(policy),用以指導特定狀態下最優的動作選取。

我們近期將強化學習成功應用於必應個性化新聞推薦(DRN: A Deep Reinforcement Learning Framework for News RecommendationWWW 2018)。得益於演算法的序列化決策能力及其對長效目標的優化,強化學習必將服務於更為廣泛的現實場景,從而極大地改善推薦系統的使用者感知與個性化能力。

強化推薦的機遇與挑戰

強化學習推薦演算法尚有諸多富有挑戰性的問題亟待解決。

現行主流的深度強化學習演算法都試圖避開對環境的建模,而直接進行策略學習(即model-free)。這就要求海量的經驗資料以獲取最優的推薦策略。然而,推薦場景下的可獲取的互動資料往往規模有限且獎勵訊號稀疏(reward-sparsity),這就使得簡單地套用既有演算法難以取得令人滿意的實際效果。如何運用有限的使用者互動得到有效的決策模型將是演算法進一步提升的主要方向。

此外,現實中人們往往需要對不同推薦場景進行獨立的策略學習。不同場景下的策略互不相同,這就使得人們不得不花費大量精力以對每個場景都進行充分的資料採集。同時,由於不具備通用性,既有策略難以迅速適應新的推薦場景。面對這些挑戰,人們需要儘可能地提出通用策略的學習機制,以打通演算法在不同推薦場景間的壁壘,並增強其在變化場景中的魯棒性(robustness)。

下一篇文章我們將圍繞“推薦系統中的使用者畫像”的研究展開討論。想要了解關於推薦系統的更多研究熱點,還請持續關注。

相關閱讀:

乾貨|個性化推薦系統五大研究熱點之知識圖譜(二)

乾貨 | 個性化推薦系統五大研究熱點之深度學習(一)

搭建推薦系統快速入門,只需五步!

歡迎大家點贊、收藏,將更多技術知識分享給身邊的好友——你的認可就是我們努力的方向。

本賬號為第四正規化智慧推薦產品先薦的官方賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在把更多與人工智慧相關的知識分享給公眾,從專業的角度促進公眾對人工智慧的理解;同時也希望為人工智慧相關人員提供一個討論、交流、學習的開放平臺,從而早日讓每個人都享受到人工智慧創造的價值。

第四正規化每一位成員都為人工智慧落地貢獻了自己的力量,在這個賬號下你可以閱讀來自計算機領域的學術前沿、知識乾貨、行業資訊等。

如欲瞭解更多,歡迎搜尋關注官方微博、微信(ID:dsfsxj)賬號。


相關文章