【編者按】微軟亞洲研究院社會計算組的研究員們從深度學習、知識圖譜、強化學習、使用者畫像、可解釋性推薦等五個方面,展望了未來推薦系統發展的方向。
在前三篇文章中,我們分別介紹了深度學習、知識圖譜、強化學習在推薦系統中的應用以及未來可能的研究方向。在今天的文章中,我們將介紹推薦系統中的使用者畫像。
推薦系統中的使用者畫像
構建推薦系統的核心任務之一在於如何準確地分析出使用者的興趣特點,也就是我們常說的使用者畫像。
簡單說來,使用者畫像是指從使用者產生的各種資料中挖掘和抽取使用者在不同屬性上的標籤,如年齡、性別、職業、收入、興趣等。完備且準確的屬性標籤將有力地揭示使用者本質特徵,因而極大地促進精準的個性化推薦。
使用者畫像研究的現狀和挑戰
目前,主流使用者畫像方法一般是基於機器學習尤其是有監督學習的技術。這類方法從使用者資料中抽取特徵來作為使用者的表示向量,並利用有使用者屬性標籤的資料作為有標註資料來訓練使用者畫像預測模型,從而對更多的沒有標籤的使用者的屬性進行預測。
儘管目前的使用者畫像方法已經取得了不錯的效果並被廣泛應用於實際推薦系統中,這些方法仍然存在一定的問題和挑戰:
首先,這些已有的方法大多數都基於手工抽取的離散特徵,這些特徵無法刻畫使用者資料的上下文資訊,因此對於使用者的表徵能力較為有限。
其次,現有的使用者畫像方法通常基於簡單的線性迴歸或分類模型,無法從使用者資料中自動學習高層次抽象特徵,也無法對特徵之間的互動關係進行建模。另外,已有的使用者畫像方法往往基於單一型別和單一來源的資料,這些資料對於使用者的表徵不夠豐富。而實際上,使用者資料往往是多來源和多型別的。
最後,已有的使用者畫像方法大都沒有考慮使用者屬性標籤的時效性,因此很難刻畫使用者動態變化的屬性如興趣等。
從多源異構使用者資料中構建深度、統一和動態的使用者畫像
為了應對上述挑戰,我們認為應該從以下方面展開使用者畫像研究:
1. 構建具有更強表徵能力的使用者表示模型。
隨著深度學習技術的發展和成熟,利用深層神經網路從使用者原始資料中自動抽取深層次的、有資訊量的特徵來構建使用者的特徵表示能夠有助於更加充分地利用使用者資料並有效提升使用者畫像的精度。
使用基於深層神經網路的使用者表示模型能夠有效克服目前已有的基於特徵工程和線性模型的使用者畫像方法的不足。我們提出的HURA模型(
2. 基於多源和異構資料的使用者畫像。使用者產生的資料往往分佈在不同的平臺,並且具有不同的結構(如無結構的社交媒體文字資料和有結構的電商網站購買記錄等)和不同的模態(如文字資料和影象資料),給使用者畫像帶來了很大的挑戰。
如何設計一個深度資訊融合模型來利用不同來源、不同結構和不同模態的使用者資料進行使用者建模,是未來使用者畫像領域的一個重要方向。
基於深度神經網路的協同學習和多通道模型可能是值得嘗試的技術。
3. 不同平臺使用者畫像資料的共享和使用者隱私保護。目前很多使用者資料存在於不同的平臺當中,例如搜尋引擎擁有使用者的搜尋和網頁瀏覽記錄,電商網站擁有使用者的商品瀏覽、購物、收藏和購買資訊。這些不同平臺的使用者資料對於使用者畫像都具有重要的價值,互相之間可以提供互補資訊,有助於構建更加豐富全面的使用者表示。
然而,平臺之間直接共享使用者資訊可能會使得使用者的隱私受到洩露和損害。如何在不轉移和不共享使用者資料的情況下,充分利用不同平臺的使用者資訊實現協同使用者畫像和建模是值得研究的一個方向。
4. 面向使用者畫像的統一使用者表示模型。已有的使用者畫像方法在實際的應用中往往會涉及大量模型的訓練、儲存和呼叫,時間和空間的複雜度都比較高,使用起來也比較繁瑣。另外,不同的使用者屬性之間潛在的聯絡也無法充分挖掘。
如何基於多源異構的使用者資料構建一個統一的使用者表示模型,使得該模型可以儘可能全面而準確地包含一個使用者在不同屬性和維度的特徵資訊並能夠應用於多個使用者畫像任務是一個非常值得研究的方向。
基於深層神經網路的多工學習技術和類似詞嵌入的使用者嵌入技術有希望能夠應用於這個問題。
下一篇文章我們將圍繞“推薦系統中的使用者畫像”的研究展開討論。想要了解關於推薦系統的更多研究熱點,還請持續關注。
相關閱讀:
歡迎大家點贊、收藏,將更多技術知識分享給身邊的好友。
本賬號為第四正規化智慧推薦產品先薦的官方賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在把更多與人工智慧相關的知識分享給公眾,從專業的角度促進公眾對人工智慧的理解;同時也希望為人工智慧相關人員提供一個討論、交流、學習的開放平臺,從而早日讓每個人都享受到人工智慧創造的價值。
第四正規化每一位成員都為人工智慧落地貢獻了自己的力量,在這個賬號下你可以閱讀來自計算機領域的學術前沿、知識乾貨、行業資訊等。
如欲瞭解更多,歡迎搜尋關注官方微博、微信(ID:dsfsxj)公眾號。