背景
使用者冷啟動一直是推薦系統中的一個難題,新使用者(或非活躍使用者)由於缺少行為資料,模型預估不準確。為了改善使用者冷啟動,騰訊提出了User Interest Enhancement (UIE)模型(論文中提到也可以用於item的冷啟動)。基本思想是先對使用者聚類,然後用user embedding檢索最相似的k個聚類中心來表示使用者屬性,其實就是用相似使用者來補充冷啟使用者的興趣表示。
模型結構
模型結構如上圖所示,論文采用了PLE模型作為主模型框架,模型主要變化在於使用UIE結構生成了3個enhancement vector來加強使用者的興趣表示
UIE主要包含3個部分:
1. User Profile Enhancement (UPE)
2. User Consump- tion Behavior Enhancement (UCBE)
3. User Consumption Se- quence Enhancement (UCSE)
User Profile Enhancement (UPE)
UPE的結構如上圖最左部分所示:
1. 首先透過一個輔助tower得到user profile vector(輔助tower embedding和主模型共享,為了不影響主模型,輔助tower不回傳梯度到embedding)
2. 更新聚類中心,訓練之前,會對N個聚類中心進行隨機初始化(每個聚類中心是一個d維的),然後會按如下公式更新聚類中心:
其中𝜌 是更新率,是個超引數,vj是第j維使用者屬性向量,uij是第i個聚類中心向量的第j維
這個公式論文描述有點模糊,沒怎麼看懂,看論文描述應該是:第n+1步的聚類中心=是第n步聚類中心+𝜌 *該聚類中心所有使用者向量的均值
論文還提到,為了加快計算速度以及平衡不同型別使用者對聚類中心的影響(防止被活躍使用者主導),會對不同型別的使用者做均勻取樣
3. 使用使用者向量檢索出最相似的k1個聚類中心,為了保證檢索出來的聚類中心和使用者向量是正相關的,會對相似度是負的聚類向量置0
4. 使用attention方法生成增強向量,然後拼接personal vector透過generalization layer生成最終的使用者增強向量
User Consumption Behavior Enhancement (UCBE)
1. 透過輔助tower得到使用者正反饋行為的item embedding
2. 使用item embedding檢索最相似的k2個聚類中心向量
3. 增量更新personalized enhancement vectors
4. 使用user id embedding向量檢索出最相似的personalized enhancement vectors作為最終的增強向量
User Consumption Sequence Enhancement (UCSE)
1. 得到使用者的行為序列(論文提到直接用的主模型訓練的使用者行為序列embedding)
2. 和UPE的計算方式類似,更新聚類中心
3. 使用target attention的方式得到最終的增強向量