[1] Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction
ECIR 2016
Weinan Zhang, Tianming Du, Jun Wang
University College London, RayCloud Inc.
https://arxiv.org/pdf/1601.02376.pdf
預測使用者響應,比如點選率和轉化率,在很多 Web 應用程式中非常重要,這些的web應用程式包括 Web 搜尋、個性化推薦和線上廣告等。跟影像和音訊域中的連續特徵不同,Web 空間中的輸入特徵通常包含多個域,並且大多是離散和類別型特徵,而這些特徵之間的依賴性並不顯而易見。
大部分使用者響應預測模型通常是線性模型,或者需要手動構建高階組合特徵。線性模型無法探索特徵之間的互動,如果構建高階組合特徵則會導致計算量非常大。
為解決這個問題,作者提出兩種使用深度神經網路(DNN)的新模型,進而可以從類別型特徵的互動中自動學習有效的模式,進而預測使用者的廣告點選量。
為使本文所提出的DNN比較高效,作者們利用三種特徵轉換方法,即分解機 (FM)、受限玻爾茲曼機器(RBM) 和去噪自編碼 (DAE)。本文不僅介紹了所提模型的結構及其有效的訓練演算法。
在真實資料上的大量實驗表明,本文所提方法比主要的先進模型效果更好。
本文提出的FNN結構示例如下,其中FNN為Factorisation Machine supported Neural Network
本文提出的SNN結構及預訓練方法示例如下,其中SNN為Sampling-based Neural Network
幾種方法的AUC對比如下
不同網路結構的AUC對比如下
不同的正則方法AUC對比如下
程式碼地址
https://github.com/wnzhang/deep-ctr
[2] Product-based Neural Networks for User Response Prediction
ICDM 2016
Yanru Qu, Han Cai, Kan Ren, Weinan Zhang, Yong Yu, Ying Wen, Jun Wang
Shanghai Jiao Tong University, University College London
https://arxiv.org/pdf/1611.00144.pdf
預測使用者響應,比如點選和轉化等,非常重要。在許多 Web 應用程式中,包括推薦系統、Web 搜尋和線上廣告等領域中都需要預測使用者響應。這些應用中的資料大部分是類別型資料,並且包含多個域,針對類別型資料,通常的做法是透過one-hot編碼將其轉換為高維表示,該表示是稀疏的,而且是二進位制的。
針對極端的稀疏性,傳統模型從資料中挖掘淺層模式的能力比較有限,這裡的淺層模式即為低階特徵組合;深層神經網路等深度模型由於特徵空間較大,不能直接應用於高維輸入。
本文提出內積神經網路(PNN),該網路帶有一個嵌入層,用於學習類別型資料的分散式表示,一個用於提取各個域之間類別型特徵互動模式的內積層,還有多個完全連線層用於探索高階特徵互動。
在兩個大型真實廣告點選資料集上的實驗結果表明,PNN 在各種指標上都優於最先進的模型。
基於內積的神經網路結構圖示如下
在兩個資料集(Criteo 和 iPinYou)上多種方法的效果比較如下
FNN對應的論文為
Deep learning over multi-field categorical data: A case study on user response prediction, ecir 2016
程式碼地址
https://github.com/wnzhang/deep-ctr
CCPM對應的論文為
A convolutional click prediction model, cikm 2015
不同的dropout影響如下
幾種方法在資料集iPinYou上的學習曲線對比如下
網路深度對模型的效果影響圖示如下
不同的啟用函式型別(sigmoid,tanh以及relu)對模型的影響如下
程式碼地址
https://github.com/Atomu2014/product-nets
[3] Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks
IJCAI 2017
Jun Xiao, Hao Ye, Xiangnan He, Hanwang Zhang, Fei Wu, Tat-Seng Chua
Zhejiang University, National University of Singapore
https://arxiv.org/pdf/1708.04617.pdf
分解機 (FM) 是一種有監督的學習方法,該方法能夠透過加入二階特徵互動來增強線性迴歸模型。雖然FM的效果顯著,但它會因為對具有相同權重的所有特徵互動進行建模而有所限制,因為並非所有特徵互動都同樣有用,而且並非所有特徵互動都具有預測性。例如,無用特徵的互動可能會引入噪聲並降低模型的效能。
本論文透過區分不同特徵互動的重要性來改進 FM。作者們提出了注意力分解機(AFM),這種模型透過神經注意力網路從資料中學習每個特徵互動的重要性。
在兩個真實資料集上的廣泛實驗表明了 AFM 的有效性。在迴歸問題中, AFM相對FM有8.6%的提升,並優於最先進的深度學習方法 Wide & Deep和 DeepCross,另外,AFM的結構和模型引數更少。
AFM的結構圖示如下
不同的dropout對模型的效果影響如下
不同程度的正則對模型的效果影響如下
不同程度的注意力因子對應的效果對比如下
訓練和測試誤差隨迭代次數的變化趨勢對比如下
不同方法的引數和測試誤差對比如下
HOFM對應的論文為
Higher-order factorization machines, nips 2016
程式碼地址
https://github.com/geffy/tffm
程式碼地址
https://github.com/hexiangnan/attentional_factorization_machine