頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

機器學習blog發表於2019-08-05

[1] Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction

ECIR 2016

Weinan Zhang, Tianming Du, Jun Wang

University College London, RayCloud Inc.

https://arxiv.org/pdf/1601.02376.pdf

預測使用者響應,比如點選率和轉化率,在很多 Web 應用程式中非常重要,這些的web應用程式包括 Web 搜尋、個性化推薦和線上廣告等。跟影像和音訊域中的連續特徵不同,Web 空間中的輸入特徵通常包含多個域,並且大多是離散和類別型特徵,而這些特徵之間的依賴性並不顯而易見。

大部分使用者響應預測模型通常是線性模型,或者需要手動構建高階組合特徵。線性模型無法探索特徵之間的互動,如果構建高階組合特徵則會導致計算量非常大。

為解決這個問題,作者提出兩種使用深度神經網路(DNN)的新模型,進而可以從類別型特徵的互動中自動學習有效的模式,進而預測使用者的廣告點選量。

為使本文所提出的DNN比較高效,作者們利用三種特徵轉換方法,即分解機 (FM)、受限玻爾茲曼機器(RBM) 和去噪自編碼 (DAE)。本文不僅介紹了所提模型的結構及其有效的訓練演算法。

在真實資料上的大量實驗表明,本文所提方法比主要的先進模型效果更好。

本文提出的FNN結構示例如下,其中FNN為Factorisation Machine supported Neural Network

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

本文提出的SNN結構及預訓練方法示例如下,其中SNN為Sampling-based Neural Network

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

幾種方法的AUC對比如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

不同網路結構的AUC對比如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

不同的正則方法AUC對比如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

程式碼地址

https://github.com/wnzhang/deep-ctr

[2] Product-based Neural Networks for User Response Prediction

ICDM 2016

Yanru Qu, Han Cai, Kan Ren, Weinan Zhang, Yong Yu, Ying Wen, Jun Wang

Shanghai Jiao Tong University, University College London

https://arxiv.org/pdf/1611.00144.pdf

預測使用者響應,比如點選和轉化等,非常重要。在許多 Web 應用程式中,包括推薦系統、Web 搜尋和線上廣告等領域中都需要預測使用者響應。這些應用中的資料大部分是類別型資料,並且包含多個域,針對類別型資料,通常的做法是透過one-hot編碼將其轉換為高維表示,該表示是稀疏的,而且是二進位制的。

針對極端的稀疏性,傳統模型從資料中挖掘淺層模式的能力比較有限,這裡的淺層模式即為低階特徵組合;深層神經網路等深度模型由於特徵空間較大,不能直接應用於高維輸入。

本文提出內積神經網路(PNN),該網路帶有一個嵌入層,用於學習類別型資料的分散式表示,一個用於提取各個域之間類別型特徵互動模式的內積層,還有多個完全連線層用於探索高階特徵互動。

在兩個大型真實廣告點選資料集上的實驗結果表明,PNN 在各種指標上都優於最先進的模型。

基於內積的神經網路結構圖示如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

在兩個資料集(Criteo 和 iPinYou)上多種方法的效果比較如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

FNN對應的論文為

Deep learning over multi-field categorical data: A case study on user response prediction, ecir 2016

程式碼地址

https://github.com/wnzhang/deep-ctr

CCPM對應的論文為

A convolutional click prediction model, cikm 2015

不同的dropout影響如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

幾種方法在資料集iPinYou上的學習曲線對比如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

網路深度對模型的效果影響圖示如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

不同的啟用函式型別(sigmoid,tanh以及relu)對模型的影響如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

程式碼地址

https://github.com/Atomu2014/product-nets

[3] Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks

IJCAI 2017

Jun Xiao, Hao Ye, Xiangnan He, Hanwang Zhang, Fei Wu, Tat-Seng Chua

Zhejiang University, National University of Singapore

https://arxiv.org/pdf/1708.04617.pdf

分解機 (FM) 是一種有監督的學習方法,該方法能夠透過加入二階特徵互動來增強線性迴歸模型。雖然FM的效果顯著,但它會因為對具有相同權重的所有特徵互動進行建模而有所限制,因為並非所有特徵互動都同樣有用,而且並非所有特徵互動都具有預測性。例如,無用特徵的互動可能會引入噪聲並降低模型的效能。

本論文透過區分不同特徵互動的重要性來改進 FM。作者們提出了注意力分解機(AFM),這種模型透過神經注意力網路從資料中學習每個特徵互動的重要性。

在兩個真實資料集上的廣泛實驗表明了 AFM 的有效性。在迴歸問題中, AFM相對FM有8.6%的提升,並優於最先進的深度學習方法 Wide & Deep和 DeepCross,另外,AFM的結構和模型引數更少。

AFM的結構圖示如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

不同的dropout對模型的效果影響如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

不同程度的正則對模型的效果影響如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

不同程度的注意力因子對應的效果對比如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

訓練和測試誤差隨迭代次數的變化趨勢對比如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

不同方法的引數和測試誤差對比如下

頂會中深度學習用於CTR預估的論文及程式碼集錦 (1)

HOFM對應的論文為

Higher-order factorization machines, nips 2016

程式碼地址

https://github.com/geffy/tffm

程式碼地址

https://github.com/hexiangnan/attentional_factorization_machine

相關文章