在電子商務領域,CLTV 預測是一個非常重要的問題,能幫助零售商更好地調整營銷宣傳策略,保留高價值客戶。研究表明特徵學習能幫助 CLTV 建模達到更好的效果。本文解讀了線上服裝購物網站 ASOS.com 的相關研究《Customer Lifetime Value Prediction Using Embeddings》。
論文地址:https://arxiv.org/abs/1703.02596
引言
該論文是在 RE·WORK 零售與廣告深度學習峰會(倫敦)期間釋出的。其描述了線上服裝購物網站 ASOS.com 部署的客戶生命週期價值(CLTV)預測系統。對於電子商務公司來說,能夠更好地預測 CLTV 具有非常大的商業價值。這篇論文詳細解釋了使用嵌入的特徵學習的相關研究成果、系統架構和模型表明提升。
CLTV 是什麼?
CLTV,即客戶生命週期價值(Customer Life Time Value),是指與一個客戶的整體未來關係所帶來的淨利潤預測。換句話說,它表示的是用金錢衡量的每個客戶的價值。這個資訊可被用於判斷獲取客戶的適當成本以及對現有客戶的保留開支。
CLTV 的概念可以根據不同的需求按不同的方式定義。在 ASOS,CLTV 的定義是一年中銷售額減去回報的淨支出。提供這一年期間的預測 CLTV 能為企業提供可據此採取行動的見解。由此,CLTV 預測的問題得到了定義。CLTV 的訓練和預測時間尺度被設定為:
圖 1:CLTV 的訓練和預測時間尺度。該模型每天都使用來自過去兩年的客戶資料進行再訓練。標籤是過去一年的淨客戶支出。模型引數在訓練期間學習得到,並會在實時系統中被用於根據新特徵預測 CLTV。
如圖 1 所示,訓練的標籤是 CLTV,定義為過去一年(過去 12 個月)的淨支出。訓練特徵來自過去一年(-12 個月)到過去兩年(-24 個月)期間,這個階段與標籤無交集。過去一年(過去 12 個月)的特徵被用於得到預測。
CLTV 建模相關研究
對客戶行為的研究幾十年前就已經開始。由於缺乏資料,早期的模型能力有限,而且往往需要使用嚴格的假設來擬合簡單的引數統計模型。直到世紀之交,有了大規模電子商務平臺提供的資料,基於真實資料的新方法才被開發出來並得到測試。
分佈擬合方法
已知的第一個 CLTV 統計模型是“購物至死(BTYD:Buy 'Til You Die)”模型。其使用了引數分佈來建模 CLTV。眾所周知的 Pareto/NBD [1] 則假設了指數式分佈的活動持續時間和泊松分佈的購買頻率。為了讓這種方法更有用,研究者還提出了兩項改進 [2,3]。
“最近消費-消費頻率-消費金額(RFM:Recency-Frequecy-Monetary)”價值模型 [4] 是 BTYD 的一種擴充套件方法。其根據最近一次購買情況(最近消費)、購買次數(消費頻率)和購買價值(消費金額)來執行 CLTV 估計。儘管如此,它在最近消費和消費頻率上是基於 Pareto/NBD 的,消費金額則遵循一個獨立的 gamma/gamma 分佈。
機器學習方法
儘管在分佈擬合上很成功,但卻難以將現代電子商務平臺上大量可用的客戶資料(比如網路瀏覽資料)整合進 RFM/BYTD 中。因此,我們向面向機器學習的方法前進。
ASOS 的當前模型和架構
目前,ASOS 部署了一個來自 Apache Spark 的隨機森林模型。其已經收集了客戶的人口統計資訊、購物情況、退貨、產品資訊並使用了人工創造的特徵。其中的機器學習流程訓練了兩個模型:客戶流失分類和 CLTV 迴歸。在經過調節校準後,整個系統能為企業相關者提供預測。
ASOS 最近的開發成果是使用嵌入來獲取來自網頁/應用會話的資訊作為當前模型中的特徵。這部分之後再討論。
下圖是 CLTV 系統的示意圖:
在當前的隨機森林模型中,該論文作者提到了特徵的重要性。通過這種方式,他們發現了很多有趣的讓人驚訝的見解:
- 訂單和會話日期的標準偏差
- 從新集合中購買的商品的數量
即使沒有嵌入實現的特徵,ASOS 的 CLTV 系統已經能給出很好的結果了:
- 對於 CLTV 模型,斯皮爾曼等級相關係數 [5] 為 0.56,其評估的是預測值和實際值之間的單調關係(越高越好,+1 表示完美的單調關係)。
- 流失預測的 AUC 是 0.795
使用特徵學習改進 CLTV 模型
其目標是補充當前的人工設計的特徵。深度學習和降維等自動特徵學習有助於克服人工設計的特徵的某些侷限性。因此 ASOS 嘗試了兩種方法:
- 他們在客戶產品評論上應用了無監督神經嵌入來生成隱含特徵,然後將它們用於補充隨機森林模型的特徵集。
- 他們在人工設計的特徵上訓練了一個深度神經網路(DNN)來學習更高階的特徵表徵。
使用會話的客戶嵌入
該方法延展了一種自然語言處理(NLP)神經嵌入方法:SGNS(使用負取樣的 SkipGram)。word2vec 就使用了這種方法。也能找到其在幾個相關領域內的應用,比如 item2vec、prod2vec、 bagged-prod2vec。
這樣做背後的直覺理解是:高價值客戶往往會瀏覽更高價值的產品、更少的流行產品以及市場上可能不是最低價的產品;相對而言,低價值客戶往往會集中在促銷期間的產品或定價低於市場的產品上。這就是使用 NLP 的 SGNS 的原因,它會試圖獲取特定的語境以及接下來的(相關的)詞應該是什麼。
在實踐中,需要做出三個關鍵的設計決定:
- 如何定義語境
- 如何從語境中生成客戶對
- 如何生成負樣本
看看上圖,我們就知道了答案:語境是客戶在每款產品上的購買序列。客戶對會在語境視窗中生成。另外,這裡還繪出了負客戶樣本。然後,可以學習到一個加權的矩陣。
ASOS 遇到了一個問題:由於隨機性,所學習到的嵌入在訓練和預測上不匹配。為了解決這一問題,ASOS 使用了不同的矩陣初始化方式:
- 對於在訓練階段給出的客戶:使用訓練嵌入完成初始化。
- 對於新客戶:通過在一個相比於訓練嵌入相對小規模的嵌入中取出的均勻的隨機值完成初始化。
下面的圖表展示了嵌入在隨機森林模型上的提升:
圖 2:具有不同數量隱藏層神經元的深度前饋神經網路和混合模型在 50000 個客戶的測試集上得到的受試者工作特徵曲線下最大區域。誤差線表示樣本均值的 95% 置信區間。隱藏層神經元的數量的記錄方式為:神經網路 [x,y] 中 x 和 y 分別表示第一和第二個隱藏層中的神經元數量;神經網路 [x,y,z] 中 x、y 和 z 分別表示第一、第二、第三個隱藏層中的神經元數量
人工設計的特徵的嵌入
使用深度神經網路替代隨機森林的原因是 DNN 近來在視覺、語音識別和推薦系統上取得了成功。但是,雖然結果表明 DNN 也許能提升表現,但訓練模型的資金成本超過其帶來的效益增益。
圖3:具有不同數量隱藏層神經元的混合模型在 50000 個客戶的測試集上得到的受試者工作特徵曲線(AUC)下最大區域(對數座標)。誤差線表示樣本均值的 95% 置信區間。下面(綠色)和上面(紅色)的橫線分別表示最簡單的 logistic 迴歸模型(LR)和我們的隨機森林模型(RF)在同一個客戶集上得到的最大 AUC。陰影部分的虛線表示對更大架構的不同預測情況。
圖 2 展示了 DNN(2 個隱藏層)相比於 LR(logistic 迴歸)和 RF(隨機森林)的基準(AUC)。當神經元數量更多時,DNN 有可能會優於 RF。
圖 4:在 100 000 個客戶的訓練集上訓練混合模型時,平均資金成本相對隱藏層中神經元數量的變化情況(均為對數座標)。這裡給出的訓練成本是相對於訓練我們的隨機森林(RF)模型的成本。這裡我們僅考慮有兩個隱藏層的混合模型,其中每一層都有同等數量的神經元。下面(綠色)和上面(紅色)的橫線分別表示最簡單的 logistic 迴歸模型(LR)和我們的隨機森林模型(RF)在同一個客戶集上平均訓練成本。
但不幸的是,隨著神經元數量的增長,訓練 DNN 的成本增長速度非常快,如上圖所示。
分析師簡評
CLTV 建模能為決策者提供非常有用的見解。ASOS 僅通過預測下一年的 CLTV,就讓企業(利息相關)能夠做到這一點。使用機器學習的現代方法提供了無需任何假設來衡量 CLTV 的方式(相比於分佈擬合方法)。它也能適應大量資料並得到更加準確的結果。此外,它也對來自 NLP 的嵌入模型(word2vec)思想進行了延展,可用於通過瀏覽會話資料來了解客戶的行為。對於網路零售公司的資料科學團隊來說,這是一篇非常有意思的論文。
參考文獻
[1] David C. Schmi lein, Donald G. Morrison, and Richard Colombo. 1987. Counting Your Customers: Who Are They and What Will They Do Next? Management Science 33, 1 (1987), 1–24. DOI:h p://dx.doi.org/10.1287/mnsc.33.1.1
[2] Albert C. Bemmaor and Nicolas Glady. 2012. Modeling Purchasing Behavior with Sudden ”Death”: A Flexible Customer Lifetime Model. Management Science 58, 5 (5 2012), 1012–1021. DOI: http://dx.doi.org/10.1287/mnsc.1110.1461
[3] Peter S. Fader, Bruce G. S. Hardie, and Ka Lok Lee. 2005. Counting Your Cus- tomers? the Easy Way: An Alternative to the Pareto/NBD Model. Marketing Science 24, 2 (2005), 275–284. DOI: http://dx.doi.org/10.1287/mksc.1040.0098
[4] Peter S. Fader, Bruce G. S. Hardie, and Ka Lok Lee. 2005. RFM and CLV: Using Iso-Value Curves for Customer Base Analysis. Journal of Marketing Research XLII, November (2005), 415–430. DOI: http://dx.doi.org/10.1509/jmkr.2005.42.4.415
[5] Spearman's rank correlation coefficient: https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient