Office Depot使用Apache Spark和Analytics Zoo上的分散式Keras實現實時產品推薦

AnalyticsZoo發表於2019-09-03

原文網址 : https://www.jiqizhixin.com/articles/2019-09-03-2

背景

Office Depot（納斯達克股票程式碼：ODP）是一家領先的B2B綜合分銷公司，成立於1986年，在美國有1800人的專業銷售隊伍、1350個零售網點和數十個第三方物流合作伙伴，為中小企業提供產品、服務和技術解決方案。通過旗下品牌Office Depot、OfficeMax*、Compucom*和Grand&Toy為客戶提供他們所需的工具和資源，專注於他們創業、成長和經營業務的熱情。

Office Depot希望從傳統的基於規則的供應商推薦解決方案轉向自主開發更智慧的深度學習推薦解決方案，該解決方案可以根據客戶的實時會話行為做出個性化的推薦決策。在這項工作中，我們面臨著使用大量大規模clickstream資料訓練深度神經網路（DNNs）的挑戰。在Office Depot電子商務平臺上銷售的活躍產品超過30萬件，每月產生超過1億個不同的會話控制。目前，Office Depot採用Apache Spark生態系統作為大資料平臺，使用Sparse MLlib開發機器學習模型，但在現有的Apache Spark生態系統上，我們很難大規模地訓練和利用深度學習模型。

新開發的DNNs通過捕獲許多行業中使用者項資料集的非線性關係，已不斷被證明能作為成功的推薦系統。經驗證據表明，使用深層DNNs可以提供更好的推薦效能^[2,3,4]。因此，在現有的大資料平臺和管道上應用DNNs的推薦系統對於像Office Depot這樣的電子商務行業來說至關重要。

在這個部落格中，我們會詳細介紹如何使用Analytics Zoo和Apache Shark上的分散式Keras，在AWS上大規模構建端到端的推薦流系統。

Analytics Zoo 解決方案

Analytics Zoo^[1], Intel開源的一個統一的分析和人工智慧平臺，將Spark、TensorFlow、Keras和BigDL^[5] 程式無縫地整合到一個整合的管道中；然後整個管道可以透明地擴充套件到一個大型Hadoop/Spark叢集中進行分散式深度學習訓練和推理，而無需額外的GPU基礎設施。

Office Depot使用Apache Spark和Analytics Zoo上的分散式Keras實現實時產品推薦

圖1 office depot推薦系統的端到端流程

推薦系統在AWS上執行的端到端流程包括訓練和推理 (圖1)。

1. 首先，系統會在AWS上使用Spark對clickstream資料進行預處理，使用Spark原生StringIndexer和Pipeline對所有產品和使用者進行索引，產生對應的ID作為模型訓練的特徵，並進一步使用Mleap儲存pipeline模型。

val userIndexer = new StringIndexer().setInputCol("strUserId").setOutputCol("userId")
val itemIndexer = new StringIndexer().setInputCol("strItemId").setOutputCol("itemId")
val pipelineEstimator: Pipeline = new Pipeline()
.setStages(Array(userIndexer, itemIndexer))
val plModel: PipelineModel = pipelineEstimator.fit(df)

2. 系統進一步將特徵轉換成Analytics Zoo推薦模型需要的RD[Sample]。對於session recommender，每個session的特性都預先設定了一個為10的長度。

3. 使用Analytics Zoo大規模訓練不同的DNNs，包括神經協同過濾（NCF）網路、廣域和深度（WND）網路和基於迴圈神經網路的session recommender（RNN，圖2），並將模型儲存在AWS S3上。目前，Analytics Zoo為不同的用例提供了3個內建的recommender models。

Office Depot使用Apache Spark和Analytics Zoo上的分散式Keras實現實時產品推薦圖2 基於RNN的Session recommender

val model = SessionRecommender[Float](itemCount, itemEmbed, maxLength)
model.compile(loss="mse", optimizer= "adam")
model.fit(data, nbEpoch=20)
model.saveModel(modelPath)

4. 最後，系統載入了第一步已經儲存的管道模型，將產品轉化為ID，然後載入第三步儲存的推薦模型，使用BigDL^[5] 的LocalPredictor在WebService上進行推理。為每個客戶的產品推薦是基於特定產品新增到其購物車中的概率排名。推理流通過利用play framework有效地擴充套件。用LocalPredictor推理並不依賴Spark，從而大大加快了響應延遲。

val model = LocalPredictor(Module.loadModule[Float](bigDLModelPath))
model.recommenderForUsers(data, 5)

結果和討論

模型通過離線效能比較和線上A/B測試進行評估。

Model	ALS	NCF	Wide and Deep	Session recommender
Top 5 Accuracy	16.2%	46.7%	45.2%	52.3%

圖表1 不同推薦系統的離線效能比較

離線效能比較（圖表1）表明，通過採用基於DNN的Analytics Zoo解決方案的端到端流程，我們發現與ALS等傳統推薦演算法相比，準確性有了顯著提高。與ALS相比，NCF通過捕獲使用者和產品之間的非線性關係，將前5位精度從16.2%提高到46.7%。與NCF相比，WND模型前5位精度具有一定的競爭力。為了瞭解使用者與產品之間的非線性關係，我們基於DNN再增加了一個寬度模型來學習使用者的屬性，包括忠誠度指標，Office Depot卡使用者標識等。使用者屬性的噪聲，也被新增到WND中的訓練過程中，以至於WND的精度相比NCF有一點下降。

根據Wu^[4]的發表論文指出，電子商務系統中的每個使用者session都可以被作為一系列的網頁來建模，深度RNN可以通過使用多個隱藏層來學習跟蹤使用者瀏覽網站（圖2），每個隱藏層都模擬瞭如何訪問網頁組合以及按什麼順序訪問。通過使用Analytics Zoo構建基於兩層GRU的session recommender，我們的前5名精度相比在NCF和WND的基礎上提高了6%以上。

我們已在OfficeDepot的官方網站上部署了session recommender，並針對當前基於規則的推薦器系統執行了兩週多的線上A/B測試。與當前的recommender相比，session recommender顯示銷售額和平均訂單價值分別上升了1%和1.6%。

結論

本文簡要介紹了Office Depot在構建基於DNN的推薦系統以增加線上銷售方面面臨的挑戰。然後，我們提出了一個執行在AWS上，使用Analytics Zoo構建了端到端深度學習管道，其中我們採用了Analytics Zoo內建的基於DNN的recommender來建模。最後，我們展示了線上和離線評估結果，發現基於RNN的session recommender極大的提升了銷售額和平均訂單價值。類似的session recommender也可能會在電子商務的其他案例中發揮關鍵作用。更多的示例和API在Analytics Zoo Model Recommendation 。

參考文獻

Analytics Zoo
X He, L Liao, H Zhang, etc., 2015, Neural Collaborative Filtering
H-T Cheng, 2016, Wide & Deep Learning: Better Together with TensorFlow
S Wu, W Ren, C Yu, etc. 2016, Personal Recommendation Using Deep Recurrent Neural Networks in NetEase
BigDL
J Dai, Y Wang, X Qiu, etc., 2018, BigDL: A Distributed Deep Learning Framework for Big Data

Talroo使用Analytics Zoo和AWS利用深度學習在工作推薦上的應用
2019-04-12
深度學習
使用CRDT實現分散式事務的資料推薦
2019-04-03
分散式
Analytics Zoo Cluster Serving自動擴充套件分散式推理
2020-09-19
套件分散式
基於Intel Analytics Zoo上分散式TensorFlow的美的 / KUKA工業檢測平臺
2018-09-28
Intel分散式
Spark推薦系統實踐
2021-01-12
Spark
Apache ShardingSphere 如何實現分散式事務
2022-04-20
Apache分散式
使用Intel Analytics Zoo增強騰訊TUSI身份識別的實踐
2019-05-28
Intel
分散式機器學習框架與高維實時推薦系統
2020-07-20
分散式機器學習框架
寶信利用Spark Analytics Zoo對基於LSTM的時間序列異常檢測的探索
2018-09-28
Spark
Redis分散式鎖的原理和實現
2021-08-23
Redis分散式
office哪個版本最好用 office最穩定實用的版本推薦
2022-09-02
機器學習專案 - 使用 Apache Spark 建立電影推薦引擎
2021-12-24
機器學習ApacheSpark
Keras上實現Softmax迴歸模型
2020-04-06
Keras模型
使用 Redis 實現分散式速率限制
2018-12-16
Redis分散式
如何使用Redis實現分散式鎖
2024-07-17
Redis分散式
使用Redis實現分散式會話
2021-09-15
Redis分散式會話
FreeRedis分散式鎖實現以及使用
2021-03-10
Redis分散式
使用Spring Cloud Sleuth和OpenTelemetry實現分散式跟蹤
2021-11-09
SpringCloud分散式
Redis分散式鎖的使用與實現原理
2020-11-21
Redis分散式
seata分散式事務TCC模式介紹及推薦實踐
2021-12-31
分散式模式
用 Intel Analytics Zoo/BigDL 為客服平臺新增 AI 的實踐（一）
2018-09-28
IntelAI
在Kubernetes上使用Spring Boot實現Hazelcast分散式快取 – Piotr
2020-02-22
Spring BootAST分散式快取
Keras上實現AutoEncoder自編碼器
2020-04-06
Keras
當Spark遇上TensorFlow分散式深度學習框架原理和實踐
2018-04-16
Spark分散式深度學習框架
使用Redis分散式鎖實現主備
2020-05-30
Redis分散式
使用Spring Boot實現分散式事務
2024-07-13
Spring Boot分散式
Springboot中使用Redisson實現分散式鎖
2021-10-10
Spring BootRedis分散式
實現分散式鎖
2019-02-24
分散式
LightDB分散式實現
2022-05-29
分散式
分散式鎖實現
2021-09-07
分散式
keras實現MobileNet
2020-11-27
Keras
分散式鎖的實現原理
2024-11-28
分散式
redis分散式鎖的實現
2023-02-23
Redis分散式
ZooKeeper分散式鎖的實現
2021-06-29
分散式
分散式鎖的實現方案
2021-03-11
分散式
實時計算如何幫助淘寶實現線上「實時選品」？
2018-10-29
推薦系統入門之使用協同過濾實現商品推薦
2021-03-11
產品管理和產品戰略相關書籍推薦
2022-05-21

Office Depot使用Apache Spark和Analytics Zoo上的分散式Keras實現實時產品推薦

相關文章