機器學習增強的電子商務平臺使用者行為預測

中国人工智能开放创新平台發表於2019-04-08

1. 電子商務使用者行為分析

電子商務通常是指一種新穎的在網際網路開放的網路平臺上,消費者基於瀏覽器/伺服器應用方式進行各種商貿活動的商業運營模式。消費者在此平臺上可實現無需與賣家面對面的網上購物、交易和線上電子支付。從2013年開始,越來越多的電子商務企業更加註重通過使用網際網路為使用者提供優質的服務,並隨著電子商務越來越普及,更多人選擇在其上進行交易,因此存在著龐大客戶購買行為資料資訊等,更重要的還有消費者的評價以及反饋意見。那麼如何利用這些資料資訊分析挖掘所蘊含的使用者行為規律,從而應用於客戶購買行為預測成為研究熱點之一。準確把握客戶購買行為,能夠精確識別和定位潛在客戶群體進行,將瀏覽者變為購買者,有著極其強的現實意義和經濟價值。

電子商務客戶的購買行為預測是指根據消費者歷史訪問點選操作、伺服器日誌、瀏覽記錄以及商品反饋資訊中所蘊含的行為規律對線上客戶購買傾向進行實時預測消費者將來的行為。因此可實現針對客戶推薦商品、制定營銷策略以及決定平臺商品的進貨量與出貨量。上世紀90年代,研究者就開始對大量網路資料進行挖掘和研究,國內還專門成立資料探勘研究機構來專門分析客戶的購物行為。隨著電子商務的普及,越來越多方法被提出應用到客戶行為分析預測中,如決策樹方法、貝葉斯分類演算法、支援向量機神經網路方法及時間序列預測方法等。他們大都以資料驅動,從消費者個人資訊、商品、消費行為等多種資訊中篩選出主要因素並設計特徵,利用機器學習演算法對篩選出的資料進行模型訓練,以訓練好的模型預測消費者購買可能性最大的商品。

機器學習的本質是通過演算法在眾多的假設空間中找到一個最優的假設,預測方法是對資料從不同角度進行分析,預測方法以及處理的資料不同,客戶行為預測的效果也不同。那麼對於特定的學習問題都有與其相匹配的較合適的演算法。而在現實生活中,並沒有一個演算法可以在任何領域裡學習出準確的模型。通過整合若干多個單一演算法的學習結果形成新的組合模型,從而達到提高演算法最終學習準確率的效果的做法就越來越流行。使用何種方法來整合演算法對於提高融合後最終演算法的準確率至關重要。

2. 使用者行為分析關鍵技術

在電商平臺中,平臺往往需要對客戶網購行為進行分析及預測。電子商務平臺所具有的客戶資訊資料庫為基礎,完成對客戶網購行為的實時及針對性預測,從而體現了對客戶行為的智慧化預測。因此,作為一套完整的預測模型系統,首先需要利用資料探勘機器學習、統計學等方法進行知識發現,對資料進行特徵提取。然後以此為基礎,構建作為知識指導的知識儲存與表示的客戶網購行為知識庫,進而建立從資料輸入到預測行為的系統體系。主要研究內容如下:

(1) 消費者行為資料處理和特徵構建

首先從電子商務互動系統中抽取互動日誌,準備與消費者行為分析預測相關的資料,其次進行資料預處理,包括資料清洗、填充缺失值和去除異常值,保證資料的唯一性,從而為實現消費者行為預測提供良好的基礎保障。

(2) 消費者行為特徵構建

基於原始資料,進行提取使用者行為購買特徵,根據不同分類方法可將特徵分成原始和擴充、靜態和動態,或者將兩種或以上類別的特徵合成一個新的特徵。要得到良好預估效果,資料和特徵很大程度上決定了模型預估的上限,因此如何構建適合的特徵是為實現使用者行為分析提供良好的保障。

(3) 消費者行為預測模型

預測模型的準確性是保障消費者行為預測分析的關鍵,目前雖然有很多預測模型,但的都遠遠達不到真實情況下的準確性要求。如何利用消費者靜態或動態資料的分析進行準確預測消費者行為是極其關鍵的技術。

3. 基於深度學習的消費者購物行為分析

由於電子商務資料量大、處理複雜等處理難點,目前沒有一種模型能夠完全解決所有問題,絕大部分研究還是定性分析影響因素、構建理論模型。傳統大多采用基於Logistic迴歸的方法,但其本質是一個線性分類模型,對輸入有很高的要求,比如要求目標物件是線性可分的,但在實際中提出來的特徵關聯性強且存在複雜的非線性關係。再者就是Badding和隨機森林方法,他們的效能都或多或少受到限制。為此,我們提出一種基於深度學習的消費者購物行為分析方法,如下圖所示。

深度學習的概念由Hinton等人於2006年提出,屬於機器學習研究中的一個新的領域,為解決神經網路易陷入區域性最小和學習能力受限的問題,藉助“逐層貪婪學習”的思想,通過學習更深層次的非線性網路,並從中選取有助於機器學習的更有效的特徵,可以預測出更加精準的結果。本質是對資料的表徵學習,目標是尋求更好的表示方法並建立更好的模型來從大規模未標記資料中學習這些表示方法。

機器學習增強的電子商務平臺使用者行為預測

基於深度學習的消費者購物行為分析工作流程主要分為包括以下四個步驟:

1) 準備並處理資料集:包含使用者互動資訊採集、資料清洗等。

2) 特徵構建:分為特徵選擇、劃分樣本訓練集和測試集、特徵處理三個階段,特徵選擇是構建預測模型的關鍵,即從大量資料集中挑選對分類極為重要的特徵集進而提高模型預測精準度,減少執行時間。因不同維度選擇出的特徵量綱和單位不統一會影響評估特徵的權重,進而影響模型的預估效果、因此,需進行特徵管理來進行歸一化處理。

3) 設計預測模型並訓練:選擇基本模型框架為卷積神經網路CNN+迴圈神經網路RNN,並在其基礎上對資料的負樣本進行隨機抽樣、調整網路層數、確定損失函式、設計學習率引數;將模型輸出誤差通過BP演算法反向傳播,利用隨機梯度下降SGD或Adam演算法優化模型引數

4) 模型驗證:利用未訓練的資料驗證模型的泛化能力,如果預測結果不理想,則需要重新設計模型,進行新一輪的訓練;

至今已有數種成熟的深度學習模型,包括深度神經網路DNN、卷積神經網路CNN和深度置信網路DBN和遞迴神經網路RNN等。這些在機器視覺、自然語言處理、生物資訊學、語音識別等領域得到廣泛應用、並取得顯著效果。

4. 總結

消費者行為預測是目前在電子商務中極具前瞻性的研究領域,隨著人工智慧深度學習模型的深入研究,極大提升了消費者行為預測準確率。但是由於深度學習的黑盒特性,難以對消費者行為預測的特徵提取過程進行定性研究,為此,仍需要進一步加強對深度學習模型的視覺化技術研究,提高學習模型的可靠性分析並在可解釋性的基礎上進一步提高消費者行為預測準確度。

參考文獻

1. 劉建, 孫鵬, 倪巨集. 基於神經網路的使用者興趣度估計[J]. 計算機工程, 2011, 37(7):187-189.

2. 李美其, 齊佳音. 基於購買行為及評論行為的使用者購買預測研究[J]. 北京郵電大學學報(社會科學版), 2016, 18(4):18-25.

3. 胡東波, 肖璇, 周錦. 基於資料探勘的移動電子商務使用者群體特徵分析[J]. 科技管理研究, 2013, 33(9):222-226.

4. Kuo R J, LIAO J L, TU C. Integration of ART2 neural network and genetic k-means algorithm for analyzing web browsing paths in electronic commerce[J]. Decision Support Systems,2005(40):355-374

5. Wei C P, Chiu I T. Turning telecommunications call details to churn prediction: A data mining approach[J].Expert Systems with Application,2002,23(2):103-112.

相關文章