編者按:在白酒零售行業,隨著數字化的深入,其資訊支付終端機系統彙總了大量的白酒與非白酒類的銷售資料,如何利用起其中的銷售訂單資料,進而沉澱出能夠支撐起數字化市場服務的方案,是目前白酒行業中一線市場服務人員迫切需求的。百分點科技根據業務特點與需求提出了模型與業務方向的組合解決方案。
一、解決方案-模型層面
針對白酒行業一線市場服務人員對於商品銷售資料的需求分析,專案組根據對商品銷售資料的應用進行研究,在查閱了論文資料以及借鑑相關行業經驗後,專案組對於白酒行業中商品銷售資料應用主要聚焦在白酒與非白酒商品類的搭售。
利用關聯分析模型挖掘出白酒與非酒類商品在不同季度、不同商店業態內的關聯關係,生成能夠與白酒進行搭配銷售的非白酒類商品目錄,為一線市場服務人員在維護客情的過程中提供優秀的商品搭售方案,幫助客戶最佳化貨架管理,提高白酒與非白酒類商品的搭售成功率,最終幫助一線市場服務人員拓寬市場服務工作的維度,進一步拉近與客戶之間的服務距離,間接提高客戶服務滿意度,提高白酒渠道的活性。
對於商品推薦分析,使用得較多的是關聯規則演算法,由下圖所收集的當前較為流行的推薦演算法結構得知,在關聯規則較為常用的有Apriori 和FP-Growth兩種演算法。
Apriori推薦演算法
Apriori演算法的優點是構造簡單、使用方便,但是由於其演算法原理,會產生大量潛在頻繁項集,且需要每次對全體資料進行掃描,來判定潛在頻繁項集是否頻繁。所以在面對數以千萬條計的資料時,會顯現出記憶體佔用大、計算時間長的弊端。
Apriori演算法的演算法過程:
第一步:透過迭代識別所有的頻繁項集,要求頻繁項集的支援率不低於使用者設定的最小支援度。
第二步:是從頻繁項集中構造可信度不低於使用者設定的最小置信度的規則。
第三步:視覺化顯示、理解、評估關聯規則。支援度計算公式:
置信度計算公式:
Apriori演算法尋找頻繁項集的過程
FP-Growth增長樹演算法
FP-Growth基於Apriori演算法進行了一些改進,能夠彌補前者在面對大資料時的不足,其原理是建立FP-Tree這一樹狀結構來儲存資料資訊,並透過對資料結構的遞迴來完成對頻繁項集的挖掘,在整個過程中僅需對全體資料進行兩次掃描。因此該演算法相較Apriori演算法,除開發實現難度較高,在空間與時間複雜度上都有較大提升,對於大資料的適應性也十分良好。
FP-Growth演算法的主要任務是找出資料集中的頻繁項集,大致步驟分為如下三步。
第一步:構建項頭表,項頭表記錄了所有的頻繁項(1項集)的集合和支援度計數,並按照支援度計數降序排列。
第二步:構建FP-Tree。
第三步:基於FP-Tree挖掘頻繁項集。用一個構造例項來示範,現擁有如下商品實際銷售組合列表,利用FP-Growth演算法挖掘過程如下:
步驟1: 建立項頭表,項頭表由項ID、支援度、計數、節點鏈三部分構成,具體資訊如 下圖項頭表所示,支援度計數按照由大到小的順序排列,得到頻繁1項集 = { { b: 8 } ,{ a: 6 } ,{ c: 5 } ,{ d: 4} ,{ e: 3} } 。其中節點鏈指向每個項在FP-Tree中的位置,將在步驟2中體現。
步驟2: 構建FP樹,樹的根節點設為null,再次掃描資料庫按支援度降序的順序處理事務,為每個事務建立一個分支,每項透過一個節點鏈指向它在樹中的位置,構造好的FP-Tree如上圖右樹所示。
步驟 3:FP-Tree挖掘,FP-Tree的挖掘採用從下到上的方式,首先考慮項頭表支援度計數最小項e為結尾的頻繁項集,e出現在FP-Tree三個分支,所形成的路徑是<b,a,e: 1>、<b,a,c,e: 1>、<b,e: 1>,e的條件模式基是它所對應的字首路徑<b,a: 1>,<b,a,c: 1>、<b: 1>。
模型的選擇
Apriori演算法需要多次掃描交易資料庫,每次利用候選頻繁集產生頻繁集;而FP-Growth則利用樹形結構,無需產生候選頻繁集而是直接得到頻繁集,大大減少掃描交易資料庫的次數,從而提高了演算法的效率。考慮到系統落地與執行效率問題,因此在本次專案中,將使用FP-Growth演算法透過尋找頻繁項集的方式去找到合適的搭售商品目錄。
二、解決方案-業務層面
專案組選擇了FP-Growth演算法作為實現需求的基礎,並根據業務要求制定了一套的解決思路,首先對終端資料池裡面的客戶進行層級劃分,然後根據每一層的客戶群體訂單比例使用奈曼分層抽樣法進行資料抽樣。
抽樣比例按照業內慣例,為資料總量的10%,同時抽樣的過程中考慮到了客戶經營質量評分的因素,該評分用於對客戶經營水平的量化。
樣本在入選的過程中,將按照經營質量評分由高向低擇優選入,接著對每一層優質樣本所提供的資料進行建模,最終得出每一層級的商品目錄,在每一層商品目錄中還可以按照季度細分為春、夏、秋、冬季目錄,也可以根據商品資料屬性進行二次細分,如提供具有利潤高、銷量高、利潤與銷量平衡等標籤的商品目錄。建模框架如下:
業務建模過程
層級劃分,提供群體差異化服務
由白酒客戶的的標籤組合而成,如經營等級+經營業態+經營商圈,若等級有7個,業態有5類,商圈有8種,則總劃分層為280層,意味著每一層均有獨立的商品目錄。
客戶經營質量評分,資料優中入選
每一個客戶都會有經營質量的量化分數,滿分為100,系統按照每個月的銷售情況評估得出,分越高則說明經營質量越好,其提供的資料質量就越高,在層級劃分基礎上,擇優入選樣本空間。
樣本量10%,避免全量計算
按照總體客戶數量而定,目前總體客戶戶數為三十多萬戶,按照10%的抽樣規則,則樣本空間為三萬多戶,避免全量計算,減少伺服器壓力。
奈曼分層抽樣,科學合理分配樣本點
按照各層級客戶群體的訂單標準差與訂單量來決定,來決定各自層級所需要的抽樣客戶資料是多少,如層級1客戶群體標準差與訂單量相乘後佔總比12%,樣本空間為5000戶,則層級1客戶群在樣本空間的數量為5000* 12% = 600。具體演算法如下:
細分商品標籤屬性,靈活調整搭售方案
專案組根據需求,將所有搭售的商品區分為利潤與銷量兩個維度,在推薦演算法給出搭售商品組合目錄後,擴充商品屬性,業務人員可根據被搭售商品的利潤、銷量兩個維度進行篩選,如需求是尋找出利潤最高的搭售組合,可按照利潤率進行篩選,若需求是尋找出銷量最高的搭售組合,可按照銷量進行篩選,若需求是尋找出在利潤與銷量平衡的商品的搭售組合,可按照利潤與銷量綜合查詢。
結合下圖所示矩陣圖可找出最符合當前經營目標的搭售方案。
三、初步建設成果
在建立起搭售目錄後,可在客戶層級、季節因素、商品屬性的標籤基礎上,透過組合不同的標籤獲得差異化的客群商品搭售目錄。豐富搭售方案。
基於季節推送商品目錄
根據季節氣候進行商品目錄的推送,我們發現夏季與冬季在商品搭售方面有著較為顯著的區別,在夏季與白酒搭售較多的均為可樂與綠茶,而在冬季則為礦泉水與啤酒居多,說明在不同季節存在著不同的消費傾向。
基於客戶層級與季度推送商品目錄
在同一季節因素下不同的層級客戶的搭售目錄也不一樣,在客戶等級為層級5的夏季目錄中,汽水型別的飲料均為聽裝330ml,同時與吸菸場景相關的菸灰缸與打火機均出現在目錄中,而在客戶等級為層級15的夏季目錄中,可搭售消費的商品例如汽水飲料以大瓶裝居多,同時也出現了啤酒與功能性飲料,說明層級15的客戶所服務的消費者的消費能力更高。
基於商品標籤推送商品目錄
基於商品標籤進行二次細分,發現銷量高的均為汽水、水、功能性飲料等,其次為與吸菸相關較大的打火機,而在利潤率方面,則集中在紅酒,說明紅酒的所帶來的搭售利潤最高。在未來,在形成搭售目錄的前提下,結合銷量與利潤矩陣挖掘出在銷量與利潤之間達到平衡的商品,並組成可實現經營目標最最佳化的商品目錄。
基於多維度組合推送商品目錄
根據客戶、商品、季節標籤的組合搭配,可多維度鑽取挖掘搭售商品目錄,如在層級5客戶在夏季銷量最高的商品目錄,可以發現集中在可樂、水等飲料快消品,而在層級20的客戶在冬季利潤最高的則集中在花雕酒、葡萄酒。
四、場景應用
本次結合推薦演算法與業務需求所形成的搭售方案,主要應用於一線市場服務人員的實際走訪過程,對客戶進行商品搭售輔導,在商品層面給出經營建議,核心目的在於將優質樣本空間中所提供的先進經驗(商品目錄)共享至其他客戶,達到經營經驗共享的目標。
在實際的實踐過程中,透過移動辦公的分析埠,市場服務人員可以幫助客戶查詢到自己所在層級中的優秀商品目錄,結合自身的經營情況,及時調整商品貨架結構,將與白酒暢銷的非白酒類商品集合在相近的地方,進而提高透過白酒提高非白酒類商品的搭售成功率,實現初步的數字化應用轉型。
注:研究程式碼收錄於百分點大資料分析挖掘案例集,如有需要請聯絡400-6240-800。
參考資料
[1]邵偉 《基於FP-Tree的關聯規則挖掘演算法研究》[D].西安:西安電子科技大學,2010.
[2]韓村鴿 《FP-growth演算法的研究與改進》 福建武夷山:武夷學院2020.9