大資料丨Sogou搜狗業務OP任嘉興帶你解讀“網際網路醫美商品推薦機制”

FI資料競賽發表於2023-02-21

2023年"FI-BI資料競賽"將圍繞十大行業主題展開:零售電商、銀行金融、醫藥健康、交通物流、地產建築、能源化工、機械製造、教育培訓、公共服務、社會熱點。旨在幫助相關從業人員提升資料分析技能,引領開啟關注資料價值、釋放資料無限潛能的科技風尚。

網際網路醫美髮展之本在於直擊傳統醫美的行業痛點,透過多種手段建立高效資訊溝通渠道,鑑別正規醫美機構,最終重建消費者對於醫美消費的慾望,降低獲客難度,促進網際網路醫美平臺向良性發展。

本期我們將圍繞線上醫療美容的商品推薦模組,詳解其資料背後的演算法及推薦邏輯。

Sogou搜狗作為知名網際網路上市公司,一直致力於AI實用導向,同時在醫療搜尋方面有所建樹,成功取得了線上醫院牌照,獲准透過網際網路開展醫療業務。

本期分享嘉賓任嘉興,來自Sogou搜尋業務線,在產品設計、運營運維、資料分析方面有著多項行業優秀案例。


大資料丨Sogou搜狗業務OP任嘉興帶你解讀“網際網路醫美商品推薦機制”專案簡介

本案例為嘉賓過往真實案例分享,其中涉及商業機密數值均進行了模糊處理

  • 專案TOB:四川省某醫美網際網路巨頭(年營業額≈4億)

  • 專案背景:隨著線上使用者量的不斷增長,需要對使用者潛在消費需求進行精準洞察,從而 幫助企業挖掘使用者最大價值

  • 專案需求:構建醫美線上商城個性化推薦演算法,實現商品關聯推薦

專案目標

透過對醫美線上商城的購買資料進行科學分析,得到自主使用者的購買行為特徵,挖掘商品的關聯性規律,建設商品智慧推薦機制

  • 構建線上商品的關聯規則模型,分析商品之間的關聯性

  • 根據模型輸出結果實現商品推薦

分析思路

關聯分析主要透過以下指標進行衡量

undefined

過程簡述

一、資料基礎處理:

1.1資料欄位獲取

獲取線上商城近1年的自主使用者訂單資料(排除非自主下單)

  • 使用者id

  • 使用者型別(新客/老客)

  • 商品品類id

  • 商品A(完成購買並核銷)

  • 商品A瀏覽次數

  • 商品B(瀏覽次數高且未購買)

  • 商品B瀏覽次數

1.2異常值處理

  • 四分位數分箱(QUARTILE(col:col,1,2,3))

  • 四分位數差(IQR)

  • 空值(NONE)

  • 極大值(MAX(col:col))

  • 極小值(MIN(col:col))

  • 異常值

  • 標準化

  • 其它條件規則

二、資料細化處理

2.1計算商品A/B出現次數

商品A是使用者在對應品類下購買核銷商品的集合,並獲取每個商品出現的次數,例如透過在表單中使用"關鍵詞萬用字元"模糊匹配商品A/B,從而獲取每個商品的出現次數,並求和計數項

=VLOOKUP("*"關鍵詞"*",商品A,1,)

=VLOOKUP("*"關鍵詞"*",商品B,1,)

2.2計算商品A和商品B共現次數

當商品A與商品B共現次數越多,則可以認為商品A和商品B的關聯度越高;反之則關聯度越低

=IF(AND(商品A=”【急納美眼第八代】”,商品B=”【急納美眼第9代】”),1,IF(AND(商品B=”【急納美眼第八代】”,商品A=”【急納美眼第9代】”),1);無論"A共現B"還是"B共現A",都視為一次共現關係,並求和計數項

2.3計算商品AB總數

=COUNTA(表單區域)商品A和商品B,並求和計數項

三、資料建模處理

3.1計算支援度

P(AnB),即商品A和商品B同時出現的機率,可以判斷該共現組合的可信程度

支援度=AB共現次數/商品總數*100%

3.2計算置信度

P(A|B) ,即AB共現次數佔商品A出現次數的佔比,可以衡量商品A對商品B產生了多大的影響

置信度=AB共現次數/商品A出現次數*100%

3.3計算提升度

L= P(AnB)/[P(A)*P(B)],即判斷AB商品被購買的次數是否高於單獨商品的購買次數,可自定義區間值以簡化模型

提升度=支援度/((購買A的訂單數/總購買訂單數)*(購買B的訂單數/總購買訂單數))

3.4計算推薦值

推薦值=SUM(支援度+置信度+提升度),數值越大則判斷商品關聯程度越高;理論上當使用者產生的行為資料越多,則該推薦模型越準確

最終生成全品類醫美商品的相關性網路,並透過權重倒序,實現對不同的使用者推薦不同的商品

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70026929/viewspace-2936184/,如需轉載,請註明出處,否則將追究法律責任。

相關文章