如何發現品牌潛客?目標人群優選演算法模型及實踐解析
阿里妹導讀:品牌數字化營銷正在成為熱點,在Uni-Marketing背景下,我們通過策略中心海豹專案,探索和實踐了品牌目標人群優選演算法,在實際投放中取得了非常好的人群轉化效果,並得出一些有價值的演算法和業務結論。本文主要對品牌目標人群優選演算法及相關實踐結論進行介紹。
作者:雲鳴、林君、泊智、一初
1. 背景簡介
全域營銷(Uni-Marketing)戰略是依託大阿里生態,以消費者運營為核心,在新零售體系下實現全鏈路、全媒體、全資料、全渠道的品牌大資料營銷。Uni-Marketing產品矩陣包括品牌資料銀行、全域策略(策略中心)、全域傳播(Uni-Desk)、全域運營(品牌號、智慧門店、天貓營銷產品)等。傳統品牌營銷的痛點在於效果無法量化和追蹤,而阿里的產品和資料閉環可以很好的解決這個問題。
策略中心年貨節投放海豹專案,通過大資料+演算法的手段,對A品牌的目標人群進行分析,建立人群優選演算法模型,挖掘品牌目標潛客。品牌A的年貨節實際投放效果,演算法優選人群相比基於業務經驗使用規則圈選的人群,在“O->IPL”人群關係加深率指標上好47%,顯示了人群優選演算法的有效性。
2. 名詞解釋
品牌消費者關係:Opportunity(機會)、Awareness(認知)、Interest(興趣)、Purchase(購買)、Loyalty(忠誠)。
人群關係加深率:衡量品牌營銷效果的直接指標。“O->I”人群關係加深率,即機會人群到興趣人群的轉化率。
品牌資料銀行:從“融合、分析、啟用”三個緯度實現品牌消費者資料資產的管理和增值,即品牌消費者資料資產的高效梳理、消費者全鏈路的透視分析、最後到多元營銷場景的應用,包括阿里的電商、娛樂和營銷服務矩陣。
品牌策略中心:以解決“機會在哪裡”和“如何增長”為目標,賦能品牌開發生意策略,實現策略的可應用、可驗證、可優化。功能包括市場概覽與細分、競爭與得失分析、消費者細分與多維洞察、人群放大與優選等,可用於新品上市、品類拉新、品類成長、品牌升級等場景。
3. 專案目標
基於策略中心的品牌人群定向,與程式化廣告的不同之處在於,要根據品牌方的營銷需求(包括目標、渠道、時間和預算)產出特定規模的目標人群,進而再針對性地營銷投放。
此次實踐即以年貨節拉新為目標,找到指定規模的潛在機會人群或者認知人群,通過營銷投放將其轉化為品牌興趣人群和已購人群,從而提升品牌消費者資產。
4. 業界方案
業界相關方案主要與程式化廣告中人群定向相關,方法基本都是Look-alike人群擴散,具體有以下幾種:
1)標籤擴散:根據已有目標使用者畫像,給使用者打各種標籤,再利用標籤找到機會人群。
2)基於標籤的協同過濾:在標籤擴散的基礎上,採用基於使用者的協同過濾演算法,找到與種子人群相似的機會人群。
3)基於社交關係的擴散:以具有相似社交關係的人也有相似的興趣愛好/價值觀為前提假設,利用社交網路關係進行人群擴散。
4)基於聚類的擴散:根據使用者畫像或標籤,採用層次聚類演算法(如BIRCH或CURE演算法)對人群進行聚類,再從中找出與種子人群相似的機會人群。
5)目標人群分類方法:以種子人群為正樣本,候選物件為負樣本,訓練分類模型,然後用模型對所有候選物件進行篩選。涉及PU Learning的問題。
5. 技術方案介紹
根據專案目標,我們制定了“種子人群聚類細分+聚類人群擴散”和“多方向人群擴散+人群分類優選”的兩種方案。由於聚類分群屬於無監督學習且分群效果不容易評估,因此選擇後者優先實施。
方案整體流程如下圖所示:
5.1 多方向人群擴散
在人群擴散方向上,我們探索了6類方向,並在每個方向下挖掘有效特徵,通過白盒條件篩選和黑盒模型預測的方式進行人群擴散。
5.1.1 興趣偏好方向
採用特徵值TGI和TA濃度2個指標,挖掘了4個特徵中與品牌相關的特徵值,並根據特徵值的全網覆蓋量設定TGI和TA濃度閾值,進行白盒擴散。TGI指標衡量了特徵值在品牌人群中的顯著性,TA濃度則衡量了特徵值在品牌人群中的覆蓋率,因此二者共同考慮才能篩選出有效的人群擴散特徵值。
5.1.2 相關品類方向
1) 主營類目分析:根據品牌線上商品數和銷售額計算篩選主營類目,並得出主營類目權重。
2) 相關品牌分析:根據brand-user關係矩陣,採用Jaccard相似度計算相關品牌及相關分。相似度計算公式如下:
3)相關類目分析:根據線上user-cate購買行為,通過Association Rule Mining挖掘相關類目,使用confidence指標篩選類目並作為相關分,然後經過類目關係的二度擴散得到最終相關類目結果。類目擴散公式如下,其中表示類目k:
5.1.3 競品人群方向
1)競品分析:當前品牌主營類目中,市場份額top10的其他品牌。
2)人群流轉分析:分析發現品牌新增人群中,有較大比例來自競品,說明選擇該方向進行擴散是可靠的。
3) 競品人群轉化模型:以來自競品的人群為目標,挖掘使用者在競品的AIPL狀態、退款、退貨、評分、評價等特徵,訓練競品人群轉化模型。通過模型對競品人群進行轉換預測,實現人群擴散。
5.1.4 搜尋人群方向
1) 搜尋關鍵詞:從引導到品牌成交的搜尋詞中,綜合考慮搜尋詞是否充分競爭以及本品牌在搜尋詞上是否有優勢,實現品牌拉相關的搜尋詞發現。公式如下,其中E表示關鍵詞引導成交的類目資訊熵,表示關鍵詞引導成交額,表示關鍵詞引導到品牌的成交額:
2)搜尋人群擴散:近15天內搜尋了kwords並點選了品牌主營類目的使用者。
5.1.5 流失人群方向
對於之前屬於品牌人群而現已流失了的使用者,也進行擴散召回,包括近半年從IPL狀態流失的使用者和近1個月從A狀態流失的使用者。
5.1.6 同好人群方向
基於使用者的向量表示,可以直接計算使用者與使用者直接的相似度,從而得到種子使用者最相似的topN個使用者。使用者表示的方法有多種,例如:
a) 使用者偏好的類目向量、品牌向量組合。
b) 將user-item表示為二部圖,基於graph embedding方法生成使用者向量。
5.1.7 人群擴散彙總
最終6個方向的品牌擴散人群彙總去重,作為人群優選模型的輸入。
5.2 目標人群優選模型
沒有歷史投放資料,是此次專案面臨的一個挑戰。我們通過訓練模型來區分目標人群和非目標人群。
5.2.1 評估指標
訓練集的正負樣本,分別從品牌已購人群和其他品牌的人群中取樣得到。從中訓練的分類模型,可以較好的區分品牌目標人群和全網其它人群(大都和目標人群相距較遠),但對區分和品牌目標人群相距不遠的擴散人群則並非同樣有效。
因此,直接使用傳統的分類指標,只能評估模型在訓練集上的效果,不能準確評估其在擴散人群上的分類效果,需要設計新的評估指標。
PredictTA TopNPrecision指標由此而來,表示優選的TopN人群中品牌目標人群的佔比,該指標越大說明模型預測效果越好。我們通過對比該指標在不同模型上使用不同topN值的值,驗證了它的一致性;並設計NewTA topN Recall指標,即優選人群在之後一段時間品牌新增目標人群的佔比,驗證了它的正確性。
上圖中,紫色框表示品牌目標人群即種子人群,藍色框表示模型優選出的TopN人群,它與種子人群有小部分交集,交集佔藍色框的比例即為PredictTATopN Precision。綠色框表示一週內品牌實際新增人群,與藍色框的交集為預測準確的人群,交集佔綠色框的比例即為NewTA topN Recall。
對於有效的演算法模型,PredictTATopN Precision指標隨著TopN的減小而增大。兩個不同的演算法模型,PredictTA TopN Precision指標在不同TopN取值上的表現是一致的,說明該指標的穩定性。以A品牌為例,其一致性驗證結果如下圖所示:
5.2.2 模型訓練
以品牌目標人群為正樣本,從全網其它品牌的人群中隨機選負樣本,經過資料預處理、歸一化、序列化編碼後,訓練並優化人群優選模型。
1)樣本選擇
a. 正樣本選擇:對於線上市場份額大的品牌而言,直接用品牌已購人群即可。但對新品牌或者線上市場份額小的品牌,已購人群可能很小,這時就需要對正樣本進行擴充,比如加入興趣人群、加入與品牌定位相似的其它品牌的人群。
b. 負樣本選擇:預設從全網其它品牌的人群中隨機取樣,但發現全網人群中特徵缺失的情況比較多,負樣本集離擴散人群比較遠,因此實驗了從全網其它品牌的已購人群中取樣,PredictTA TopN Precision(N=300萬)指標絕對值有0.8%的提升。
2)特徵工程
a. 數值型特徵離散化。年購物天數、近30天訂單數等特徵進行等距離散,提高模型穩定性和效果。
b. 列舉型特徵值篩選。汽車型號、收貨省份等特徵長尾分佈非常明顯,篩選出與目標品牌相關的特徵值。
c. 多值特徵處理。偏好品牌、偏好類目這樣的特徵,一個使用者可以同時有多個特徵值。以品牌A品牌為例,我們在b步篩選的基礎上,對比了只保留偏好值最大的特徵、只保留品牌最相關的特徵、保留品牌相關的多個特徵3種不同的處理方法,效果如下:
d. 特徵編碼。主要採用one-hot編碼方式。
e. 稀疏特徵embedding。對於類目id,品牌id這種高維高稀疏性的特徵,直接將其作為分類模型的特徵會影響最終的模型效果,為此,我們借鑑word embedding的思路,將使用者過去一段時間內對類目(或品牌)的行為序列作為doc,將類目(或品牌)本身作為word,基於全網活躍使用者的行為序列(doc集合)訓練類目(或品牌)的embedding表示。具體而言,我們將類目(或品牌)編碼為100維的低維稠密向量,並將其作為預測特徵用於模型訓練。
f. 特徵選擇。首先使用全部特徵進行模型訓練,然後根據特徵重要性程度篩除部分尾部特徵,重新訓練模型,通過比較模型的PredictTA TopN Precision指標確定此次特徵選擇是否更好。
3)訓練模型
a. LR模型。使用邏輯迴歸作為baseline的演算法,除了模型簡單容易理解外,還有個好處是可以得出特徵和特徵值的重要性。
b. RF模型。對隨機森林模型的實驗效果並不理想,在相同的樣本和特徵上Precision和AUC指標均比LR低,且特徵重要性結果只能到特徵粒度不能到特徵值粒度,因此不再使用。
c. PS-SMART。基於PS架構的GBDT演算法模型,決策樹弱分類器加上GBM演算法,具有較強的非線性擬合能力,在應用中相比其它兩種演算法模型效果更好。因此選擇PS-SMART作為最終的演算法模型,並對損失函式、樹的個數深度、正則係數進行調優。
模型與特徵相關對比結果如下表:
5.2.3 模型預測
使用訓練好的人群優選模型,對5.1節中產出的擴散人群進行預測打分,篩除預測分數小於0.5的人群,再根據拉新的目標過濾品牌現有IPL人群。
5.3 年貨人群模型
此次品牌投放需求臨近春節,與年貨的相關性很大。雖然可以用最新的樣本資料訓練日常的目標人群優選模型,但人群擴散方向和相關特徵並非針對年貨場景而挖掘的,因此不能有效捕捉出於屯年貨動機的消費需求,需要針對年貨場景單獨建立一個人群模型進行預測。
但由於年貨場景與日期時間高度相關,需要用到去年春節期間品牌相關的人群資料,與日常模型差異較大,不方便合併,需要單獨建模。
5.3.1 品牌相關年貨類目
1) 年貨類目挖掘:統計春節期間包含“年貨”的搜尋詞所引導點選的類目資料,再由運營同學根據業務經驗篩選出部分與年貨相關性較強的類目,從而得到二級類目粒度的年貨類目資料。
2) 品牌相關年貨類目:根據春節期間融合不同行為的“使用者-類目”矩陣,通過I2I演算法計算年貨類目的相關性,進而得到品牌主營類目相關的年貨類目及其相關分。
5.3.2 年貨人群特徵
1) 人群屬性特徵:同日常人群優選模型一樣,包括使用者人口基礎屬性、人口預測屬性等。
2) 人群偏好特徵:同日常人群優選模型一樣,包括與目標品牌相關的偏好品牌、生活標籤、偏好類目、及偏好品牌等特徵。
3) 品牌主營類目行為特徵、品牌相關年貨類目行為特徵。包括有行為的相關年貨類目id、類目相關性等特徵。
5.3.3 年貨人群模型
1) 樣本選擇:根據投放時間的農曆日期,選取去年當日前1個月有行為的使用者做樣本。其中以去年當日到元宵節期間轉化到品牌PL狀態的使用者為正樣本,隨機採用同等數量的其他使用者為負樣本,訓練年貨人群模型。
2) 模型訓練:基於日常人群優選模型的經驗,同樣採用PS-SMART演算法進行模型訓練、優化、及特徵重要性分析。
3) 模型預測:圈選投放日期前1個月對品牌主營類目及相關年貨類目有行為的使用者,使用年貨人群模型進行預測,去除預測分數小於0.5的使用者,根據拉新目標去除品牌現有IPL人群。
5.4 目標人群模型融合
根據日常人群優選模型和年貨人群模型的PredictTA TopN Precision指標,確定目標人群中2個模型優選結果的佔比,最終篩選出指定數量的投放人群,匯入資料銀行,供服務商同步到DMP進行品牌廣告投放。
5.5 投放效果追蹤
品牌A投放案例,演算法優選年貨人群(A人群包),服務商通過策略中心找出品牌A購買人群同時購買的年貨類目,選取買了對應類目的人群(A人群包),分別在鑽展投放。其中演算法優選人群在“O->IPL”人群關係加深率指標上相比高47%,拉新轉化效果顯著。演算法優選人群內部,年貨模型轉化率最低,混合模型轉化率最高,說明在春節期間品牌A的目標人群與日常目標人群特徵比較相近,有年貨囤零食需求的日常目標人群在春節期間轉化率最好。
6. 挑戰與應對
6.1 專案時間週期短
因此我們優先保證模型目標與業務目標的一致,時間上做到最新,對投放渠道則沒有研究和優化。
6.2 無歷史反饋資料
品牌人群優選模型,由於沒有品牌投放歷史,不能從使用者的歷史投放反饋中來學習品牌人群特徵。尤其是不能獲取大量直接的負樣本,只能以隨機人群來代替,在樣本選擇上還有很大的提升空間。
6.3 無歷史屬性特徵
年貨人群模型和時間緊密相關,但由於儲存週期的原因,只能獲取使用者去年的行為特徵,而無法獲取去年的屬性和偏好特徵,只能用近期的屬性和偏好特徵來代替,在特徵實效性上也有較大提升空間。
6.4 重要的稀疏特徵
模型使用的特徵中有較多的稀疏特徵,這些特徵的特徵值呈長尾分佈,全部使用會引入很多噪聲影響模型效果,只選高頻特徵又會丟失較多資訊,為此我們採用特徵值的TGI和TA濃度兩個指標綜合篩選,達到保留相關特徵值、減少噪音和資訊丟失的目的。
6.5 有效的評估指標
也是由於無歷史反饋資料,導致用於優選的擴散人群與訓練模型的人群分佈有較大差異,單純的AUC、Precision等指標不能準確衡量優選模型在擴散人群上的效果,為此我們設計並驗證了PredictTA TopN Precision評估指標,有效指導了模型的優化。
7. 總結與展望
針對品牌目標人群定向,此次實踐的人群擴散+優選的演算法流程、人群優選/年貨人群模型、及提出的PredictTA TopN Precision評估指標是非常有效的。後續優化方向,包括前面挑戰中提到的基於使用者反饋資料的樣本優化,需要大量的投放反饋資料;使用者歷史屬性和偏好特徵優化,需要儲存更多的歷史特徵資料;稀疏特徵的優化,可通過深度學習方法將稀釋特徵對映到稠密特徵空間實現;使用者在生活方式/消費心理方面的embedding特徵,對於人群優選非常有用,多工學習是不錯的實現方式。
你可能還喜歡
點選下方圖片即可閱讀
關注「阿里技術」
把握前沿技術脈搏
相關文章
- 品牌如何建立軟文營銷策略實現業務目標
- PostgreSQL相似人群圈選,人群擴選,向量相似使用實踐-cubeSQL
- 宜信DBA實踐|全面解析Oracle等待事件的分類、發現及優化Oracle事件優化
- 圖解選擇排序及演算法優化(Java實現)圖解排序演算法優化Java
- 每日互動大資料:白領人群洞察 助力品牌輕鬆打動目標消費人群大資料
- 目標匹配:匈牙利演算法的python實現演算法Python
- Redis 非同步客戶端選型及落地實踐Redis非同步客戶端
- 多目標遺傳演算法NSGA-Ⅱ與其Python實現多目標投資組合優化問題演算法Python優化
- 營銷自動化中的“潛客培育”如何實現
- 混合高斯模型實現運動目標檢測(OpenCV內建實現)模型OpenCV
- 目標和——遞迴的實踐遞迴
- 【目標檢測】Fast R-CNN演算法實現ASTCNN演算法
- python opencv如何實現目標區域裁剪功能PythonOpenCV
- 【推薦演算法】單目標精排模型——DIN演算法模型
- 如何洞悉城市人群移動規律?DataV海量軌跡視覺化實踐解析視覺化
- 常用高併發網路執行緒模型設計及mongodb執行緒模型優化實踐執行緒模型MongoDB優化
- 萃弈陳傳洽:人群優選+技術優效——海外品牌增長的紅藍雙buff
- 人物模型和目標模型
- 選擇排序-演算法及優化排序演算法優化
- 退避演算法實現之客戶端優雅回撥演算法客戶端
- 精準圈定目標人群,高效落地運營策略
- 深入解析Immutable及 React 中實踐React
- DMA:1/4的英國播客聽眾通過節目發現新品牌
- 單目標定:從理論到OpenCV實踐OpenCV
- 推進 OKR 目標管理落地的最佳實踐OKR
- SpringMVC實現原理及解析SpringMVC
- Promise的實現及解析Promise
- WebRTC 架構優化及實踐Web架構優化
- Serverless 架構落地實踐及案例解析Server架構
- 網易嚴選跨域多目標演算法演進跨域演算法
- 運籌優化(六)--目標規劃定義及解法優化
- 多目標優化演算法(一)NSGA-Ⅱ(NSGA2)優化演算法
- 基於混合高斯模型的運動目標檢測演算法模型演算法
- 圖解氣泡排序及演算法優化(Java實現)圖解排序演算法優化Java
- Devops 原始思想 所要實現的目標dev
- AI 演算法測試客觀指標的選擇策略AI演算法指標
- CORDIC演算法解釋及verilog HDL實現(圓座標系)演算法
- mongodb核心原始碼實現及效能最佳化:常用高併發執行緒模型設計及mongodb執行緒模型最佳化實踐MongoDB原始碼執行緒模型