如何發現品牌潛客?目標人群優選演算法模型及實踐解析

阿里技術_發表於2018-10-10

640?wx_fmt=jpeg

阿里妹導讀:品牌數字化營銷正在成為熱點,在Uni-Marketing背景下,我們通過策略中心海豹專案,探索和實踐了品牌目標人群優選演算法,在實際投放中取得了非常好的人群轉化效果,並得出一些有價值的演算法和業務結論。本文主要對品牌目標人群優選演算法及相關實踐結論進行介紹。


作者:雲鳴、林君、泊智、一初


1.   背景簡介


全域營銷(Uni-Marketing)戰略是依託大阿里生態,以消費者運營為核心,在新零售體系下實現全鏈路、全媒體、全資料、全渠道的品牌大資料營銷。Uni-Marketing產品矩陣包括品牌資料銀行、全域策略(策略中心)、全域傳播(Uni-Desk)、全域運營(品牌號、智慧門店、天貓營銷產品)等。傳統品牌營銷的痛點在於效果無法量化和追蹤,而阿里的產品和資料閉環可以很好的解決這個問題。


策略中心年貨節投放海豹專案,通過大資料+演算法的手段,對A品牌的目標人群進行分析,建立人群優選演算法模型,挖掘品牌目標潛客。品牌A的年貨節實際投放效果,演算法優選人群相比基於業務經驗使用規則圈選的人群,在“O->IPL”人群關係加深率指標上好47%,顯示了人群優選演算法的有效性。


2.   名詞解釋


品牌消費者關係:Opportunity(機會)、Awareness(認知)、Interest(興趣)、Purchase(購買)、Loyalty(忠誠)。


人群關係加深率:衡量品牌營銷效果的直接指標。“O->I”人群關係加深率,即機會人群到興趣人群的轉化率。


品牌資料銀行:從“融合、分析、啟用”三個緯度實現品牌消費者資料資產的管理和增值,即品牌消費者資料資產的高效梳理、消費者全鏈路的透視分析、最後到多元營銷場景的應用,包括阿里的電商、娛樂和營銷服務矩陣。

品牌策略中心:
以解決“機會在哪裡”和“如何增長”為目標,賦能品牌開發生意策略,實現策略的可應用、可驗證、可優化。功能包括市場概覽與細分、競爭與得失分析、消費者細分與多維洞察、人群放大與優選等,可用於新品上市、品類拉新、品類成長、品牌升級等場景。


3.   專案目標


基於策略中心的品牌人群定向,與程式化廣告的不同之處在於,要根據品牌方的營銷需求(包括目標、渠道、時間和預算)產出特定規模的目標人群,進而再針對性地營銷投放。


此次實踐即以年貨節拉新為目標,找到指定規模的潛在機會人群或者認知人群,通過營銷投放將其轉化為品牌興趣人群和已購人群,從而提升品牌消費者資產。


4.   業界方案


業界相關方案主要與程式化廣告中人群定向相關,方法基本都是Look-alike人群擴散,具體有以下幾種:


1)標籤擴散:根據已有目標使用者畫像,給使用者打各種標籤,再利用標籤找到機會人群。


2)基於標籤的協同過濾:在標籤擴散的基礎上,採用基於使用者的協同過濾演算法,找到與種子人群相似的機會人群。


3)基於社交關係的擴散:以具有相似社交關係的人也有相似的興趣愛好/價值觀為前提假設,利用社交網路關係進行人群擴散。


4)基於聚類的擴散:根據使用者畫像或標籤,採用層次聚類演算法(如BIRCH或CURE演算法)對人群進行聚類,再從中找出與種子人群相似的機會人群。


5)目標人群分類方法:以種子人群為正樣本,候選物件為負樣本,訓練分類模型,然後用模型對所有候選物件進行篩選。涉及PU Learning的問題。


5.   技術方案介紹


根據專案目標,我們制定了“種子人群聚類細分+聚類人群擴散”和“多方向人群擴散+人群分類優選”的兩種方案。由於聚類分群屬於無監督學習且分群效果不容易評估,因此選擇後者優先實施。


方案整體流程如下圖所示:


640?wx_fmt=png

                          

5.1    多方向人群擴散


在人群擴散方向上,我們探索了6類方向,並在每個方向下挖掘有效特徵,通過白盒條件篩選和黑盒模型預測的方式進行人群擴散。


5.1.1    興趣偏好方向


採用特徵值TGI和TA濃度2個指標,挖掘了4個特徵中與品牌相關的特徵值,並根據特徵值的全網覆蓋量設定TGI和TA濃度閾值,進行白盒擴散。TGI指標衡量了特徵值在品牌人群中的顯著性,TA濃度則衡量了特徵值在品牌人群中的覆蓋率,因此二者共同考慮才能篩選出有效的人群擴散特徵值。


5.1.2    相關品類方向


1)  主營類目分析:根據品牌線上商品數和銷售額計算篩選主營類目,並得出主營類目權重。


2) 相關品牌分析:根據brand-user關係矩陣,採用Jaccard相似度計算相關品牌及相關分。相似度計算公式如下:


640?wx_fmt=png


3)相關類目分析:根據線上user-cate購買行為,通過Association Rule Mining挖掘相關類目,使用confidence指標篩選類目並作為相關分,然後經過類目關係的二度擴散得到最終相關類目結果。類目擴散公式如下,其中表示類目k:


640?wx_fmt=png


5.1.3    競品人群方向


1)競品分析:當前品牌主營類目中,市場份額top10的其他品牌。


2)人群流轉分析:分析發現品牌新增人群中,有較大比例來自競品,說明選擇該方向進行擴散是可靠的。


3) 競品人群轉化模型:以來自競品的人群為目標,挖掘使用者在競品的AIPL狀態、退款、退貨、評分、評價等特徵,訓練競品人群轉化模型。通過模型對競品人群進行轉換預測,實現人群擴散。


5.1.4    搜尋人群方向


1) 搜尋關鍵詞:從引導到品牌成交的搜尋詞中,綜合考慮搜尋詞是否充分競爭以及本品牌在搜尋詞上是否有優勢,實現品牌拉相關的搜尋詞發現。公式如下,其中E表示關鍵詞引導成交的類目資訊熵,640?wx_fmt=png表示關鍵詞引導成交額,640?wx_fmt=png表示關鍵詞引導到品牌的成交額:


640?wx_fmt=png


2)搜尋人群擴散:近15天內搜尋了kwords並點選了品牌主營類目的使用者。


5.1.5  流失人群方向


對於之前屬於品牌人群而現已流失了的使用者,也進行擴散召回,包括近半年從IPL狀態流失的使用者和近1個月從A狀態流失的使用者。


5.1.6    同好人群方向


基於使用者的向量表示,可以直接計算使用者與使用者直接的相似度,從而得到種子使用者最相似的topN個使用者。使用者表示的方法有多種,例如:


a) 使用者偏好的類目向量、品牌向量組合。


b) 將user-item表示為二部圖,基於graph embedding方法生成使用者向量。


5.1.7    人群擴散彙總


最終6個方向的品牌擴散人群彙總去重,作為人群優選模型的輸入。


5.2    目標人群優選模型


沒有歷史投放資料,是此次專案面臨的一個挑戰。我們通過訓練模型來區分目標人群和非目標人群。


5.2.1    評估指標


訓練集的正負樣本,分別從品牌已購人群和其他品牌的人群中取樣得到。從中訓練的分類模型,可以較好的區分品牌目標人群和全網其它人群(大都和目標人群相距較遠),但對區分和品牌目標人群相距不遠的擴散人群則並非同樣有效。


因此,直接使用傳統的分類指標,只能評估模型在訓練集上的效果,不能準確評估其在擴散人群上的分類效果,需要設計新的評估指標。


PredictTA TopNPrecision指標由此而來,表示優選的TopN人群中品牌目標人群的佔比,該指標越大說明模型預測效果越好。我們通過對比該指標在不同模型上使用不同topN值的值,驗證了它的一致性;並設計NewTA topN Recall指標,即優選人群在之後一段時間品牌新增目標人群的佔比,驗證了它的正確性。


640?wx_fmt=png


上圖中,紫色框表示品牌目標人群即種子人群,藍色框表示模型優選出的TopN人群,它與種子人群有小部分交集,交集佔藍色框的比例即為PredictTATopN Precision。綠色框表示一週內品牌實際新增人群,與藍色框的交集為預測準確的人群,交集佔綠色框的比例即為NewTA topN Recall。


對於有效的演算法模型,PredictTATopN Precision指標隨著TopN的減小而增大。兩個不同的演算法模型,PredictTA TopN Precision指標在不同TopN取值上的表現是一致的,說明該指標的穩定性。以A品牌為例,其一致性驗證結果如下圖所示:


640?wx_fmt=png


5.2.2    模型訓練


以品牌目標人群為正樣本,從全網其它品牌的人群中隨機選負樣本,經過資料預處理、歸一化、序列化編碼後,訓練並優化人群優選模型。


1)樣本選擇


a. 正樣本選擇:對於線上市場份額大的品牌而言,直接用品牌已購人群即可。但對新品牌或者線上市場份額小的品牌,已購人群可能很小,這時就需要對正樣本進行擴充,比如加入興趣人群、加入與品牌定位相似的其它品牌的人群。


b. 負樣本選擇:預設從全網其它品牌的人群中隨機取樣,但發現全網人群中特徵缺失的情況比較多,負樣本集離擴散人群比較遠,因此實驗了從全網其它品牌的已購人群中取樣,PredictTA TopN Precision(N=300萬)指標絕對值有0.8%的提升。


2)特徵工程


a.  數值型特徵離散化。年購物天數、近30天訂單數等特徵進行等距離散,提高模型穩定性和效果。


b. 列舉型特徵值篩選。汽車型號、收貨省份等特徵長尾分佈非常明顯,篩選出與目標品牌相關的特徵值。


c. 多值特徵處理。偏好品牌、偏好類目這樣的特徵,一個使用者可以同時有多個特徵值。以品牌A品牌為例,我們在b步篩選的基礎上,對比了只保留偏好值最大的特徵、只保留品牌最相關的特徵、保留品牌相關的多個特徵3種不同的處理方法,效果如下:


640?wx_fmt=png


d.  特徵編碼。主要採用one-hot編碼方式。


e. 稀疏特徵embedding。對於類目id,品牌id這種高維高稀疏性的特徵,直接將其作為分類模型的特徵會影響最終的模型效果,為此,我們借鑑word embedding的思路,將使用者過去一段時間內對類目(或品牌)的行為序列作為doc,將類目(或品牌)本身作為word,基於全網活躍使用者的行為序列(doc集合)訓練類目(或品牌)的embedding表示。具體而言,我們將類目(或品牌)編碼為100維的低維稠密向量,並將其作為預測特徵用於模型訓練。


f.  特徵選擇。首先使用全部特徵進行模型訓練,然後根據特徵重要性程度篩除部分尾部特徵,重新訓練模型,通過比較模型的PredictTA TopN Precision指標確定此次特徵選擇是否更好。


3)訓練模型


a. LR模型。使用邏輯迴歸作為baseline的演算法,除了模型簡單容易理解外,還有個好處是可以得出特徵和特徵值的重要性。


b. RF模型。對隨機森林模型的實驗效果並不理想,在相同的樣本和特徵上Precision和AUC指標均比LR低,且特徵重要性結果只能到特徵粒度不能到特徵值粒度,因此不再使用。


c. PS-SMART。基於PS架構的GBDT演算法模型,決策樹弱分類器加上GBM演算法,具有較強的非線性擬合能力,在應用中相比其它兩種演算法模型效果更好。因此選擇PS-SMART作為最終的演算法模型,並對損失函式、樹的個數深度、正則係數進行調優。


模型與特徵相關對比結果如下表:


640?wx_fmt=png


5.2.3  模型預測


使用訓練好的人群優選模型,對5.1節中產出的擴散人群進行預測打分,篩除預測分數小於0.5的人群,再根據拉新的目標過濾品牌現有IPL人群。


5.3    年貨人群模型


此次品牌投放需求臨近春節,與年貨的相關性很大。雖然可以用最新的樣本資料訓練日常的目標人群優選模型,但人群擴散方向和相關特徵並非針對年貨場景而挖掘的,因此不能有效捕捉出於屯年貨動機的消費需求,需要針對年貨場景單獨建立一個人群模型進行預測。


但由於年貨場景與日期時間高度相關,需要用到去年春節期間品牌相關的人群資料,與日常模型差異較大,不方便合併,需要單獨建模。


5.3.1    品牌相關年貨類目


1) 年貨類目挖掘:統計春節期間包含“年貨”的搜尋詞所引導點選的類目資料,再由運營同學根據業務經驗篩選出部分與年貨相關性較強的類目,從而得到二級類目粒度的年貨類目資料。


2)  品牌相關年貨類目:根據春節期間融合不同行為的“使用者-類目”矩陣,通過I2I演算法計算年貨類目的相關性,進而得到品牌主營類目相關的年貨類目及其相關分。


5.3.2    年貨人群特徵


1)  人群屬性特徵:同日常人群優選模型一樣,包括使用者人口基礎屬性、人口預測屬性等。


2)  人群偏好特徵:同日常人群優選模型一樣,包括與目標品牌相關的偏好品牌、生活標籤、偏好類目、及偏好品牌等特徵。


3)  品牌主營類目行為特徵、品牌相關年貨類目行為特徵。包括有行為的相關年貨類目id、類目相關性等特徵。


5.3.3    年貨人群模型


1) 樣本選擇:根據投放時間的農曆日期,選取去年當日前1個月有行為的使用者做樣本。其中以去年當日到元宵節期間轉化到品牌PL狀態的使用者為正樣本,隨機採用同等數量的其他使用者為負樣本,訓練年貨人群模型。


2) 模型訓練:基於日常人群優選模型的經驗,同樣採用PS-SMART演算法進行模型訓練、優化、及特徵重要性分析。


3) 模型預測:圈選投放日期前1個月對品牌主營類目及相關年貨類目有行為的使用者,使用年貨人群模型進行預測,去除預測分數小於0.5的使用者,根據拉新目標去除品牌現有IPL人群。


5.4    目標人群模型融合


根據日常人群優選模型和年貨人群模型的PredictTA TopN Precision指標,確定目標人群中2個模型優選結果的佔比,最終篩選出指定數量的投放人群,匯入資料銀行,供服務商同步到DMP進行品牌廣告投放。


5.5    投放效果追蹤


品牌A投放案例,演算法優選年貨人群(A人群包),服務商通過策略中心找出品牌A購買人群同時購買的年貨類目,選取買了對應類目的人群(A人群包),分別在鑽展投放。其中演算法優選人群在“O->IPL”人群關係加深率指標上相比高47%,拉新轉化效果顯著。演算法優選人群內部,年貨模型轉化率最低,混合模型轉化率最高,說明在春節期間品牌A的目標人群與日常目標人群特徵比較相近,有年貨囤零食需求的日常目標人群在春節期間轉化率最好。


6.   挑戰與應對


6.1  專案時間週期短


因此我們優先保證模型目標與業務目標的一致,時間上做到最新,對投放渠道則沒有研究和優化。


6.2  無歷史反饋資料


品牌人群優選模型,由於沒有品牌投放歷史,不能從使用者的歷史投放反饋中來學習品牌人群特徵。尤其是不能獲取大量直接的負樣本,只能以隨機人群來代替,在樣本選擇上還有很大的提升空間。


6.3  無歷史屬性特徵


年貨人群模型和時間緊密相關,但由於儲存週期的原因,只能獲取使用者去年的行為特徵,而無法獲取去年的屬性和偏好特徵,只能用近期的屬性和偏好特徵來代替,在特徵實效性上也有較大提升空間。


6.4  重要的稀疏特徵


模型使用的特徵中有較多的稀疏特徵,這些特徵的特徵值呈長尾分佈,全部使用會引入很多噪聲影響模型效果,只選高頻特徵又會丟失較多資訊,為此我們採用特徵值的TGI和TA濃度兩個指標綜合篩選,達到保留相關特徵值、減少噪音和資訊丟失的目的。


6.5  有效的評估指標


也是由於無歷史反饋資料,導致用於優選的擴散人群與訓練模型的人群分佈有較大差異,單純的AUC、Precision等指標不能準確衡量優選模型在擴散人群上的效果,為此我們設計並驗證了PredictTA TopN Precision評估指標,有效指導了模型的優化。


7. 總結與展望


針對品牌目標人群定向,此次實踐的人群擴散+優選的演算法流程、人群優選/年貨人群模型、及提出的PredictTA TopN Precision評估指標是非常有效的。後續優化方向,包括前面挑戰中提到的基於使用者反饋資料的樣本優化,需要大量的投放反饋資料;使用者歷史屬性和偏好特徵優化,需要儲存更多的歷史特徵資料;稀疏特徵的優化,可通過深度學習方法將稀釋特徵對映到稠密特徵空間實現;使用者在生活方式/消費心理方面的embedding特徵,對於人群優選非常有用,多工學習是不錯的實現方式。



640?wx_fmt=gif

你可能還喜歡

點選下方圖片即可閱讀


640?wx_fmt=jpeg

領域驅動設計,盒馬技術團隊這麼做


640?wx_fmt=jpeg

如何量化考核技術人的 KPI?


640?wx_fmt=jpeg

看完這8本演算法好書,才算真正懂了 AI



640?wx_fmt=jpeg

關注「阿里技術」

把握前沿技術脈搏

相關文章