如何發現品牌潛客？目標人群優選演算法模型及實踐解析

阿里技術_發表於2018-10-10

原文網址 : https://blog.csdn.net/b0q8cpra539hafs7/article/details/83005763

640?wx_fmt=jpeg

阿里妹導讀：品牌數字化營銷正在成為熱點，在Uni-Marketing背景下，我們通過策略中心海豹專案，探索和實踐了品牌目標人群優選演算法，在實際投放中取得了非常好的人群轉化效果，並得出一些有價值的演算法和業務結論。本文主要對品牌目標人群優選演算法及相關實踐結論進行介紹。

作者：雲鳴、林君、泊智、一初

1. 背景簡介

全域營銷（Uni-Marketing）戰略是依託大阿里生態，以消費者運營為核心，在新零售體系下實現全鏈路、全媒體、全資料、全渠道的品牌大資料營銷。Uni-Marketing產品矩陣包括品牌資料銀行、全域策略（策略中心）、全域傳播（Uni-Desk）、全域運營（品牌號、智慧門店、天貓營銷產品）等。傳統品牌營銷的痛點在於效果無法量化和追蹤，而阿里的產品和資料閉環可以很好的解決這個問題。

策略中心年貨節投放海豹專案，通過大資料+演算法的手段，對A品牌的目標人群進行分析，建立人群優選演算法模型，挖掘品牌目標潛客。品牌A的年貨節實際投放效果，演算法優選人群相比基於業務經驗使用規則圈選的人群，在“O->IPL”人群關係加深率指標上好47%，顯示了人群優選演算法的有效性。

2. 名詞解釋

品牌消費者關係：Opportunity（機會）、Awareness（認知）、Interest（興趣）、Purchase（購買）、Loyalty（忠誠）。

人群關係加深率：衡量品牌營銷效果的直接指標。“O->I”人群關係加深率，即機會人群到興趣人群的轉化率。

品牌資料銀行：從“融合、分析、啟用”三個緯度實現品牌消費者資料資產的管理和增值，即品牌消費者資料資產的高效梳理、消費者全鏈路的透視分析、最後到多元營銷場景的應用，包括阿里的電商、娛樂和營銷服務矩陣。

品牌策略中心：以解決“機會在哪裡”和“如何增長”為目標，賦能品牌開發生意策略，實現策略的可應用、可驗證、可優化。功能包括市場概覽與細分、競爭與得失分析、消費者細分與多維洞察、人群放大與優選等，可用於新品上市、品類拉新、品類成長、品牌升級等場景。

3. 專案目標

基於策略中心的品牌人群定向，與程式化廣告的不同之處在於，要根據品牌方的營銷需求（包括目標、渠道、時間和預算）產出特定規模的目標人群，進而再針對性地營銷投放。

此次實踐即以年貨節拉新為目標，找到指定規模的潛在機會人群或者認知人群，通過營銷投放將其轉化為品牌興趣人群和已購人群，從而提升品牌消費者資產。

4. 業界方案

業界相關方案主要與程式化廣告中人群定向相關，方法基本都是Look-alike人群擴散，具體有以下幾種：

1）標籤擴散：根據已有目標使用者畫像，給使用者打各種標籤，再利用標籤找到機會人群。

2）基於標籤的協同過濾：在標籤擴散的基礎上，採用基於使用者的協同過濾演算法，找到與種子人群相似的機會人群。

3）基於社交關係的擴散：以具有相似社交關係的人也有相似的興趣愛好/價值觀為前提假設，利用社交網路關係進行人群擴散。

4）基於聚類的擴散：根據使用者畫像或標籤，採用層次聚類演算法（如BIRCH或CURE演算法）對人群進行聚類，再從中找出與種子人群相似的機會人群。

5）目標人群分類方法：以種子人群為正樣本，候選物件為負樣本，訓練分類模型，然後用模型對所有候選物件進行篩選。涉及PU Learning的問題。

5. 技術方案介紹

根據專案目標，我們制定了“種子人群聚類細分+聚類人群擴散”和“多方向人群擴散+人群分類優選”的兩種方案。由於聚類分群屬於無監督學習且分群效果不容易評估，因此選擇後者優先實施。

方案整體流程如下圖所示：

640?wx_fmt=png

5.1 多方向人群擴散

在人群擴散方向上，我們探索了6類方向，並在每個方向下挖掘有效特徵，通過白盒條件篩選和黑盒模型預測的方式進行人群擴散。

5.1.1 興趣偏好方向

採用特徵值TGI和TA濃度2個指標，挖掘了4個特徵中與品牌相關的特徵值，並根據特徵值的全網覆蓋量設定TGI和TA濃度閾值，進行白盒擴散。TGI指標衡量了特徵值在品牌人群中的顯著性，TA濃度則衡量了特徵值在品牌人群中的覆蓋率，因此二者共同考慮才能篩選出有效的人群擴散特徵值。

5.1.2 相關品類方向

1) 主營類目分析：根據品牌線上商品數和銷售額計算篩選主營類目，並得出主營類目權重。

2) 相關品牌分析：根據brand-user關係矩陣，採用Jaccard相似度計算相關品牌及相關分。相似度計算公式如下：

640?wx_fmt=png

3）相關類目分析：根據線上user-cate購買行為，通過Association Rule Mining挖掘相關類目，使用confidence指標篩選類目並作為相關分，然後經過類目關係的二度擴散得到最終相關類目結果。類目擴散公式如下，其中表示類目k：

640?wx_fmt=png

5.1.3 競品人群方向

1)競品分析：當前品牌主營類目中，市場份額top10的其他品牌。

2)人群流轉分析：分析發現品牌新增人群中，有較大比例來自競品，說明選擇該方向進行擴散是可靠的。

3) 競品人群轉化模型：以來自競品的人群為目標，挖掘使用者在競品的AIPL狀態、退款、退貨、評分、評價等特徵，訓練競品人群轉化模型。通過模型對競品人群進行轉換預測，實現人群擴散。

5.1.4 搜尋人群方向

1) 搜尋關鍵詞：從引導到品牌成交的搜尋詞中，綜合考慮搜尋詞是否充分競爭以及本品牌在搜尋詞上是否有優勢，實現品牌拉相關的搜尋詞發現。公式如下，其中E表示關鍵詞引導成交的類目資訊熵， 640?wx_fmt=png 表示關鍵詞引導成交額，表示關鍵詞引導到品牌的成交額：

640?wx_fmt=png

2）搜尋人群擴散：近15天內搜尋了kwords並點選了品牌主營類目的使用者。

5.1.5 流失人群方向

對於之前屬於品牌人群而現已流失了的使用者，也進行擴散召回，包括近半年從IPL狀態流失的使用者和近1個月從A狀態流失的使用者。

5.1.6 同好人群方向

基於使用者的向量表示，可以直接計算使用者與使用者直接的相似度，從而得到種子使用者最相似的topN個使用者。使用者表示的方法有多種，例如：

a) 使用者偏好的類目向量、品牌向量組合。

b) 將user-item表示為二部圖，基於graph embedding方法生成使用者向量。

5.1.7 人群擴散彙總

最終6個方向的品牌擴散人群彙總去重，作為人群優選模型的輸入。

5.2 目標人群優選模型

沒有歷史投放資料，是此次專案面臨的一個挑戰。我們通過訓練模型來區分目標人群和非目標人群。

5.2.1 評估指標

訓練集的正負樣本，分別從品牌已購人群和其他品牌的人群中取樣得到。從中訓練的分類模型，可以較好的區分品牌目標人群和全網其它人群（大都和目標人群相距較遠），但對區分和品牌目標人群相距不遠的擴散人群則並非同樣有效。

因此，直接使用傳統的分類指標，只能評估模型在訓練集上的效果，不能準確評估其在擴散人群上的分類效果，需要設計新的評估指標。

PredictTA TopNPrecision指標由此而來，表示優選的TopN人群中品牌目標人群的佔比，該指標越大說明模型預測效果越好。我們通過對比該指標在不同模型上使用不同topN值的值，驗證了它的一致性；並設計NewTA topN Recall指標，即優選人群在之後一段時間品牌新增目標人群的佔比，驗證了它的正確性。

640?wx_fmt=png

上圖中，紫色框表示品牌目標人群即種子人群，藍色框表示模型優選出的TopN人群，它與種子人群有小部分交集，交集佔藍色框的比例即為PredictTATopN Precision。綠色框表示一週內品牌實際新增人群，與藍色框的交集為預測準確的人群，交集佔綠色框的比例即為NewTA topN Recall。

對於有效的演算法模型，PredictTATopN Precision指標隨著TopN的減小而增大。兩個不同的演算法模型，PredictTA TopN Precision指標在不同TopN取值上的表現是一致的，說明該指標的穩定性。以A品牌為例，其一致性驗證結果如下圖所示：

640?wx_fmt=png

5.2.2 模型訓練

以品牌目標人群為正樣本，從全網其它品牌的人群中隨機選負樣本，經過資料預處理、歸一化、序列化編碼後，訓練並優化人群優選模型。

1）樣本選擇

a. 正樣本選擇：對於線上市場份額大的品牌而言，直接用品牌已購人群即可。但對新品牌或者線上市場份額小的品牌，已購人群可能很小，這時就需要對正樣本進行擴充，比如加入興趣人群、加入與品牌定位相似的其它品牌的人群。

b. 負樣本選擇：預設從全網其它品牌的人群中隨機取樣，但發現全網人群中特徵缺失的情況比較多，負樣本集離擴散人群比較遠，因此實驗了從全網其它品牌的已購人群中取樣，PredictTA TopN Precision（N=300萬）指標絕對值有0.8%的提升。

2）特徵工程

a. 數值型特徵離散化。年購物天數、近30天訂單數等特徵進行等距離散，提高模型穩定性和效果。

b. 列舉型特徵值篩選。汽車型號、收貨省份等特徵長尾分佈非常明顯，篩選出與目標品牌相關的特徵值。

c. 多值特徵處理。偏好品牌、偏好類目這樣的特徵，一個使用者可以同時有多個特徵值。以品牌A品牌為例，我們在b步篩選的基礎上，對比了只保留偏好值最大的特徵、只保留品牌最相關的特徵、保留品牌相關的多個特徵3種不同的處理方法，效果如下：

640?wx_fmt=png

d. 特徵編碼。主要採用one-hot編碼方式。

e. 稀疏特徵embedding。對於類目id，品牌id這種高維高稀疏性的特徵，直接將其作為分類模型的特徵會影響最終的模型效果，為此，我們借鑑word embedding的思路，將使用者過去一段時間內對類目（或品牌）的行為序列作為doc，將類目（或品牌）本身作為word，基於全網活躍使用者的行為序列（doc集合）訓練類目（或品牌）的embedding表示。具體而言，我們將類目（或品牌）編碼為100維的低維稠密向量，並將其作為預測特徵用於模型訓練。

f. 特徵選擇。首先使用全部特徵進行模型訓練，然後根據特徵重要性程度篩除部分尾部特徵，重新訓練模型，通過比較模型的PredictTA TopN Precision指標確定此次特徵選擇是否更好。

3）訓練模型

a. LR模型。使用邏輯迴歸作為baseline的演算法，除了模型簡單容易理解外，還有個好處是可以得出特徵和特徵值的重要性。

b. RF模型。對隨機森林模型的實驗效果並不理想，在相同的樣本和特徵上Precision和AUC指標均比LR低，且特徵重要性結果只能到特徵粒度不能到特徵值粒度，因此不再使用。

c. PS-SMART。基於PS架構的GBDT演算法模型，決策樹弱分類器加上GBM演算法，具有較強的非線性擬合能力，在應用中相比其它兩種演算法模型效果更好。因此選擇PS-SMART作為最終的演算法模型，並對損失函式、樹的個數深度、正則係數進行調優。

模型與特徵相關對比結果如下表：

640?wx_fmt=png

5.2.3 模型預測

使用訓練好的人群優選模型，對5.1節中產出的擴散人群進行預測打分，篩除預測分數小於0.5的人群，再根據拉新的目標過濾品牌現有IPL人群。

5.3 年貨人群模型

此次品牌投放需求臨近春節，與年貨的相關性很大。雖然可以用最新的樣本資料訓練日常的目標人群優選模型，但人群擴散方向和相關特徵並非針對年貨場景而挖掘的，因此不能有效捕捉出於屯年貨動機的消費需求，需要針對年貨場景單獨建立一個人群模型進行預測。

但由於年貨場景與日期時間高度相關，需要用到去年春節期間品牌相關的人群資料，與日常模型差異較大，不方便合併，需要單獨建模。

5.3.1 品牌相關年貨類目

1) 年貨類目挖掘：統計春節期間包含“年貨”的搜尋詞所引導點選的類目資料，再由運營同學根據業務經驗篩選出部分與年貨相關性較強的類目，從而得到二級類目粒度的年貨類目資料。

2) 品牌相關年貨類目：根據春節期間融合不同行為的“使用者-類目”矩陣，通過I2I演算法計算年貨類目的相關性，進而得到品牌主營類目相關的年貨類目及其相關分。

5.3.2 年貨人群特徵

1) 人群屬性特徵：同日常人群優選模型一樣，包括使用者人口基礎屬性、人口預測屬性等。

2) 人群偏好特徵：同日常人群優選模型一樣，包括與目標品牌相關的偏好品牌、生活標籤、偏好類目、及偏好品牌等特徵。

3) 品牌主營類目行為特徵、品牌相關年貨類目行為特徵。包括有行為的相關年貨類目id、類目相關性等特徵。

5.3.3 年貨人群模型

1) 樣本選擇：根據投放時間的農曆日期，選取去年當日前1個月有行為的使用者做樣本。其中以去年當日到元宵節期間轉化到品牌PL狀態的使用者為正樣本，隨機採用同等數量的其他使用者為負樣本，訓練年貨人群模型。

2) 模型訓練：基於日常人群優選模型的經驗，同樣採用PS-SMART演算法進行模型訓練、優化、及特徵重要性分析。

3) 模型預測：圈選投放日期前1個月對品牌主營類目及相關年貨類目有行為的使用者，使用年貨人群模型進行預測，去除預測分數小於0.5的使用者，根據拉新目標去除品牌現有IPL人群。

5.4 目標人群模型融合

根據日常人群優選模型和年貨人群模型的PredictTA TopN Precision指標，確定目標人群中2個模型優選結果的佔比，最終篩選出指定數量的投放人群，匯入資料銀行，供服務商同步到DMP進行品牌廣告投放。

5.5 投放效果追蹤

品牌A投放案例，演算法優選年貨人群（A人群包），服務商通過策略中心找出品牌A購買人群同時購買的年貨類目，選取買了對應類目的人群（A人群包），分別在鑽展投放。其中演算法優選人群在“O->IPL”人群關係加深率指標上相比高47%，拉新轉化效果顯著。演算法優選人群內部，年貨模型轉化率最低，混合模型轉化率最高，說明在春節期間品牌A的目標人群與日常目標人群特徵比較相近，有年貨囤零食需求的日常目標人群在春節期間轉化率最好。

6. 挑戰與應對

6.1 專案時間週期短

因此我們優先保證模型目標與業務目標的一致，時間上做到最新，對投放渠道則沒有研究和優化。

6.2 無歷史反饋資料

品牌人群優選模型，由於沒有品牌投放歷史，不能從使用者的歷史投放反饋中來學習品牌人群特徵。尤其是不能獲取大量直接的負樣本，只能以隨機人群來代替，在樣本選擇上還有很大的提升空間。

6.3 無歷史屬性特徵

年貨人群模型和時間緊密相關，但由於儲存週期的原因，只能獲取使用者去年的行為特徵，而無法獲取去年的屬性和偏好特徵，只能用近期的屬性和偏好特徵來代替，在特徵實效性上也有較大提升空間。

6.4 重要的稀疏特徵

模型使用的特徵中有較多的稀疏特徵，這些特徵的特徵值呈長尾分佈，全部使用會引入很多噪聲影響模型效果，只選高頻特徵又會丟失較多資訊，為此我們採用特徵值的TGI和TA濃度兩個指標綜合篩選，達到保留相關特徵值、減少噪音和資訊丟失的目的。

6.5 有效的評估指標

也是由於無歷史反饋資料，導致用於優選的擴散人群與訓練模型的人群分佈有較大差異，單純的AUC、Precision等指標不能準確衡量優選模型在擴散人群上的效果，為此我們設計並驗證了PredictTA TopN Precision評估指標，有效指導了模型的優化。

7. 總結與展望

針對品牌目標人群定向，此次實踐的人群擴散+優選的演算法流程、人群優選/年貨人群模型、及提出的PredictTA TopN Precision評估指標是非常有效的。後續優化方向，包括前面挑戰中提到的基於使用者反饋資料的樣本優化，需要大量的投放反饋資料；使用者歷史屬性和偏好特徵優化，需要儲存更多的歷史特徵資料；稀疏特徵的優化，可通過深度學習方法將稀釋特徵對映到稠密特徵空間實現；使用者在生活方式/消費心理方面的embedding特徵，對於人群優選非常有用，多工學習是不錯的實現方式。

640?wx_fmt=gif