貨拉拉利用時空熵平衡提升營銷效率的實踐
本文將從工業界物流領域視角出發,分享如何基於觀測資料提升營銷策略效率。
01
因果推斷與營銷觀測資料
因果推斷是一種用於確定一個事件(因)是否導致了另一個事件(果)的一種技術。在很多場景中,相關性不等於因果性。如在溫度升高的情況下,冰淇淋銷量與溺水量之間存在相關性,但兩者之間不存在因果性。營銷場景更希望關注因果性,如補貼/定價的原因如何影響結果單量的增長。相關性包含因果性,相關性主要產生於:因果(causation)、混淆(confounding)、樣本選擇偏差(selection bias)。
營銷與每個人都息息相關,營銷的底層邏輯在於創造需求、滿足需求和喚醒需求。貨拉拉營銷的一個主要目標就是使用者增長,在增長體系中,AARRR 關注獲客渠道,RARRA 關注留存喚醒需求,Growth Loop 同時關注獲客和留存,構成增長飛輪,可形成複利。營銷工具包括:觸達、廣告、線索、補貼、定價等。隨著營銷技術的增長,營銷領域逐步實現智慧化。智慧營銷是透過大資料和 AI 技術實現營銷自動化、精準化、最最佳化。
貨拉拉使用因果推斷技術,在所有營銷領域實現了營銷效率的提升,該技術覆蓋了新客轉化、使用者增長、使用者體驗、使用者留存、使用者召回等使用者全週期。
因果推斷模型主要選擇 Uplift Model 計算因果效應,並結合運籌最佳化策略來使用。Uplift Model 經過長時間的演變,目前演化出不同的技術方向,包括 Meta Learner、因果樹、Deep Learning 等。
我們對因果推斷模型最主要的要求有兩方面:一是穩定性,在不同的場景下都可以使用,解決 OOD 泛化問題;二是能夠在資料上學習到準確的因果效應,在工業上,如果沒有學到好的因果效應,上線後就會產生負向的收益,因此準確性是非常重要的。
因果建模一定會使用到各種資料,可以分為隨機試驗資料(RCTs)和觀測資料(Observational Data)。隨機試驗資料是最完美的資料,不用考慮混雜因素的影響,可以直接計算因果效應;但工業上隨機試驗資料成本極高,在貨拉拉業務上可行性低。企業中更多使用的是觀測資料,其優勢在於成本低、資料量大,透過日常運營積累就可獲得;但觀測資料與混雜因素相關聯,影響因果效應的計算。
混雜因素是觀測資料的主要問題,控制混雜因素的常用方法包括,傾向得分匹配(Propensity Score Matching)、逆向傾向加權(IPW)、混雜因素平衡(Directly Confounding Balancing)、熵平衡(Entropy Balancing)等。
熵平衡方法是在Directly Confounding Balancing 方法基礎上最佳化得來的,目標是最小化熵,或者保證熵平衡,以 Confounding balance 作為限制條件,再加上一個權重的約束,從而保證平滑性。
在貨拉拉,最常用的方法是 IPW 和熵平衡。求出權重值,給樣本賦予權重,控制混雜因素。
熵平衡方法和其它方法相比,具有以下三點優勢:直接約束協變數平衡效果好;直接使用觀測資料,無其他約束;使用全量資料,資料利用率高,權重平滑。
02
物流行業技術挑戰
根據前文介紹,熵平衡是一種很理想的方法。但在實際的物流行業中,仍然面臨著如下一些挑戰:
精細化,要求運營策略能夠精細化到某個地理圍欄;
穩定性,物流行業場景多,需要一個模型適用多個場景;
效果好,要求 Uplift score 要準確,在觀測資料質量下降的情況下依然保持因果效應學習質量。
物流行業受時間、空間影響比較大。
在時間維度上:①訂單受時間影響大,每天存在兩個高峰期,不在時間軸上均勻分配,引入了時間不平衡性;②同城貨運中週一到週五單量多,週末單量少;③搬家週末單量多,週中單量少;④每天晚上22點-第二天6點單量稀疏。
在空間維度上:①市中心單量多,郊區單量少;②一、二線城市單量多,三、四線城市單量少;③專業市場(建材、水果、服裝)單量多,居民區單量少。
因此,因果效應學習過程中在時間和空間會自然引入不平衡效應,導致在某些時空領域內因果效應學習不準確。
03
時空領域熵平衡
基於以上技術挑戰,提出貨運場景下,一種基於靈活網格技術的時空領域熵平衡的因果效應計算方法,提升因果效應計算的準確性。
這種方法包含幾個特點:①基於貨運領域行業特點,提出一種時空領域劃分方法;②空間上提出一種靈活網格計算方法;③和目前的熵平衡方法相比,這種技術可在時空 OD 維度上實現 confounding control,提升因果效應的準確性和模型穩定性;④提出時空熵平衡方法最小化資訊損失。
演算法實現上,時間維度根據訂單密度進行劃分,空間維度使用靈活網格方法進行劃分。H3 蜂窩網路由網約車平臺 Uber 提出,是一個針對地球的空間劃分和空間索引系統,可將地理空間分割為若干正六邊形網格,並用 0-15 級分別定義網格大小。
靈活網格基於基礎網格和訂單量,將若干 H3 網格(同城物流 10 級,跨城物流 6 級)進一步聚合,以提高網格內的訂單密度,靈活網格地理上仍是連通的。其中,聚合規則主要基於訂單量,在保證網格儘量細的同時,保證每個網格內具有一定的訂單量,以保證網格內因果效應學習的準確性。
以上海市為例,黃浦區、普陀區等上海市中心區域訂單密度較大,網格就會劃分得較為精細,單個靈活網格面積就會比較小。在崇明島等上海郊區,區域內訂單密度較小,按照網格內訂單密度標準,劃分的單個靈活網格面積就會較大。當訂單密度標準變更時,靈活網格的劃分也會隨之變更。
基於時空網格劃分,觀測資料被細分到了不同的時空領域。之後,針對每一個時空領域,分別進行熵平衡損失的計算,再根據每一時空領域的資訊含量進行加權,求解出總損失值。基於梯度下降的方法,求解熵平衡的權重係數,並在求解過程中持續觀察干預與混雜因素之間的相關係數是否下降,相關係數下降才能保證損失求解是正確的。求解完成後,將得到的時空領域熵平衡權重值附加到觀測資料上,使用 Uplift Model 計算 ITE 和 ATE,後配合運籌方法,最終實現營銷策略的分發。
在數學推導上,基於傳統的熵平衡方法進行了修改。目標是各時空網格內的熵平衡最小化,限制條件為在每個時空領域內保證混雜因素影響較小,並保證求解的權重係數平滑。這時,問題就轉化為最最佳化問題,接下來使用拉格朗日對偶進行求解。
計算過程中為應對潛在的梯度爆炸問題,使用 PCA 對 confounding 特徵進行降維,並設定靈活網格精細度的超引數。為應對凸函式的限定,根據業務常規性特點,如補貼和定價單調性特點,對干預進行微調以保證凸函式性質。
我們使用補貼和定價的真實業務資料,以及一些模擬資料,進行了驗證,結果顯示,loss 快速收斂。Loss 收斂速度與資料中 confounding 強度有關,如果強度較大,則收斂速度會降低。
為了驗證人為改變觀測資料分佈對真實資料的結果會產生何種影響,我們使用 AUC 和 AUUC 指標來衡量模型準確度在資料更改情況下的變化,來驗證模型的適應情況。結果顯示,雖然 AUC 略有下降,但 AUUC 則會更強,該方法在不同資料集上的表現均符合預期。
從各網格細粒度進行因果效應學習效果評估,和傳統方法相比,在相關係數和 p-value 均有較好的提升,能更好地消除 confounding 的影響。時空熵平衡方法可保證各時空網格內混雜因素均能較好地消除。
04
總結與展望
本次分享是從業務角度,解決觀測資料遇到的一個實際問題。針對物流領域,提出了一種利用觀測資料提升因果效應計算的方法。適用於未來精細化的運營場景,更精細化的 confounding bias 控制。靈活網格劃分方法可擴充套件至其他領域,針對業務中需進一步劃分精細場景的因果推斷問題,均可進行替換。
來自 “ 貨拉拉技術 ”, 原文作者:張洪龍;原文連結:https://server.it168.com/a2024/0223/6840/000006840294.shtml,如有侵權,請聯絡管理員刪除。
相關文章
- 實時計算在有讚的實踐——效率提升之路
- Babel 在提升前端效率的實踐Babel前端
- 貨拉拉自助資料分析平臺實踐
- DevOps 自動化實踐:提升效率的 Botdev
- 實時營銷引擎在vivo營銷自動化中的實踐 | 引擎篇04
- 【提升團隊運營效率】交易履約之訂單中心實踐
- 從Storm到Flink,有贊五年實時計算效率提升實踐ORM
- 貨拉拉國際化測試之深度學習實踐深度學習
- 貨拉拉技術穩定性體系1.0建設實踐
- 貨拉拉貨運iOS使用者端架構最佳化實踐iOS架構
- 貨拉拉大資料測試質效提升之路大資料
- 貨拉拉服務化實踐-為啥都愛“造輪子”?
- 坑系列 — 時間和空間的平衡
- 數字化時代,如何提升企業運營效率?
- 聯想Filez助力大業信託實現效率提升與成本投入的完美平衡
- 貨拉拉大資料離線混合引擎服務建設實踐大資料
- 貨拉拉:95後的貨車人生
- 如何利用Allure報告提升你的測試效率?
- 貨拉拉一站式雲原生AI平臺建設實踐AI
- 貨拉拉王海華:大資料安全體系建設實踐和思考大資料
- 大資料分析助快消行業提升營銷效率_光點科技大資料行業
- 如何利用webpack來提升前端開發效率(二)?Web前端
- 如何利用webpack來提升前端開發效率(一)?Web前端
- 如何利用智慧數字經營提高實體門店效率?
- 貨拉拉貨運雙邊市場實驗全景解讀
- 豐網速運快不快,利用三大硬核實力來提升配送效率
- 提高郵件營銷效率的最佳辦法
- CRM軟體如何提升銷售工作效率
- CRM管理軟體提升銷售工作效率
- 跨境電商CRM必備:提升運營效率,實現持續盈利
- 實在智慧RPA助你提升電商運營效率,快速起爆店鋪
- Runloop有效利用空閒時間OOP
- 精準農業的實踐與挑戰:提升作物產量,邁向資源高效利用新時代
- [譯] 如何利用 Webpack4 提升你的 React.js 開發效率WebReactJS
- 如何利用Requestly提升前端開發與測試的效率,讓你事半功倍?前端
- 如何提升客戶管理效率的實用指南
- 提升CPU等資源的利用率,減少CPU的空轉
- 如何利用抖音拓客營銷工具做好有效營銷?