因果推斷在騰訊遊戲中的應用

陶然陶然發表於2022-11-17

   01 遊戲中的因果推斷:挑戰與解決方案

  在遊戲場景中,常常會面臨如下問題:

  (1)在一些遊戲業務中的運營策略和活動是難以對使用者進行實驗的,因為會帶來異質化的體驗引發使用者的感受的差異。通常產品運營和策劃會經驗性地設計運營策略和活動,但隨著精細化運營的思想的逐步深入,需要具體量化的資料表現以輔助決策, 而離線因果推斷就是非常適配此類問題的方法論。

  (2)一般而言,觀察資料中的干預不是隨機的,常常帶有人工運營或演算法的選擇性偏差。在實際的對比中我們發現選擇的干預組與對照組使用者所不一樣的特有屬性,因此怎樣進行科學化的計算或推斷就顯得至關重要。

  為了應對此挑戰,我們可以採用以下可行性方法:

  針對實驗資料缺乏的問題,利用觀測資料:可使用 ATT(干預組處理效應,ATT=E[Y1-Y0|T=1])來評估對受到干預人群的效應,例如使用傾向性得分匹配(PSM),PSM可以將干預組和對照組進行一對一匹配,並且可以提取匹配後的使用者個體。

  可以使用因果推斷計算 ATE(平均處理效應,ATE=E[Y1-Y0])來評估整體效應。另外,有時會透過加權的方法使樣本分佈得更均勻,均勻備選方案有 Inverse-Probability-Treatment-Weighting(IPTW)、Double-Machine-Learning(DML)、Double-Robust-Estimator(DRE)、X-Learner 等。

  此外在比如利用雙重穩健評估(DRE)時,由於在業務中可能無法覆蓋全部的混淆因子,DRE 在這種場景下更加穩健,且 DRE 可在傾向性分數預測不準的情況下透過結果預測來進行調整。

  遊戲中的因果推斷所面臨的技術挑戰主要包括:

  一般的因果推斷無法解決業務中遇到的資料量巨大的問題,而單次抽樣又會導致資料抽樣偏差,所以儘量用全量資料。因而,一般可選的常見的因果推斷工具集如微軟 Econml、Dowhy和Uber Causalml 這類非分散式實現的工具集就無法滿足我們的業務需求。

  眾多業務均需要精細化運營策略,多場景的資料量挑戰巨大。尤其是需要在短時間內高質高量地做出推斷結果,因此對於運算能力是非常嚴峻的考驗。

  當面對遊戲中的大規模推斷場景,我們可以採用針對性的解決方案。本文將選取以下三方面展開講解:

  分散式低複雜度傾向性分數匹配;

  分散式魯棒雙重穩健評估;

  基於多幹預或長時間干預、有混沌效應的分散式皮膚雙重差分方法深度實現。  

   02 分散式低複雜度傾向性分數匹配

  以往的傾向性分數匹配的計算步驟主要為,先進行 Propensity Score(PS)計算,之後進入 Matching 階段。而在 Matching 階段計算的工作量是非常複雜且巨大的,如在 KNN-PSM 的透過逐一對比實現匹配的過程中,實驗組每計算出一個相應分數,就會逐一跟對照組進行匹配,此類匹配就是基於 KNN 的思想而進行的。

  為了彌補傾向性分數匹配的計算複雜且工作量巨大的缺陷,我們提出了運用 Hist-PSM來將連續變數轉化為直方變數實現匹配的策略。大體可總結為以下步驟:

  ① 計算 Propensity Score(PS);

  ② 根據 PS 的分佈,進行 PS 分桶,即,將每一實驗組與對照組的個體的連續 PS 對映到 K 個 PS 分桶中去;

  ③ 計算實驗組與對照組在每個 PS 分桶的個體數量;

  ④ 計算每個 PS 分桶的閾值,取每個 PS 分桶中實驗組與對照組中的最小個體數量;

  ⑤ 基於 PS 分桶閾值過濾實驗組資料 D1,在實驗組的每個 PS 分桶中,隨機提取閾值數量的個體;

  ⑥ 基於 PS 分桶閾值過濾對照組資料 D0,在對照組的每個 PS 分桶中,隨機提取閾值數量的個體;

  ⑦ 合併資料 D0 與 D1,輸出 MatchingDf。總結來說,即無論 PS 是大是小,只要將其丟入分桶,即可找到相應分桶中的對應群體,這將大大降低運算的複雜度和工作量。  

  除了要達到降低運算複雜度的目的,還應滿足最大程度適配平臺的要求。分散式計算架構就是把大資料計算任務劃分為多個子任務進行計算,然後將結果合併彙總為總的計算結果。分散式匹配思想就是將混雜資料透過分散式匹配模組分為配平對照組和配平干預組,然後再彙總為配平資料。  

  分散式低複雜度傾向性分數匹配(Hist-PSM)相較而言具有以下優勢:

  記憶體佔用更小:KNN-PSM 需要用 32 位的浮點數去儲存特徵值,並用 32 位的整形去儲存索引,而 Hist-PSM 只需要用 8 位去儲存直方圖,相當於減少了 1/8;

  計算代價變得更小了:計算特徵分裂增益時,KNN-PSM 需要遍歷一次資料找到合適的分裂點,而 Hist-PSM 則只需要遍歷一次即可。相對來說任務量更低,非常適合諸如遊戲的天量級複雜場景的任務量。  

  分散式 Hist-PSM For 大規模推斷的匹配度是如何的呢?在一項針對開放資料集進行測試的驗證當中,我們發現 Age、SibSp、Parch、Fare 在進行匹配前,實驗組和對照組是有顯著差異的。KNN-PSM 可以一定程度上控制一些混淆變數,也能一定程度上控制兩組間的差異。但在 SibSp 項裡,由於某些重要混淆因素的存在,KNN-PSM 對其的控制相對欠缺。而 Hist-PSM 對實驗組和對照組的控制效果良好,兩組之間的差異並不顯著。  

  而從 SibSp 的屬性分佈結果當中也能看出,實驗組和對照組變數在進行匹配前的差異較大。在透過 KNN-PSM 進行匹配後,差異一定程度上被控制但未完全消除。而透過 Hist-PSM 進行匹配後,混淆變數被有效控制,分佈呈現拉齊的狀態。  

   03 分散式魯棒雙重穩健評估

  在很多場景下,PSM 需要對所有的混淆變數取得一定的控制才能得到真實的影響(ATE)和效果提升。但在實際操作的過程中,想要控制所有的混淆變數取得卻困難重重。因此,我們提出了改進型的分散式魯棒雙重穩健估計方法來作為應對策略。

  一般來說,傳統雙重穩健估計在對實驗組的 PS 進行計算時是將傾向性分數逆加權與線性迴歸(Linear regression)來進行融合,以此達到雙重穩健的目的。但其在計算過程中比較適配於連續性問題(如學生的分數、工人的收入等),但如果進行的計算是針對留存、流失等類似的問題,那這類二元型別的問題的計算量在有些情況下會非常龐大,由於雙重穩健估計沒有均一化(Uniformization)的過程,對於傾向值得分的倒數較大的場景,會導致大量小於 -1 或者大於 1 的 ATE 出現。

  運用 Binary 雙重檔案估計則可透過逆對映將二元問題結果轉化為連續迴歸問題,使用線性迴歸模型的預測值逼近分類任務真實標記的對數機率。  

  在一項針對開放性資料集的應用當中,在具有 Hidden-Confounder 的二元結果環境下,我們進行了 1 萬次ATE擬合模擬檢驗。發現相比 UBER 表現好的演算法 UBER-X-Learner,Binary 雙重穩健估計將平均偏差降低了 42.16%;相比傳統雙重穩健估計,Binary 雙重穩健估計將平均偏差降低了 38.54%。  

  由此我們可以看出,分散式魯棒雙重穩健評估可以經受住真實資料計算任務的考驗,而且也得到了實驗的驗證。此雙重驗證充分說明了該類雙重穩健評估方法的科學性和可靠性。

  在之後的安慰劑(Placebo)檢驗任務中,我們發現在對輸入干預隨機化之後,Binary雙重穩健估計比 PSM 和 DRE 更加密集地分佈在 0 附近(DML 會存在大量 ATE>1的點)。這就說明針對留存或流失這類的二元問題,傳統的雙重估計策略的效果就顯得差強人意。  

  而在縮減了樣本量(Subset-Data)的模擬驗證當中,PSM 和原始雙重穩健估計(DRE)與 True-Ate 的真實值是呈現出一定偏差的,即趨勢得分和結果估計都變得更加不準確,尤其是DML會嚴重偏離真實值。而我們的 Binary 雙重穩健估計則表現出與真實值的良好契合度,也就是說依然表現出了良好的 ATE 估計,這也是其良好穩健性的充分證明。  

   04 分散式皮膚雙重差分

  在多幹預場景當中,尤其在遊戲當中面對連續性投放如多次、多幹預、覆蓋眾多使用者、存在多次參與的使用者、有的使用者在其間有中斷和退出行為時,即當使用者參與活動的次數、程度不同時,按照以往的傳統方法是難以對此類不同活動進行區分的。那麼為了準確估計各類活動的真實影響,我們提出了運用 DID 的策略來進行干預。

  考慮到在活動過程中,主動參與型別的使用者因為其目的和願望的主動性,相較於非主動參與類使用者,可能會存在一定的選擇和行為偏差以及顯著性差異。此時,運用 DID 策略則可以在滿足平行趨勢假設的前提下,對實驗組和對照組兩組的差異的交叉項進行計算。隨著時間的變化,我們發現兩組交叉項的係數的偏離度在可接受範圍內(始終處於 0 值附近),尤其始終處於置信區間內。這就說明實驗組和對照組的使用者在活動開始前的指標是符合平行趨勢假設的,也說明是滿足 DID 使用條件的。

  接下來我們就可以透過構造皮膚二重差分(Panel DID)模型對各個活動的效果進行歸因。  

  首先對使用者的資料進行初步的整理,以對所有使用者從活動的起始至完結的所有資料進行有效的捕捉。接下來構造一個皮膚差分資料,明確干預組和對照組及各干預項的開始時間,進行計算並對干預項進行評測。在平行趨勢假設驗證完畢的前提下,利用皮膚二重差分模型進行擬合,對資料集進行線性迴歸擬合併利用最小二乘法進行引數估計,根據引數估計的結果進行統計推斷並量化最終的結果。最終就可以根據量化得出的結果來評估活動的優良度並進行反饋。  

   05 總結與展望

  我們的策略選擇原則是:在面對海量資料的推斷任務時,要將任務進行拆分從而獲得更加明確的選擇項,然後最大程度地實現分散式策略方法對於任務和場景的適配程度。

  儘管目前現有的因果推斷工具相對完備,但針對大規模的離線推斷方法論的建設缺比較缺乏。因此我們仍需要不斷總結經驗,進行方法的完善,最佳化模型契合度和完備性。

  未來,我們將繼續探索潛在的應用場景,不斷挖掘其中的資料集的分佈規律,為模型和方法提供更多的前置和後置檢驗,實現對方法論的標準化和對大資料和平臺的適配性。  

來自 “ DataFunTalk ”, 原文作者:房棟博士;原文連結:http://server.it168.com/a2022/1117/6775/000006775554.shtml,如有侵權,請聯絡管理員刪除。

相關文章