Debias 技術在金融推薦場景下的應用

碼農談IT發表於2023-03-28

導讀 推薦系統中存在閉環反饋迴圈,受到各種 bias 的影響非常顯著。針對金融場景的特殊性,我們提出了樣本層面上自取樣糾偏框架 SSTE 和特徵層面上偏置代理表徵解耦糾偏框架,較好地平衡了模型的預測精度和無偏性,在多個業務場景的核心指標上取得了明顯收益。

今天的分享圍繞下面四點展開:

1. Debias 背景介紹

2. 自取樣糾偏

3. 偏置代理表徵解耦糾偏

4. 總結與思考

分享嘉賓|喬陽 騰訊 高階應用研究員

編輯整理|鄧君 賽默飛世爾

出品社群|DataFun


01
背景介紹

首先我們從因果推斷出發,對推薦系統中 Bias 產生的機制和 Bias 的型別進行簡介,並給出幾個典型的 Debias 解決方案。

1. 因果推斷與機器學習

Debias 技術在金融推薦場景下的應用

因果推斷是一門研究如何識別變數之間因果關係的學科,Judea Pearl 根據因果問題的可答性,將因果推斷分為三個層次:

① 第一個層次為關聯,探索的是變數間的相關關係,典型應用是機器學習;

② 第二個層次是干預,研究的是實施某種干預的結果,典型應用是 uplift 建模;

③ 第三個層次是反事實,需要將現實世界與未發生的反事實世界比較來分析原因,典型應用有因果圖建模等。

機器學習是一門根據觀測資料進行相關性預測的學科,但由於因果關聯和混淆效應等因素均可以產生相關關係,因此相關性並不等於因果性。由於這些混淆因素往往是不可回溯且不穩定的,因此機器學習容易出現泛化不佳等問題。比如觀測樣本中的貓都出現在雪地上,狗都在出現草地上,那麼機器學習模型就容易建立貓與雪地、狗與草地的虛假關聯,那麼對於狗在雪地或者貓在草地上的圖片,模型識別準確性會變得很差。因此,如何藉助因果推斷等技術,合理消除資料中的偏差,提升模型的魯棒性,是大規模機器學習在實際應用中面臨的一個關鍵問題。

2. 推薦系統中的 Bias

Debias 技術在金融推薦場景下的應用

推薦系統作為機器學習最重要的應用場景之一,近年來得到了越來越廣泛的應用。推薦建模資料主要來自於觀測而並非隨機化實驗,天然存在一個使用者-系統-模型的閉環反饋迴圈。在沒有推薦策略干預時,使用者的自然響應可視為因果性的體現,但當有推薦策略時,不同策略對使用者產生的潛在激勵可視為偏置效應,由於觀測資料是因果效應和偏置效應的混合,而模型又擬合了這種相關性,因此推薦系統中就引入了偏差,這些 Bias 會導致模型難以反映真實效能,魯棒性、泛化性不佳。以位置偏置為例,排序靠前的物品被點選的機率更高,但可能並不是最符合使用者偏好的。

學術界和工業界對 Debias 的研究日趨豐富,按照技術路線可以將這些方法分為啟發式方法、IPS 類方法、無偏資料增強方法和理論工具四類,接下來我們對這四類方法進行具體介紹。

3. Debias 綜述

(1)啟發式方法

基於啟發式的 Debias 方法其核心思想是假設某種 Bias 與特定因子有關,透過對生成過程的建模來消除特定的偏置。典型工作有 PAL 和 EXMF 等。

Debias 技術在金融推薦場景下的應用

華為 PAL 假設使用者是否看到某個物品只和物品展示位置有關,看到後是否點選與物品的位置無關,在建模時將物品點選機率拆解為物品被看到的機率和看到後被點選的機率乘積,線上推理時只使用 pCTR 預估結果,從而消除位置偏置的影響。

另一個典型方法 EXMF 則假定物品曝光機率與物品特徵有關,它將是否曝光建模為服從引數 μ 的伯努利分佈,並且假設 u 和 i 的 embedding 各維度之間均滿足均值為 0,方差為 λ 的正態分佈,兩部分引數透過 EM 演算法進行最佳化,線上推理時將曝光機率和 pCTR 的乘積作為排序依據,從而消除曝光偏差的影響。

(2)IPS 類方法

第二大類方法是基於逆傾向分加權的方法,傾向性得分表示的是在給定背景變數的情況下,選擇某種策略的機率,因此根據傾向分進行逆加權可以消除資料中存在的偏置。

Debias 技術在金融推薦場景下的應用

2016 年 ICML 提出的 IPS-MF 就是透過逆傾向性加權得到無偏估計,並給出了基於觀測和模型預估兩種 propensity score 計算的方法。IPS 類方法的難點是如何準確的估計傾向性得分,由於推薦系統回收的資料難以獲得資料生成機制,且物品分佈呈現明顯的長尾性,因此 IPS 的計算常常出現高方差、預估不準的問題,這會極大的影響 IPS 類方法的有效性,因此後面又出現了一系列改進 IPS 的方法。

另一個經典的 IPS 類方法是 Doubly Robust,推薦系統回收的資料是不全面且非隨機缺失的,我們往往只觀察到小部分物品的反饋,使用觀測資料建模難以準確的表示使用者的偏好,因此有學者使用插補的方法給出缺失評分的預估,但這種方法同樣會面臨插補不準確導致模型效果惡化的問題。Doubly Robust 將二者結合起來,使用觀測資料修正插補誤差的偏差並基於傾向性得分進行逆加權,在理論上保證了只要插補和傾向性得分有一個是無偏的,結果就是無偏的。

(3)無偏資料增強

第三大類是基於無偏資料增強的方法,在有無偏資料的情況下,可以充分利用無偏資料輔助有偏資料進行學習。

Debias 技術在金融推薦場景下的應用

典型方法之一 Auto Debias 透過在 Doubly Robust 方法中引入 meta-learning 來學習更好的權重,在一個迴圈中依次迭代主模型引數 θ 和 Debias 網路引數 φ 來進行訓練,先虛擬更新 θ,透過在無偏資料上計算的損失評估模型的表現,進而真實最佳化 φ 和 θ。

Debias 技術在金融推薦場景下的應用

另一個無偏資料增強的典型方法是 KDCRec,他藉助無偏資料透過知識蒸餾的方法指導觀測資料的訓練,其中無偏資料訓練的模型作為教師模型,有偏資料訓練的模型作為學生模型。按照方法的差異性,KDCRec 提出了基於標籤、基於樣本、基於特徵和基於模型結構的四類蒸餾方法:

① 基於標籤的方法指的是透過無偏資料產生輸入標籤幫助有偏資料訓練;

② 基於特徵的方法指的是透過無偏資料產生因果穩定的特徵幫助有偏模型訓練;

③ 基於樣本的方法指的是無偏資料直接幫助訓練;

④ 基於模型結構的方法則對神經網路不同層次進行蒸餾輔助有偏資料的訓練。

(4)理論工具類

最後一類是理論工具方法,透過應用諸如資訊瓶頸、因果推斷等理論工具來保證模型的無偏性。

Debias 技術在金融推薦場景下的應用

典型工作如華為的 DIB,其基本思想是將表徵拆分為有偏和無偏兩部分,由於無法直接從 embedding 中區分出有偏和無偏表徵,因此藉助了資訊瓶頸理論進行求解。資訊瓶頸是資訊理論中的一種方法,他將包含噪聲的資訊進行壓縮,儘可能只保留和最終目標最相關的資訊。DIB 構造了一個包含四項的損失函式,其中:

① 由於 x 是有偏的,因此無偏表徵 z 不應該過擬合 x;

② z 應該能夠儘量準確的預測 y;

③ 由於 r 是有偏表徵,因此 z 和 r 應該儘可能獨立,從而使得 z 儘可能無偏;

④ 由於 y 也受到了偏置的影響,因此有偏表徵 r 也應該可以一定程度的預測 y。

這些變數間的相關性基於互資訊進行刻畫,互資訊越小表示兩個變數越不相關。由於高維連續值的互資訊求解困難,因此 DIB 對原始損失函式基於條件熵改寫為易於求解的交叉熵形式進行最佳化。

Debias 技術在金融推薦場景下的應用

理論工具類方法的第二個典型的工作是 MACR,它藉助因果推斷工具提出了一種模型無關的反事實推理框架用於消除推薦系統中的流行度偏差。從左下角的因果圖可以看出,MACR 假設使用者的反饋行為受到興趣匹配(即 K 到 Y 的邊),物品流行度(即 I 到 Y 的邊),和從眾心理(即 U 到 Y 的邊)三種不同的影響,但只有興趣匹配是符合預期的,物品流行度和從眾心理作為 Bias 應該被消除。

假設理想狀態下的使用者和物品表示為 u和 i*我們可以得到推薦系統對使用者 U 的總效應 TE,並拆解為 Bias 帶來的直接效應 NDE,和間接效應 TIE,因此間接效應可以透過總效應和直接效應的差得到,而它是無偏的。

MACR 設計了一種多工架構求解上述問題,將模型分為僅基於使用者特徵作為輸入、僅基於物品特徵作為輸入和基於全部特徵作為輸入三部分,來分別學習總效應和直接效應,線上上推理時將總效應減去直接效應從而得到無偏估計。

4. 主要挑戰

Debias 的相關工作還有很多,限於時間關係不再一一介紹。但 Debias 技術在實際應用中還面臨著諸多問題,比如現有很多方法旨在解決一種或幾種特定的 Bias,而真實工業場景各種 Bias 往往是混雜難以區分的。很多方法依賴特定資料,如無偏流量,特定模型結構或訓練方法,這需要對推薦系統已經成熟的模型結構進行改造,客觀上增加了應用的難度。因此現有方法往往面向公開資料和實驗研究,缺少大規模工業界應用的案例和討論。

對於金融類產品,其產品形態往往較為複雜,候選物品少,受到各種 Bias 的影響尤為嚴重。但由於金融產品對使用者的專業度要求較高,因此熱門產品、明星產品、平臺推薦產品對大多數經驗不足的使用者具有較好的普適性,過度的糾偏尤其是對流行度的過度糾偏往往會導致更多的長尾物品曝光從而使缺乏金融知識的使用者蒙受損失。

針對上述背景和挑戰,我們提出了兩種模型無關的糾偏框架,分別是針對樣本層面的自取樣糾偏框架特徵層面的偏置代理糾偏框架,接下來將對這兩種方法做詳細介紹。

02

SSTE 自取樣糾偏框架

首先介紹的是樣本層面的 SSTE 自取樣糾偏框架。

1. 問題分析

推薦系統中的 Bias 並非是完全有害的,使用者的流行導向、物品的高轉化導向往往具有正向意義。

為了驗證這樣的假設,我們在騰訊理財通產品的首頁基金推薦場景,基於無偏推薦策略和常規推薦策略進行了為期三週的線上實驗,結果分別對應圖中右側的橙色線和藍色線。

Debias 技術在金融推薦場景下的應用

我們發現無偏推薦策略在剛開始上線時相對原策略在直接業務指標上有正向收益,但隨著時間的延長,兩種策略的效果差距逐漸縮小直到趨於一致。分析發現由於無偏策略剛上線時引起了推薦物品分佈的變化,使用者看到了更多中長尾的新物品,這種新奇效應激發了部分使用者的正向反饋,但隨著時間的延長,使用者重新適應了這種新的推薦物品分佈,二者效果開始趨於一致。

上述案例一定程度上說明真實業務場景中,盲目的去除所有偏置往往是不合適的,尤其是對於金融產品推薦場景,對金融領域知識不是那麼豐富的使用者推薦熱門的明星產品往往比使用者自主選擇的產品有著更穩健的整體回報。

2. 解決方案

我們將推薦系統中的偏置劃分為有害偏置和有益偏置兩部分,分別對應因果圖中的 A 和 C,並透過模型無關的自取樣糾偏框架 SSTE 消除有害偏置,保留有益偏置,實現預測準確度和無偏性的平衡。SSTE 包含三部分:

① 用於生成不同偏置程度資料子集的自取樣模組

② 基於不同偏置資料聯合訓練的自訓練模組

③ 用於提升模型穩定性的自評估模組

接下來對每個模組進行詳細介紹。

(1)自取樣模組

首先是自取樣模組,我們使用 Dtr 代表原始訓練資料集合,用於模型訓練,Dval 代表原始驗證資料集合,用於模型調優。

Debias 技術在金融推薦場景下的應用

自取樣模組的取樣機率是基於截斷 IPS 得到的,透過設定不同的截斷閾值,將大於等於這個閾值的樣本的取樣機率修改為 1,小於這個閾值的樣本使用原始 IPS 權重進行取樣,得到不同偏置程度的輔助子集。可以參考右側的示意圖進一步理解取樣的實現邏輯:

假設原始 6 條樣本的 IPS 權重分別是 0.1,0.5 到 0.9,當我們選取閾值 Debias 技術在金融推薦場景下的應用 為 0.6時,IPS 大於等於 0.6 的樣本 x3x5x的權重將被修正為 1,從而有更大的機率被取樣到;而如果選取閾值 Debias 技術在金融推薦場景下的應用 為 0.8 時,只有大於等於 0.8 的樣本 x5x的 IPS 權重被修正為 1,其他樣本的取樣機率保持不變。那麼按照這兩種截斷閾值修正後的取樣機率進行樣本取樣,就可以得到兩個偏置程度不同的子集。

按照這個邏輯,我們可以從訓練資料 Dtr 中取樣出 T1 個不同的子集組成  Atr,也可以從驗證集中按照類似的策略取樣出 T2 個子集 Aval,右上角的圖表示的是 T=3,即取樣三個不同子集的情況。取樣出來的這些子集會與原始資料一起被用於自訓練和自評估模組。

(2)自訓練模組

接下來介紹是自訓練模組。
基於使用資料的不同,我們將模型中的引數分為三部分,分別使用 進行表示,其中 是共享引數,會被原始訓練資料 和取樣後的多個子集 共同更新,而   只會被原始訓練資料 進行更新, 只會被取樣子集 更新。

Debias 技術在金融推薦場景下的應用

一種典型的實現架構如右圖所示,我們將 embedding 層設定為共享的,也就是 θs,使用全部資料進行訓練。將上層網路拆分為兩部分,分別只使用原始樣本和取樣後的不同偏置程度的樣本進行訓練,兩部分的 loss 聯合最佳化。由於模型同時被原始觀測資料和不同偏置程度的資料聯合訓練,兩部分資料產生的 loss 會互相鉗制避免模型過度糾偏。與此同時,不同偏置程度的取樣資料會推動模型對不同偏置進行識別,尋找偏置中的共性的、對有偏預測和無偏預測都有幫助的部分,這部分偏置可視為有益偏置,而消除偏置中差異性大、缺乏共性的部分,這部分偏置可以被視為有害偏置。

(3)自評估模組

自評估模組對模型精度和無偏性進行更加全面的評估,根據評估結果對模型引數和結構進行調整從而獲得更優的效能。

對於驗證資料 Dval,我們透過自取樣模組得到了 T 個取樣子集 Aval,共 T+1 個資料集,我們使用這 T+1 個資料集對模型進行評估,得到 T+1 個評估結果,其中評估可以使用 AUC 等任意指標。接下來我們計算這 T+1 個評估結果的最大差值 α,並使用評估結果減去 α 作為衡量模型綜合效能的最終指標。這種評估方式要求模型不僅要在驗證資料上效果好,還要在各種偏置資料上表現穩定,從而提升模型的綜合效能。

3. 應用效果

我們在公開資料和工業場景資料集上驗證了 SSTE 的有效性。其中公開資料使用了 Yahoo!R3 資料,他是 Yahoo 在音樂推薦場景下收集的使用者給歌曲評分的資料集。工業場景資料集使用的是騰訊理財通首頁基金推薦場景回收的使用者反饋資料。

評估指標使用 AUC、nDCG、Precision、Recall,其中 AUC 是主要指標,對比的方法包括 IPS/SNIPS/CVIB/AT/Rel/DIB 等 Debias 方法。

Debias 技術在金融推薦場景下的應用

離線看 SSTE 在 MF 和 NCF 兩個典型的網路結構下,在公開和產品資料集的全部評估指標上均取得了最優效能。此外,由於 SSTE 是模型無關的,我們在基線模型上增加了上述模組後,均收到了正向收益,進一步驗證了該方法的有效性。

我們還在騰訊理財通基金推薦場景驗證了 SSTE 的有效性。在使用者進入理財通時,系統會根據使用者興趣給使用者推薦若干只基金,推薦效果的主要衡量指標是基金的千次曝光點選、千次曝光轉化和千次曝光轉化金額。我們線上上進行了為期一個月的 AB 實驗,結果顯示 SSTE 可以帶來較為顯著的業務指標的提升。

Debias 技術在金融推薦場景下的應用

此外,我們還觀察了典型的推薦物品流行度的變化,結果顯示頭部物品流行度有所降低,中尾部物品流行度有所提升,整體多樣性和使用者體驗更好,進一步分析發現,中部越高質的物品,其曝光量提升越顯著,這顯示 SSTE 可以有效地保留偏置中有益的部分,避免過度糾偏。

上述工作已經被DASFAA 2023 industry track接收,全文可見:

03

代理表徵解耦糾偏框架

接下來介紹的是我們的第二個工作,特徵層面的代理表徵解耦糾偏框架

1. 問題分析

現有的一種技術路線,類似 DIB 的方法是透過將表徵拆分為有偏和無偏兩部分來消除推薦系統中的 Bias ,但這種方法依賴模型對錶徵中的有偏和無偏部分的自動化區分。由於真實工業推薦系統的特徵非常豐富,這種僅依靠模型學習的方式往往較為困難。

Debias 技術在金融推薦場景下的應用

考慮到推薦系統原始特徵往往是人為構造且具有較好解釋性的,我們引入專家經驗輔助模型決策,從而降低模型對有偏表徵和無偏表徵區分的難度。為此我們提出了一種模型無關的偏置代理表徵解耦糾偏框架。該方法的核心思想是藉助專家經驗,預先選取可以作為偏置代理的特徵集合 P比如曝光位置、包裝樣式、尺寸大小等偏置因素甚至是點選率、轉化率等含偏特徵透過將偏置代理的表徵 C 和其他特徵的表徵 Z 解耦,消除偏置對推薦系統的影響。

為了方便大家理解,我們以 MF 矩陣分解經典推薦模型為例,由於觀測樣本中物品的轉化受到了曝光位置的影響,物品 id 的表徵就被位置這個 Bias 汙染導致推薦結果有偏,此時如果我們引入曝光位置作為偏置代理,並對曝光位置的表徵和物品 id 的表徵進行解耦,就可以消除物品 id 表徵中含有的位置偏置。透過選擇不同的偏置代理集合,並在主模型前增加代理表徵糾偏模組,我們可以在不更改模型核心結構的情況下對推薦系統中的位置偏置、流行度偏置等常見偏置進行消除,具有較好的通用性和適配性。

接下來的核心問題就是如何解耦偏置代理 P 的表徵 C 和其他特徵的表徵 Z,為此我們使用了三種不同的解決思路。

2. 最佳化思路

(1)正則約束

第一種思路是增加正則項約束,如 cosine 約束。將偏置代理 P 的表徵 C 和其他特徵的表徵 Z 對映到同一空間,並計算二者的 cosine 相似度,當二者 cosine 相似度趨近於 0時,Z 和 C 在向量空間上將會垂直分佈,從而使得偏置表徵和其他表徵向著不同方向發展,儘可能減少正常特徵表徵受到的 Bias 影響。

Debias 技術在金融推薦場景下的應用

該方法需要增加一項 cosine 約束 loss 到原模型 loss 中聯合最佳化,優點是實現簡單,缺點是二者垂直的約束較弱,只能保證兩部分表徵的相對關係是儘可能不同向的,而對兩個表徵本身的方向性無法做限制。

在預測時,如果期望得到更加無偏的預測,就只使用無偏表徵 Z 用於下游的任務。如果期望得到精度-無偏性更加平衡的預測結果,則可以以門控、注意力機制等方式以合理的方式引入 C 輔助預測。因此圖中對 C 的使用是虛線。以門控網路融合方式為例,如果我們以 user 特徵作為門控訊號的輸入,那對應的假設就是不同使用者對 Bias 的接受度不同,從而實現使用者級別的個性化 Bias 控制

(2)特徵投影

第二種思路是特徵投影,在將 Z 和 C 對映到同一向量空間後,我們可以將 Z 投影到 C 上,得到表徵 Z 在表徵 C 上的分量,透過向量運演算法則,使用 Z 減去 Zc 得到的就是 Z 垂直於表徵 C 的純化分量,記為 Zpure,從而消除混淆代理表徵對原始特徵表徵的影響

Debias 技術在金融推薦場景下的應用

類似的,我們可以使用 Zpure 用於下游任務獲得更好地無偏性預測,或者以不同的方式將 C 以合適的方式用於輔助預測。

這種特徵投影方式的好處是不約束原始表徵 Z 和 C 的方向關係,且不需要增加額外 loss,降低了調參複雜度。

(3)互資訊求解

第三種方式是藉助互資訊理論工具,互資訊(Mutual Information)是資訊理論裡的一種資訊度量,它可以看成是一個隨機變數中包含的關於另一個隨機變數的資訊量,或者說是一個隨機變數由於已知另一個隨機變數而減少的不確定性,如果我們約束偏置代理表徵 C 和特徵表徵 Z 的互資訊趨近於 0,那麼特徵表徵理論上將消除偏置的影響從而得到更加無偏的推薦結果。

Debias 技術在金融推薦場景下的應用

這種方式的難度在於如何估計兩個高維連續變數之間的互資訊。藉助神經網路強大的擬合能力,我們可以藉助基於神經網路的互資訊估計器得到兩個高維連續變數的互資訊上下界。

一方面為了保證互資訊約束的嚴格性,我們選取互資訊上界估計方法 CLUB 作為 Z 和 C 互資訊約束的求解方法,如果我們約束 Z 和 C 的互資訊上界趨近於 0,那麼 Z 和 C 實際的互資訊一定是趨近於 0 的。

另一方面為了方便端到端高效訓練,我們使用它取樣簡化的弱理論版本 CLUB-SAMPLE,該方式透過變分法近似條件機率分佈,並在 Batch 內透過隨機取樣得到邊緣分佈,易於使用且計算高效。

最後,我們將計算得到的互資訊上界估計與原模型的 loss 融合後進行聯合訓練消除 Z 中的偏置資訊,得到的 Z 和 C 的使用方式與前面兩種思路相同。

3. 應用效果

和第一個工作類似,我們也在公開資料集和業務真實資料集上分別驗證了我們方法的有效性,其中公開資料仍然使用了 Yahoo!R3 資料,業務真實資料使用的是騰訊理財通首頁基金推薦場景回收的使用者反饋資料,評估指標使用了 AUC 和 NLL,其中 AUC 是主要指標。由於我們需要使用特徵,因此更換模型結構為 MLP 和 DCN 兩種經典推薦模型。

Debias 技術在金融推薦場景下的應用

離線結果表明,我們的方法在不同 backbone 的公開和產品資料集評估指標上均取得了最優效能。

我們也在騰訊理財通首頁基金推薦場景驗證了代理表徵糾偏的有效性,評估指標仍然採用前面提到的千次曝光點選、千次曝光轉化和千次曝光轉化金額。

Debias 技術在金融推薦場景下的應用

我們線上上進行了為期三週的 AB 實驗,結果顯示三種不同的解耦方式均取得了較為顯著的正向收益,其中基於互資訊求解的方式表現最佳。

我們還對模型學習的偏置代理表徵 C 和特徵表徵 Z 進行了基於 TSNE 的視覺化分析,觀察到二者在空間上是完全可分且不重疊的,這進一步佐證了我們方法的有效性。

上述工作已提交到相關國際會議,正處於審稿流程中。

04

總結展望

最後我們對今天分享的兩個方法進行一個簡單總結,並對未來的研究方向進行簡單介紹。

針對工業界在應用 Debias 方法時面臨的無偏性和預測精度平衡的問題,我們提出了一種模型無關的自取樣、自訓練、自評估 Debias 框架 SSTE,可以簡單高效的應用於任意推薦模型中,該方法透過自取樣生成多個不同偏置程度的資料子集,由於借鑑了類似交叉驗證的思想,對於 IPS 預估的準確性要求更低,因此 SSTE 還為 IPS 類方法在實際應用中面臨的 IPS 計算不準確、高方差問題提供了一種新的解決思路。

此外對於解耦表徵類方法,由於工業應用往往有著豐富的特徵,客觀的增加了模型自主拆分表徵中有偏和無偏部分的難度,我們提出了藉助專家知識透過選取偏置代理輔助進行解耦表徵的糾偏框架,該方法提出了三種表徵解耦實現方案和多種不同的表徵應用方式,供實際場景根據效果進行選擇,具有較好的應用性。

上述工作是我們與深圳大學計算機與軟體學院、光明實驗室明仲教授團隊的劉杜鋼博士、潘微科教授合作完成,也得到了騰訊金融科技的陳亮、何秀強、杜西庫等老師的大力支援。

後續我們將在 Debias 方向上進行更深入的探索,致力於尋找在樣本、特徵、表徵、模型結構、損失函式等不同層面上更加完善的解決方案,並嘗試給出更加合理全面的評估方法,此外還會探索 Debias 與實際工業應用中多場景、多工學習等複雜應用結合的可行性。

05

問答環節

Q1:Debias 在騰訊的金融推薦場景下落地的難點有哪些?如何解決的呢?

A1:Debias 方法在金融推薦場景和在其他推薦場景下的落地有很多相似的難點,比如如何客觀全面的評估 Debias 的效果,如何在不更改已有模型結構的情況下進行糾偏等。但金融推薦場景也有一些特殊性,由於金融推薦場景候選物品少,產品形態複雜,受到 Bias 影響更嚴重,且由於金融場景對專業性有要求,熱門物品對大部分人往往具有較好的普適性,因此需要避免過度糾偏。我們一開始也使用了諸如 IPS 等的一些業界經典糾偏方法,這些方法在上線前期有一定的提升,但難以保持穩定的效果,甚至在有些場景下會產生負向影響。我們後續提出的 SSTE 自取樣糾偏框架和代理表徵解耦的糾偏框架,就是在解決預測精度跟無偏性平衡等關鍵問題

Q2:為什麼約束偏置代理表徵 C 向量和特徵表徵 Z 向量不相關,就能保證 C 學到了偏置資訊?

A2:因為這裡的 C 本身輸入的就是我們認為可能含偏的一些特徵,比如產品曝光位置等,這就保證了 C 所含資訊的指向性。在互資訊等約束方式下,如果消除 Z 當中所含有的由 C 表徵的資訊,就可以消除偏置對原始特徵表徵的汙染。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024924/viewspace-2942071/,如需轉載,請註明出處,否則將追究法律責任。

相關文章