Recommendations as Treatments: Debiasing Learning and Evaluation
Authors: Tobias Schnabel, Adith Swaminathan, Ashudeep Singh, Navin Chandak, Thorsten Joachims
ICML’16 Cornell University
0. 總結
本文提出了基於IPS的評測指標和模型訓練方法,並提出了兩種傾向性評分的估計方法。收集並公開了Coat資料集,在半合成資料集和無偏資料集上,驗證了評測指標對Propensity score估計的魯棒性和IPS-MF的效能優越性。
1.研究目標
去除選擇偏差(selection-bias)對模型效能評測(evaluation)和模型訓練(training)帶來的不利影響。
2.問題背景
推薦系統中的選擇偏差(selection bias)可能有兩個來源:首先,使用者更可能跟自己感興趣的物品發生互動,不感興趣的物品更可能沒有互動記錄;第二,推薦系統在給出推薦列表時也會傾向於給使用者推薦符合使用者興趣的產品。
3. IPS評價指標
考慮圖一中的模型,圖中第一行分別表示真實評分Y、曝光概率P和曝光分佈O,其中評分越低的互動,觀測到的概率也就越低。第二行\(\hat{Y}_1\)和\(\hat{Y}_2\)分別表示兩種不同的預測結果,\(\hat{Y}_3\)表示是否發生了互動。
3.1 任務1:評分預測準確率評價
在理想情況下,即所有評分都被觀測到時,評價指標為
但在存在selection bias的場景下,評價指標會變為
從喜惡判斷的角度,\(\hat{Y}_1\)明顯優於\(\hat{Y}_2\);但是從評價指標上看,由於\(\hat{Y}_2\)中預測錯誤的那些互動很少被觀測到,因此,\(\hat{Y}_2\)會優於\(\hat{Y}_1\)。
3.2 推薦質量評價
評價推薦結果的質量,也就是在回答一個反事實問題:如果使用者與推薦列表中的物品發生互動,而不是實際上的互動歷史,使用者的體驗會得到多大程度的提升?
評價指標可以是DCG等。由於觀測資料是有偏的,與3.1中的描述相似,最終的評價指標也是有偏的。
3.3 基於傾向分數的效能評估
解決selection bias的關鍵在於理解觀測資料的生成機制(Assignment Mechanism),包含系統生成(Experimental Setting)和使用者選擇(Observational Setting)兩種因素。
為了解決評測指標的偏差問題,作者提出使用逆傾向分數對觀察資料加權,構建一個對理想評測指標的無偏估計器——IPS Estimator:
其中\(O_{u,i} ~ Bernoulli(P_{u,i})\),\(P_{u,i}\)為propensity score。
3.4 實驗驗證
利用MF生成的全曝光模擬資料集,作者設計了幾種評分策略,每種策略都有不同的評分錯誤。基於真實資料集中的曝光情況,計算曝光互動的評價指標,證明了IPS評價指標能有效抵消selection bias帶來的評價誤差。
4. IPS推薦系統
基於IPS的推薦系統,訓練目標為:
其中\(P_{u,i}\)是傾向性評分,相當於在對應的loss項上加了權重。
5. 傾向性評分的估計
作者提出了兩種估計方法
-
樸素貝葉斯估計
這個方法似乎是對評分相同的u-i互動給出了相同的評分?
\[P\left(O_{u, i}=1 \mid Y_{u, i}=r\right)=\frac{P(Y=r \mid O=1) P(O=1)}{P(Y=r)} \] -
邏輯斯特迴歸
將所有關於u-i對的資訊都作為特徵,來學習一個線性模型
\[P_{u, i}=\sigma\left(w^{T} X_{u, i}+\beta_{i}+\gamma_{u}\right) \]
6. 實驗
6.1 實驗設定
訓練集是有偏(MNAR)資料,使用k-折交叉驗證來調參,使用無偏資料或者合成的全曝光資料作為測試集。
6.2 取樣偏差對評測指標的影響
構建全曝光的合成資料集:在ML 100K資料集上,使用MF 填充所有空缺的評分,並對填充之後的評分分佈進行調整,以降低高評分的比例。
實驗結果見3.4
6.3 取樣偏差對模型訓練的影響
對於不同程度的選擇偏差(\(\alpha\)越小,選擇偏差越大),實驗結果如下圖。
可見,IPS-MF和SNIPS-MF的效能要明顯優於naive-MF。
6.4 傾向性評分估計準確度的影響
使用不同比例的資料來估計傾向性評分,可以看出,在所有條件下,IPS和SNIPS都優於MF,驗證了模型對傾向性評分的魯棒性。
6.5 真實資料集上的效能
Yahoo! R3:使用5%的無偏資料來估計傾向性評分,95%的無偏資料作為測試集。
Coat:本文收集了一個新的無偏資料集Coat(很大的貢獻),包含290個user和300個item,每個user自主選擇24個商品給出評分,並對16個隨機商品給出評分(1-5分)。
實驗結果表明,在兩個資料集上都優於最好的baseline。