快手觀看時長建模:CREAD

xd_xumaomao發表於2024-11-26

將觀看時長作為連續值預測,會帶來“迴歸問題”,即會放大對異常值和潛在預測偏差的敏感性,常見的一種方法是把時長分段轉為分類問題來預估,CREAD正是提出了一種迴歸轉分類的處理方法。

CREAD的流程如下圖所示,把觀看時長分為M個桶,在每個桶內預估 P(y>t|x)的機率

經過推導可以得到最後的觀看時長計算方法:

論文亮點:

1. 對時長分桶預估之後不僅有分類損失,還加了兩個類似保序迴歸的損失

loss包含3個部分:

(1) classification loss

(2)restoration loss

論文指出這裡採用了Huber loss

(3)保序loss

2. 目前常用的分桶方法是等頻分桶和等距分桶,等頻分桶的缺點是尾部桶距過大放大恢復誤差,等距分桶的缺點是尾部桶內樣本過少導致學習誤差過大,CREAD提出一種平衡等距分桶和等頻分桶誤差方法的分桶方法

參考資料:

https://zhuanlan.zhihu.com/p/678883395

https://arxiv.org/pdf/2401.07521

相關文章