將觀看時長作為連續值預測,會帶來“迴歸問題”,即會放大對異常值和潛在預測偏差的敏感性,常見的一種方法是把時長分段轉為分類問題來預估,CREAD正是提出了一種迴歸轉分類的處理方法。
CREAD的流程如下圖所示,把觀看時長分為M個桶,在每個桶內預估 P(y>t|x)的機率
經過推導可以得到最後的觀看時長計算方法:
論文亮點:
1. 對時長分桶預估之後不僅有分類損失,還加了兩個類似保序迴歸的損失:
loss包含3個部分:
(1) classification loss
(2)restoration loss
論文指出這裡採用了Huber loss
(3)保序loss
2. 目前常用的分桶方法是等頻分桶和等距分桶,等頻分桶的缺點是尾部桶距過大放大恢復誤差,等距分桶的缺點是尾部桶內樣本過少導致學習誤差過大,CREAD提出一種平衡等距分桶和等頻分桶誤差方法的分桶方法
參考資料:
https://zhuanlan.zhihu.com/p/678883395
https://arxiv.org/pdf/2401.07521