資訊流短視訊時長多目標優化

邢日良發表於2018-08-22

背景

      資訊流短視訊排序目前使用的是基於CTR預估Wide&Deep排序模型。在此基礎上繼續一系列優化,通過引入相關性訊號、體感訊號、多場景的樣本融合、高層排序模型取得了不錯收益。

      資訊流短視訊模型優化可分為兩部分優化:

  • 感知相關性優化——點選模型以優化(CTR/CLICK為目標)
  • 真實相關性優化——時長多目標優化(停留時長RDTM/播放完成率PCR

      上述收益均基於點選模型的優化,模型能夠很好地捕抓USER-ITEM之間感知相關性,感知權重佔比較高,弱化真實相關性,這樣可能導致使用者興趣收窄,長尾問題加劇;此外,停留時長,無論是資訊流、競品均作為重要優化目標,Youtube基於時長策略權重佔比50%以上。在此前提下,我們排序模型迫切需要引入時長多目標優化,提升推薦的真實相關性,尋求在時長上取得突破。

                              

       時長多目標的引入,排序模型不僅單純地優化點選目標,同時也要兼顧時長目標,使得排序模型的感知相關性與真實相關性均得到較好的體現;目前業界點選+時長優化有多種方式包括:多目標優化(點選+時長)、聯合建模(參考阿里聯合預估演算法JUMP)等。

       這裡我們通過樣本rewight方式,相當於點選label不變情況下,時長作為較強的bias去影響時長目標,保證感知相關性前提,去優化真實相關性。目前我們正在調研更加自適應的時長建模方式括(point-wise、list-wise),後續為進一步介紹。上述是時長多目標優化簡要介紹,而樣本reweight優化取得不錯的收益,下面簡單介紹下。

RDTM REWEIGHTING

        模型時長多目標樣本加權方式,是我們參照weighted logistic regression方法,結合RecSys2016上Youtube提出的時長建模,在模型訓練是通過停留時長去對正樣本加權,負樣本不加權,從而去影響正負樣本的權重分佈,使得停留時長越長的樣本,在時長目標下得到充分訓練。

        加權邏輯迴歸方法在稀疏點選場景下可以很好使得時長逼近與期望值。假設就是weighted logistic regression學到的期望,其中N是樣本數量,K是正樣本,Ti是停留時長,真實期望就近似逼近E(T)*(1-P),P是點選概率,E(T)是停留時長期望值,在P<<1情況下,真實期望值就逼近E(T),所以,通過加權邏輯迴歸方式做樣本加權,切合我們點選稀疏的場景,通過樣本加權方式使得模型學到item停留時長偏序關係。

      樣本加權優化方式我們參照Youtube的時長建模,但具體做法上存在以下差異:

  • Youtube以時長為label做優化,而我們還是基於點選label,這樣是為了保證模型感知相關性(CTR/CLICK);
  • Youtube是迴歸問題,通過指數函式擬合時長預測值,而我們則是分類問題,優化損失函式logloss;
  • 停留時長加權方式上我們考慮停留時長與視訊本身時長關係,採用多分段函式平滑停留時長和視訊本身時長關係,而youtube則是觀看時長加權;

      上述差異主要從兩個方面考慮:  

  1. 保證CTR穩定的前提下(模型label依然是點選),通過樣本reweight去優化時長目標。
  2. 分段函式平滑保證長短視訊的下發量嚴重傾斜,儘可能去減少因為視訊長短因素,而模型打分差距較大問題。

                                        

       我們的模型網路結構與youtube差異不大,底層特徵做embedding共享,離散歸一化。訓練是通過引入weighted logistic去優化時長目標,線上預測依然是0/1概率,而在0/1概率跟之前不同是的經過時長bias修正,使得模型排序考慮真實相關性。

離線評估指標

  1. AUC:AUC作為排序模型常用離線評估特別適用是0/1分類問題,目前我們模型label還是點選0/1問題,所以,AUC是一個基礎離線指標。但是AUC很難準確地評估模型對於時長優化好壞,因此AUC只是作為模型准入的條件,保證AUC持平/正向情況下,我們需要時長指標衡量模型好壞。
  2. AVG_RDTM: (預測平均停留時長)——每一batch中選取模型打分topk正樣本item,取這批停留時長均值作為AVG_RDTM, 通過AVG_RDTM的大小來離線評估模型在時長推薦的好壞。 通過AUC保證推薦感知相關性(CTR), 而AVG_RDTM則是在這批正樣本Item內最大化停留時長的評估,線上時長指標趨勢與AVG_RDTM趨勢一致,漲幅上有diff。

PCR_NORM REWEIGHTING

      一期在停留時長樣本加權上取得不錯的收益,二期是集中播放完成率上的優化。

      二期優化來源於我們策略review結果,我們發現一大部分高播放完成率的視訊,CTR較低,打分靠後,這批item中視訊本身時長1min內佔比較大。一期我們用時長分段函式來做樣本加權,一定程度上平滑了視訊本身時長對打分影響,而播放完成率體現使用者對單item的注意力,更能反映推薦的真實相關性。短視訊時長,播放完成率取得突破對於資訊流規模化和口碑打造具有強推進劑作用

      針對以上較短,較長的優質視訊打分靠後,下發量不足的問題,我們引入分位數播放完成率來做平滑加權。主要是以下兩種方式:

  • 時長目標優化從停留時長加權演變至播放完成率加權,更好的平滑長短視訊之間的打分差異,使得模型打分更加註重於真實相關性。
  • 視訊時長分段,停留時長完成率分位數歸一化+威爾遜置信區間平滑,使得各視訊時長段播放完成率相對可比,避免出現打分因視訊長度嚴重傾斜情況。

      此外,較短或較長的視訊在播放完成率上有天然的差距,我們按視訊本身長度離散,停留時長做分位數處理,歸一化長短視訊播放完成率上的差異,使得各長度段的視訊播放完成率可比。

                                     

                                                     

      時長多目標優化從停留時長升級至PCR_Norm, 全域性Item停留時長處在相對可比的狀態,儘可能減少視訊本身時長對打分影響,使得模型打分更加專注於User-Item真實相關性和視訊質量,提升長尾優質的視訊Item消費。

      二期Pcr_norm優化基於一期時長加權基礎上,離線評估與一期優化類似:AUC與AVG_RDTM,歸一化的播放完成率更能反映使用者對item的專注度,通過優化單次閱讀時長,閱讀完成率來提升整體的停留時長消費,拉昇大盤指標。

優化收益

      一期+二期離線AUC累積提升6%以上,線上人均時長累積提升10%以上。

結語

       資訊流短視訊多目標優化目前處於探索階段,初步探索出短視訊多目標優化漸進路線,從樣本reweight -> point-wise時長建模 -> list-wise時長建模 -> 多模態聯合學習方向。此外,沉澱了一些策略review和資料分析方法論,為後續時長優化提供資料基礎。

       雖然現階段時長多目標優化取得不錯收益,但是優化規則性較多,後續我們將逐步轉向自適應的時長建模,從point-wise到全域性list-wise時長優化,由感知相關性優化轉向真實相關性優化,力爭在消費時長取得較大突破。而自適應的時長建模及點選目標與時長目標的權衡收益最大化,將是我們面臨又一挑戰。


相關文章