網易嚴選跨域多目標演算法演進

陶然陶然發表於2022-11-17

  導讀:嚴選是網易旗下受新中產喜愛的電商品牌,覆蓋居家生活、服飾鞋包、美食酒水、個護清潔、母嬰親子、運動戶外、數碼家電等品類。嚴選站內業務包括核心入口頁、活動頁、商詳頁,還有其他小流量的場景。目前這些場景都已經實現了個性化推薦演算法的覆蓋,嚴選電商推薦場景中演算法建模面臨多目標平衡、多場景資料如何共用等問題的挑戰,針對這些挑戰,本次主要分享跨域多目標在嚴選推薦演算法中的實踐。  

   01 背景介紹  

  推薦系統的總體流程可以分成四塊,主要是召回、粗排、精排、重排。其中精排會承載很多業務模組的業務指標,在不同業務模組,關注的業務指標有所不同。對於某一些業務指標,存在轉化資料比較稀疏,以及冷啟動的問題。另外,我們在與業務方的交流中發現,他們關注的一些業務指標與演算法目標不直接相關,需要我們去做一些長期價值的探索。

  嚴選精排演算法演進過程,開始是基於深度學習的 CTR 單目標建模,然後在此基礎上增加了基於使用者行為序列進行建模,接著衍生到多目標建模,最後是跨域多目標建模。

   02 多目標建模及最佳化

  1. 樣本與特徵

  近年來,多目標建模是業界排序建模的主流方式,而業務資料和特徵工程決定了模型的上限。  

  在多目標建模中,我們選取使用者的點選與轉化行為為正樣本,根據 Skip-Above 原則,選取曝光未點選的樣本作為負樣本。此外,在樣本構造中還會注意以下幾個最佳化點:

  頭部的熱門商品可能存在過曝光,需要對這種 Top 流量的商品做降取樣。

  短時間之內會存在同一商品的多次曝光,需要在時間視窗對樣本進行聚合,保留點選樣本、剔除曝光未點選樣本。

  虛假曝光,第一種是使用者在刷 Feed 流瀏覽時,快速滑躍或無意識的快速瀏覽時的曝光;第二種是由於頁面佈局的影響,導致卡片頭部一定比例在頁面載入時預設曝光。這兩種曝光實際上並沒有對使用者產生心智影響,因此,需要定製規則去噪。

  假正樣本,主要包含使用者的誤點以及點進去之後快速回退的操作,使用者並沒有對商品產生興趣,這類正樣本也需要特殊處理。

  特徵工程方面,我們將其分為四類:數值特徵、類別特徵、序列特徵和 Embedding。各類特徵處理方式如下:

  數值特徵的處理,對連續特徵進行歸一化,或者採用 RankGauss[1](Rank 預處理保留資料排序資訊,並轉化為高斯分佈);然後進行分桶,再計算 Embedding 。

  類別特徵,透過雜湊對映,對於頻率出現過低的一些類別做過濾,同時保留一個預設和異常處理的坑位,再計算 Embedding。

  序列特徵,把使用者行為互動序列中的每個元素進行embedding,再做attention 或者 Pooling 操作。

  Embedding 特徵,主要是商品側的表徵特徵,基於一個預訓練模型得到的Embedding 作為模型中對應的商品側表徵的初始化權重;為處理值域過大的情況,可以做 Normalize 操作。

  2. 模型結構迭代  

  目前業界主流的多目標建模的網路結構是 MMOE[2] 和 PLE[3] 兩種,我們也分別迭代了這兩種結構。MMOE 是基於專家網路和門控做多工學習的框架,它的特點是每個任務有單獨的門控網路,同時在底部共享幾個專家網路,透過不同的門控網路去控制專家網路對於不同任務的權重貢獻。PLE 是在 MMOE 的基礎上更加細粒度化,在專家網路共享的同時,還給每個任務單獨提供獨有的專家網路。這個獨有的網路會去強化每一個任務的權重學習,能夠有效地避免在 MMOE 中可能由於某些任務的訓練占主導地位,帶偏小任務的問題;也可以讓不同任務的專家,透過整合方式,進行權重互動。

  3. 位置偏差與 Debias

  上面介紹了資料特徵處理和使用基礎的多目標網路結構進行建模,在此基礎上,會根據實際業務場景的問題進行最佳化。

  第一個問題是位置偏差,位置偏差是指推薦 Feed 流場景下使用者傾向點選/互動曝光位置靠前的物品,這個資訊蘊含在正樣本里,可能會導致建模存在偏差。如下圖左上角是對某個業務模組做的位置偏差分析,橫軸是時間,縱軸是曝光點選率。可以看到隨著坑位的逐漸往下,曝光點選率逐漸下降。基於帶位置偏差的資料進行模型訓練,會形成一個迴圈反饋,模型去學習這種趨勢,然後做預測推薦,會導致位置偏差在不斷地放大,從而導致整體的推薦流量生態出現問題,比如部分商品過曝光。  

  存在的位置偏差需要做 Debias 的操作。我們做 Debias 的方式是在 MMOE 多工的基礎上,加一個消偏模組。整體結構如上圖右邊部分,輸入是常見的幾類特徵(使用者側、商品側、情境上下文,行為互動序列特徵)。經過特徵預處理後,輸入到 Embedding 層,然後會進入 MMOE 主網路。同時會構建一個 Debais 輔助網路,輸入主要是 Bias 相關的特徵(比如商品曝光的坑位、裝置的型號、使用者的身份等可能影響到展示位置的特徵),經過淺層網路後得到bias 的學習表徵。然後把這個結果與多工主網路學出來的 CTR 結果直接相加,再經過一層啟用函式得到最終 CTR 預測結果,CVR 網路無任何操作。Debais 輔助網路的淺層部分,會加上 Dropout,主要是為了防止模型學習結果過於依賴淺層網路的特徵,保證模型的魯棒性。

  多工模型 Debias 最佳化上線 AB 後,人均點選數+4.95%、曝光點選率+1.70%。需要說明的是,Debias 最佳化需要根據具體業務特點做判斷,我們的場景 AB 剛上線前幾天,會對某些業務指標產生非正向收益,因為 Debias 會對熱門做打壓,對長尾的商品進行扶持,這可能會影響銷售額。Debias 最佳化,本質上是從整體業務生態或者長期收益的角度考慮問題,在短期內能承載一部分收益下降的前提下,可以推全放量,它會帶動整體推薦流量生態向良性、健康的方向發展。

  4. 多目標 Loss 最佳化

  此外,在 CTR 跟 CVR 目的基礎上根據業務方的需求增加更多的目標,包括加購、評論商品、檢視促銷資訊、分享、收藏等。有些目標如收藏、分享的轉化資料相對會比較稀疏,這些任務與 CTR、CVR 樣本比較豐富的任務一起訓練時,由於樣本過於稀疏,會導致訓練不夠充分,被帶偏。  

  針對轉化目標比較稀疏,訓練不充分的問題。我們會考慮在損失函式上引入 Focal Loss[4] 替換交叉熵函式。如上圖中的 FL(p, y),Focal Loss 在交叉熵基礎上,增加了 P 和 Gamma 兩個引數,P 就是模型預測樣本是否為正樣本的機率。看損失函式第一項,對於正樣本,P 的預測接近 1 時,1-p 的 Gamma 次方會更加接近於 0,那麼很容易區分的那部分正樣本,損失會下降非常明顯;P 的預測接近 0 時,損失無太大變化。對負樣本的處理與正樣本同理。Focal Loss 目的是讓 Loss 去關注/聚焦比較難以區分樣本資訊,Gamma 引數是去調節聚集程度。還可以再引入一個類別權重引數A lpha,去解決正負樣本不平衡的問題。比如 Alpha 定義為正負樣本比,增強正樣本的損失影響。

  另外,多個子任務一起訓練時可能存在某個子任務被帶偏的情況,即蹺蹺板(Seesaw Phenomenon)效應。我們嘗試使用 Gradnorm[5] 梯度歸一化來控制 WI 的權重。梯度歸一的目標是讓不同的任務的 Loss 梯度量級更加接近,同時還可以讓不同任務的學習速率也更加接近。透過這兩個點最佳化 WI 權重,讓各個任務的學些更加平衡。上圖右下角兩張圖是 CTR、CVR 訓練速度的展示。紅線是它原有的訓練速度,藍線是經過 Gradnorm 調整之後的,可以看到調整之後,訓練的速度接近 1 左右,不會出現速度訓練過快或過慢的情況。

  多目標損失最佳化,引入 Focal Loss 和 GradNorm 控制損失權重後,整體上線 AB 實驗,CTR +6.92%,CTCVR+5.87%,都有顯著提升。

  5. 跨域多目標建模

  在我們的業務中,會涉及到很多場景,比如新客、新品頁面,使用者的行為資料會比較稀疏,還有新上線的業務模組,剛上線資料非常少,處於冷啟狀態。那麼在這些場景下,如何能夠讓模型學習得更好呢?那就需要考慮多場景的跨域建模。引入多場景的好處在於,首先讓模型先意識到場景之間的差異性,建模擬合對映由 P(y|x) -> P(y|x, d),輸入增加了場景資訊(Domain)。另外小樣本的場景,能夠透過對樣本更加豐富/比較成熟模組的場景共性的刻畫和遷移學習,讓模型對小場景也能夠取得更好的效果。  

  跨域多目標演算法的整體網路結構,如上圖。

  底層輸入特徵(包括使用者側、商品側、上下文情境、行為序列特徵),經過特徵預處理進入 Embedding 層,然後進 MMOE 層進行多工的資訊抽取。網路右邊部分是一個輔助網路,把域/不同場景/Domain Field 相關的特徵輸入,然後經過一個 Domain Tower 得到對應場景的抽象特徵。然後將場景的抽象特徵與多工的輸出表徵共同輸入到 STAR 網路層(參考阿里 STAR 文章[6]),STAR 的拓撲結構裡包含兩種塔:共享 Share塔、表徵不同場景的 Domain塔。Share塔主要去學習場景的一些共性資訊,Domain 塔去學習各個不同場景對應的獨特資訊,之後對兩邊塔的權重進 Element相乘後得到的結果,作為每個場景的權重,最終得到每個場景下不同任務的輸出。

  這個最佳化上線後,在主場景和小樣本場景上取得的效果有些差異,小樣本場景下的提升更加明顯,曝光轉化率和曝光點選率有 10.8% 和 3.5% 的相對提升。主場景下,本身資料比較豐富,效果提升沒有那麼顯著,曝光轉化率和曝光點選率分別有 2.2% 和 0.81% 的提升。

   03 長期價值探索

  此外,我們還做了一些提升長期價值的探索工作,分別是多業務混排和使用者留存最佳化。我們有很多業務模組,除了向使用者透出商品卡片,還需要拓出場景化的如榜單、清單卡片、活動卡片等,這些資訊在同一個模組展示,如何做到個性化的頁面佈局,需要做混排策略,我們基於湯普森取樣演算法[7],根據線上使用者的實時行為互動,做 Reward 反饋,這個反饋對每個使用者去擬合 Beta 分佈,在 Beta 分佈上算使用者對三種卡片的點選機率。如果使用者剛點選過很多場景化卡片,可能後續會推更多場景化卡片。但場景化或者活動性卡片,對於我們的業務價值可能不如商品卡片那麼高, 如何判斷混排這個動作到底有沒有價值,需要去做比較長時間週期(1個月以上)的 AB 實驗 ,觀察單個模組和全站資料表現,如果全站 UV 價值和全站加購率提升,那混排就是有價值的。  

  使用者留存最佳化,是指關注使用者在一些模組當中有停留且有後續的行為,而不是僅關注短期產生的價值,比如我們希望在簽到或者其他模組,能夠透過留存來增加後期的使用者價值收益,那就需要考慮如何透過主動干預來來提留存。如上圖,透過資料分析可以看到使用者互動 Session 長度與 3 日留存率會顯著正相關(Session 長度 6-20),所以,可考慮最佳化使用者互動 Session 長度。具體做法是在多目標建模中增加戶互動的 Session 長度目標。這塊我們建模最佳化之後得到的 AB 結論是,在首猜場景下,曝光點選率跟 3 日留存率會有一定的提升。這裡也是需要我們做價值上的判斷和取捨,看是否能夠接受短期損失,比如說某個模組在 1 到 3 天之內部分使用者未回訪,但是 3 日內還沒有返回,到第三天或者第四天才進行回訪和留存,之後才產生價值。這個過程可能會產生一些業務價值的波動,但時間週期拉長,會看到整體的收益比短期能覆蓋的範圍更大。

   04 多場景建模實踐

  1. 什麼是多場景建模?

  下面結合嚴選某業務場景,細粒度介紹多場景建模的具體實踐和應用。業務定義上,根據業務場景我們將業務分為核心場景和通用推薦場景。核心場景包括核心入口頁猜你喜歡、購物車、個人頁等,它的特點是流量大,位置顯著,資料豐富,會承擔一些核心的業務指標。其他的中小流量場景,統稱為通用推薦場景,特點是流量少、資料稀疏,但模組數量很龐大、場景非常豐富。接下來主要針對通用推薦場景介紹多場景建模的思路。  

  關於多場景的定性,不同的使用者群體(新客、老客)、不同客戶端(iOS 、安卓)、App 中的不同模組,因為他們的商品展示形式或對使用者心智影響等有一些顯著差異,只要在資料上有明顯的差異,都可視為多場景的一個子場景。  

  關於多場景建模,沒有確切的定義,與學術上遷移學習和跨域推薦比較接近。在實際建模方案落地中,主要考慮如何捕獲場景間的共性,同時保留各個場景的資料本身的特點。機器學習有個基礎假設,訓練資料要服從獨立同分布,實際上各場景的訓練資料的分佈存在顯著差異。

  2. 為什麼多場景建模?  

  如上左圖,是我們之前採取的方案,在通用推薦場景下,多個場景採用同樣的推薦演算法。最早期採用同一套 CF 演算法,後來切換成向量演算法,在後來淺層深度模型。這會存在問題,把所有場景的資料混合在一起去訓練模型,完全沒有考慮到各個場景之間存在的資料差異性,模型訓練方向會被大流量場景的資料帶偏,導致推薦效果是一個的中庸的效果,即各個場景下都不是最優的。

  另外一種極端做法,如上右圖是針對每個場景,都建立一個模型,這樣做的問題是小場景或新接入場景的資料比較稀,少量的樣本很難訓練出比較好的模型。同時維護成本非常高,迭代不方便。

  3. 如何進行多場景建模?  

  我們從特徵工程入手,先構造一些場景的特徵,在輸入層直接拼接到現有模型中,但實際效果並不理想。因為最底層加入的這些場景資訊特徵,經過多層抽象網路很難傳遞到末端,被模型學習到。透過分析各場景商品的 CTR 分佈,有較明顯的差異,因此場景資訊有很強的先驗知識。如上右圖可以透過一個偏置網路,類似位置消偏,認為不同場景資料分佈的差異性是由該場景偏差導致的,偏置網路的輸出層加回主網路。這個簡單的做法,只在在一些場景上有一定效果,大部分沒效果。原因是僅僅依賴偏置網路進行糾偏,對不同場景的特徵分佈差異,沒有進行很好的捕獲。  

  在此基礎上,套用 MMOE 多工框架進行多場景建模。頂層的每個塔對應一個場景,各個場景的特徵數量和語義是保持一致的,如果某個場景有獨特的特徵,其他場景下特徵用預設值代替,MMOE 裡用多個專家網路來隱式地學習場景間的差異和共性。但也有個問題,模型訓練中,每個場景資料只單獨更新對應塔權重,這樣會導致某些小場景學不好,效果不大。另一方面場景特徵資訊,也沒有得到顯示的表達。基於這兩方面考慮,在 MMOE 基礎上增加了一個模組,首先在頂層增加 1 個共享塔,我們認為即使某個場景做預測時,其他場景也會對這個場景的預測起到貢獻,此外接到頂層有個權重生成自網路,類似門控矩陣形式,最終該場景的預測是由所有場景的加權結果,這能夠緩解小場景學不好的問題。由於場景數量較多導致 PLE 模型過於複雜,並可能帶來的延時問題,未嘗試。  

  在實踐中參考的另一個解決方案是阿里的 STAR 星型結構模型,底層是特徵共享層,往上 BatchNorm 的時候,區分場景分別進行,頂層不同的場景分別對應一個塔,同時有一個共享的中心塔。最終每個場景的輸出結果是由場景塔和中心塔相乘得到的,引數更新方式是共享的引數是由所有場景的樣本資料同時更新,場景引數只能由特定場景的樣本去更新。但這個方案也存在場景特徵資訊無法顯示錶達的問題,因為底層的特徵空間是共享的。為了解決這個問題,它的做法是把場景特徵過一個偏置網路,把場景資訊的資訊直接傳遞到輸出層,類似方案一。  

  最後的方案還是以 MMOE 為基礎,底層特徵共享,MMOE 專家網路結構自動選擇場景間共享資訊,同時針對每個場景考慮特徵來源,上圖中右上角為各場景的輸出結構,由 MMOE 專家網路和底層的場景特徵資訊直接傳遞,並行輸入。左側場景 MLP 引數私有,右側 MLP 引數共享。  

  接下來看下在通用推薦場景中的落地情況,上圖中列舉了 10 個場景,其中 Mix 和 Single 分別表示用混合場景和單場景資料去訓練模型,Multi 代表多場景建模。從 AUC 結果可以看到,如果場景資料量比較充足的情況下(#1),單場景資料訓練的 AUC 高於混合場景資料訓練,同時和多場景建模是 AUC 基本持平。對於小場景(#9),資料稀疏,單場景資料訓練效果不好。線上效果是在某些場景 pCTR 有 5%-10% 的提升。

來自 “ 網易有數 ”, 原文作者:強小輝&陳自強;原文連結:http://server.it168.com/a2022/1117/6775/000006775668.shtml,如有侵權,請聯絡管理員刪除。

相關文章