美團多場景建模的探索與實踐

發表於2023-09-19
本文介紹了美團到家/站外投放團隊在多場景建模技術方向上的探索與實踐。基於外部投放的業務背景,本文提出了一種自適應的場景知識遷移和場景聚合技術,解決了在投放中面臨外部海量流量帶來的場景數量豐富、場景間差異大的問題,取得了明顯的效果提升。希望能給大家帶來一些啟發或幫助。

1 引言

美團到家Demand-Side Platform(下文簡稱DSP)平臺,主要負責在美團外部媒體上進行商品或者物料的推薦和投放,並不斷最佳化轉化效果。隨著業務的不斷髮展與擴大,DSP對接的外部渠道越來越豐富、展示形式越來越多樣,物料展示場景的差異性愈發明顯(如開屏、插屏、資訊流、彈窗等)。

例如,使用者在午餐時間更容易點選【某推薦渠道下】【某App】【開屏展示位】的快餐類商家的物料而不是【資訊流展示位】的啤酒燒烤類商家物料。場景間差異的背後本質上是使用者意圖和需求的差異,因此模型需要對越來越多的場景進行定製化建設,以適配不同場景下使用者的個性化需求。

業界經典的Mixture-of-Experts架構(MoE,如MMoE、PLE、STAR[1]等)能一定程度上適配不同場景下使用者的個性化需求。這種架構將多個Experts的輸出結果透過一個門控網路進行權重分配和組合,以得到最終的預測結果。早期,我們基於MoE架構提出了使用物料推薦渠道進行場景劃分的多場景建模方案。然而,隨著業務的不斷壯大,場景間的差異越來越大、場景數量也越來越豐富,這版模型難以適應業務發展,不能很好地解決DSP背景下存在的以下兩個問題:

  1. 負遷移現象:以推薦渠道為例,由於不同推薦渠道的流量在使用者分佈、行為習慣、物料展示形式等方面存在差異,其曝光數、點選率也不在同一個數量級(如下圖1所示,不同渠道間點選率相差十分顯著),資料呈現典型的“長尾”現象。如果使用推薦渠道進行多場景建模的依據,一方面模型會更傾向於學習到頭部渠道的資訊,對於尾部渠道會存在學習不充分的問題,另一方面尾部渠道的資料也會給頭部渠道的學習帶來“噪聲”,導致出現負遷移。
  2. 資料稀疏難以收斂:DSP會在外部不同媒體上進行物料展示,而使用者在訪問外部媒體時,其所處的時空背景、上下文資訊、不同App以及物料展示位等資訊共同構成了當前的場景,這樣的場景在十萬的量級,每個場景的資料又十分稀疏,導致模型難以在每個場景上得到充分的訓練。

在面對此類建模任務時,業界現有的方法是在不同場景間進行知識遷移。例如,SAML[2]模型採用輔助網路來學習場景的共享知識並遷移至各場景的獨有網路;ADIN[3]和SASS[4]模型使用門控單元以一種細粒度的方式來選擇和融合全域性資訊到單場景資訊中。然而,在DSP背景中複雜多變的流量背景下,場景差異性導致了場景數量的急劇增長,現有方法無法在巨量稀疏場景下有效。

因此,在本文中我們提出了DSP背景下的自適應場景建模方案(AdaScene, Adaptive Scenario Model),同時從知識遷移和場景聚合兩個角度進行建模。AdaScene透過控制知識遷移的程度來最大化不同場景共性資訊的利用,並使用稀疏專家聚合的方式利用門控網路自動選擇專家組成場景表徵,緩解了負遷移現象;同時,我們利用損失函式梯度指導場景聚合,將巨大的推薦場景空間約束到有限範圍內,緩解了資料稀疏問題,並實現了自適應場景建模方案。

圖1 不同渠道規模差異

2 自適應場景建模

在本節開始前,我們先介紹多場景模型的建模方式。多場景模型採用輸入層 Embedding + 混合專家(Mixture-of-Experts, MoE)的建模正規化,其中輸入資訊包括了使用者側、商家側以及場景上下文特徵。多場景模型的損失由各場景的損失聚合而成,其損失函式形式如下:

其中,\( K \)為場景數量,\( αi \)為各場景的損失權重值。

我們提出的AdaScene自適應場景模型主要包含以下2個部分:場景知識遷移(Knowledge Transfer)模組以及場景聚合(Scene Aggregation)模組,其模型結構如下圖2所示。場景知識遷移模組自適應地控制不同場景間的知識共享程度,並透過稀疏專家網路自動選擇 K 個專家構成自適應場景表徵。場景聚合模組透過離線預先自動化衡量所有場景間損失函式梯度的相似度,繼而透過最大化場景相似度來指導場景的聚合。

圖2 自適應場景建模AdaScene示意圖

該模型結構的整體損失函式如以下公式所示:

其中,\( \alpha_{k} \) 為每個場景組的損失函式所對應的係數,\( G_k \)為第k個場景組下的的場景數量,G為某種場景組的劃分方式。

下面,我們分別介紹自適應場景知識遷移和場景聚合的建模方案。

2.1 自適應場景知識遷移

在多場景建模中,場景定義方式決定了場景專家的學習樣本,很大程度上影響著模型對場景的擬合能力,但無論採用哪種場景定義方式,不同場景間使用者分佈都存在重疊,使用者行為模式也會有相似性。

為提升不同場景間共性的捕捉能力,我們從場景特徵和場景專家兩個維度探索場景知識遷移的方法,在以物料推薦渠道×App×展示形態作為多場景建模Base模型的基礎上,構建瞭如下圖3所示的自適應場景知識遷移模型(Adaptive Knowledge Transfer Network, AKTN)。該模型建立了場景共享引數與私有引數的知識遷移橋樑,能夠自適應地控制知識遷移的程度、緩解負遷移現象。

圖3 AKTN(Adaptive Knowledge Transfer Network)

  • 場景特徵適配:透過Squeeze-and-Excitation Network[5]構建場景適應層(Scene Adaption Layer),其結構可表示為\( F_{SE}= FC( ReLU( FC(x))) \),其中FC表示全連線層,\( ReLU \)為啟用函式。由於不同場景對原始特徵的關注程度存在較大差異,該層能夠根據不同場景的資訊生成原始特徵的權重,並利用這些權重對輸入特徵進行相應的變換,實現場景特定的個性化輸入表徵,提高模型的場景資訊捕捉能力。
  • 場景知識遷移:使用GRU門控單元構建場景知識遷移層(Scene Transfer Layer)。GRU門控單元透過場景上下文資訊對來自全域性場景專家和當前場景專家的資訊流動進行控制,篩選出符合當前場景的有用資訊;並且,該結構能以層級方式進行堆疊,不斷對場景輸出進行修正。

場景特徵適配在輸入層根據場景資訊對不同特徵進行權重適配,篩選出當前場景下模型最關注的特徵;場景知識遷移在隱層專家網路中進行知識遷移,控制共享專家中共性資訊向場景獨有資訊的流動,使得場景共性資訊得以傳遞。

這兩種知識遷移方式互為補充、相輔相成,共同提升多場景模型的預估能力。我們對比了不同模組的實驗效果,具體結果如下表1所示。可以看出,引入場景知識遷移和特徵權重最佳化在頭部、尾部渠道都能帶來一定提升,其中尾部小流量場景上(見下表1子場景2、3)有更為明顯的提升,可見場景知識遷移緩解了場景之間的負遷移現象。

表1 AKTN實驗效果

相關研究和實踐表明6[8],稀疏專家網路對於提高計算效率和增強模型效果非常有用。因此,我們在AKTN模型的基礎上,在專家層進一步最佳化多場景模型。具體的,我們將場景知識遷移層替換為自動化稀疏專家選擇方法,透過門控網路從大規模專家中選取與當前場景最相關的$K$個構成自適應場景表徵,其選擇過程如下圖4所示:

圖4 稀疏專家網路示意圖

在實踐中,我們透過使用可微門控網路對專家進行有效組合,以避免不相關任務之間的負遷移現象。同時大規模專家網路的引入擴大了多場景模型的選擇空間,更好地支援了門控網路的選擇。考慮到多場景下的海量流量和複雜場景特徵,在業界調研的基礎上對稀疏專家門控網路進行了探索。

具體而言,我們對以下稀疏門控方法進行了實踐:

  • 方法一:\( KL \),以此選擇與當前場景最匹配的\( k \)個專家。在實現方式上,使用場景*專家的二維矩陣計算相似性,並透過KL散度選擇出最適合的k個專家。
  • 方法二:每個子場景配備一個專家選擇門控網路,m個場景則有m個門控網路。對於每個場景的門控網路,配備k個單專家選擇器[9],每個單專家選擇器負責從n個專家中選擇一個作為當前場景的專家(n為Experts個數)。在實踐中,為提高訓練效率,我們對單專家選擇器中權重較小的值進行截斷,保證每個單專家選擇器僅選擇一個專家。

在離線實驗中,我們以物料推薦渠道 * 展示形態作為場景定義,對上述稀疏門控方法進行了嘗試,離線效果如下表2所示:

表2 稀疏門控方法效果

可以看出,基於軟共享機制的專家聚合方法能夠更好地透過所啟用的相同專家網路對各場景之間的知識進行共享。相較於常見的以截斷方式為主的門控網路,使用二進位制編碼的方式使得其在不損失其他專家網路資訊的同時,能夠更好地收斂到目標專家數量,同時其可微性使得其在以梯度為基礎的最佳化演算法中訓練更加穩定。

同時,為了驗證稀疏門控網路能否有效區分不同場景並捕捉到場景間差異性,我們使用n=16個專家中選擇K=7個的例子,對驗證集中不同場景下各專家的利用率、選擇專家的平均權重進行了視覺化分析(如圖5-圖7所示),實驗結果表明該方法能夠有效地選擇出不同的專家對場景進行表達。

例如,圖6中KP_1更多地選擇第5個專家,而KP_2更傾向於選擇第15個專家。並且,不同場景對各專家的使用率以及選擇專家的平均權重也有著明顯的差異性,表明該方法能夠捕捉到細分場景下流量的差異性並進行差異化的表達。

圖5 同渠道下不同展示形式專家分佈

圖6 開屏展示不同渠道的專家分佈

圖7 資訊流展示不同渠道的專家分佈

實驗證明,在透過大規模專家網路對每個場景進行建模的同時,基於軟共享機制的專家聚合方法能夠更好地透過所啟用的相同專家網路對各場景之間的知識進行共享。 同時,為了進一步探索Experts個數對模型效能的影響,我們在方法二的基礎上透過調整專家個數和topK比例設計了多組對比實驗,實驗結果如下表3所示:

表3 方法二調參實驗

從實驗資料可以看出,大規模的Experts結構會帶來正向的離線收益;並且隨著選取專家個數比例的增加(表3橫軸),模型整體的表現效果也有上升的趨勢。

2.2 自適應場景聚合

理想情況下,一條請求(流量)可以看作一個獨立的場景。但如引言所述,隨著DSP業務持續發展,不同的物料展示渠道、形式、位置等持續增加,每個場景的資料十分稀疏,我們無法對每個細分場景進行有效訓練。因此,我們需要對各個推薦場景進行聚類、合併。我們使用場景聚合的方法對此問題進行求解,透過衡量所有場景間的相似度,並最大化該相似度來指導場景的聚合,解決了資料稀疏導致難以收斂的問題。具體的,我們將該問題表示為:

其中G表示某種分組方式,\( f_{s_i} \)為場景\( s_i \)在分組\( G_k \)內與其他場景的總體相似度。在將N個場景聚合成K個場景組的過程中,我們需要找到使得場景間整體相似度最大的分組方式\( G^{\ast} \)。

因此,我們在2.1節場景知識遷移模型的基礎上,增加了場景聚合部分,提出了基於Two-Stage策略進行訓練的場景聚合模型:

  • Stage 1:基於相似度衡量方法對各場景的相似度進行歸納,並以最大化分組場景的相似度為目標找到各場景的最優聚合方式(如Scene1與Scene 4可聚合為場景組合Scene Group SGA);
  • Stage 2:基於Stage 1得到的場景聚合方式,以交叉熵損失為目標函式最小化各場景下的交叉熵損失。

其中,Stage 2與2.1節中所述一致,本節主要針對Stage 1進行闡述。我們認為,一個有效的場景聚合方法應該能自適應地應對流量變化的趨勢,能夠發現場景之間的內在聯絡並依據當前流量特點自動適配聚合方法。我們首先想到的是從規則出發,將人工先驗知識作為場景聚合的依據,按照推薦渠道、展示形式以及兩者叉乘的方式進行了相應迭代。然而這類場景聚合方式需要可靠的人工經驗來支撐,且在應對海量流量時不能迅速捕捉到其中的變化。

因此,我們對場景之間關係的建模方法進行了相關的探索。首先,我們透過離線訓練時場景之間的表徵遷移和組合訓練來評估場景之間的影響,但這種方式存在組合空間巨大、訓練耗時較長的問題,效率較低。

在多工的相關研究中1012,使用梯度資訊對任務之間的關係進行建模是一種有效的方法。類似的在多場景模型中,能夠根據各場景損失函式的梯度資訊對場景間的相似度進行建模,因此我們採用多專家網路並基於梯度資訊自動化地對場景之間的相似度進行求解,模型示意如下圖8所示:

圖8 場景聚合示意圖

基於上述思路,我們對場景之間的關係建模方法進行了以下嘗試:

1. Gradient Regulation

基於梯度資訊能夠對場景資訊進行潛在表示這一認知,我們在損失函式中加入各場景損失函式關於專家層梯度距離的正則項,整體的損失函式如下所示,該正則項的係數\( \lambda_{s_i,s_j} \)表示場景之間的相似度,dist為常見的評估梯度之間距離的方法,比如\( l_1 \),\( l_2 \)距離。

2. Lookahead Strategy

3. Meta Weights

Lookahead Strategy該方法對場景間的關係進行了顯式建模,但是這種根據損失函式的變化計算場景相關係數的策略存在著訓練不穩定、波動較大的現象,無法像Gradient Regulation這一方法對場景相似度進行求解。

因此,我們引入了場景間的相關性係數矩陣(meta weights),結合前兩種方法對該問題進行如下建模,透過場景\( s_i \)的資料對其與其他場景的相關性係數\( \lambda_{s_i \to s_j} \)進行更新,同時基於該引數對全域性的引數模型W進行最佳化。針對這種典型的兩層最佳化問題,我們基於MAML[14]方法進行求解,並將meta weights作為場景間的相似度。

我們以推薦渠道和展示形式(是否開屏)的多場景模型作為Base,對上述3種方法做了探索。為了提高訓練效率,我們在設計 Stage 1 模型時做了以下最佳化:

我們對每個方法的GAUC進行了比較,實驗效果如下表4所示。相較於人工規則,基於梯度的場景聚合方法都能帶來效果的明顯提升,表明損失函式梯度能在一定程度上表示場景之間的相似性,並指導多場景進行聚合。

表4 場景聚合實驗資料

為了更全面的展現場景聚合對於模型預估效果的影響,我們選取Meta Weights進行分組數量的調優實驗,具體的實驗結果如下表5所示。可以發現:隨著分組數的增大,GAUC提升也越大,此時各場景間的負遷移效應減弱;但分組超過一定數量時,場景間總體的相似度減小,GAUC呈下降趨勢。

表5 不同聚合場景數量實驗資料

此外,我們對Meta Weigts方法中部分場景間的關係進行了視覺化分析,分析結果如下圖9所示。以場景作為座標軸,圖中的每個方格表示各場景間的相似度,顏色的深淺表示渠道間的相似程度大小。

圖9 部分細分場景下的相似度示例

從圖中可以發現,以渠道和展示形式為粒度的細分場景下,該方法能夠學習到不同場景間的相關性,例如A渠道下的資訊流(s16)與其他場景的相關性較低,會將其作為獨立的場景進行預估,而B渠道下的開屏展示(s9)與C渠道開屏展示(s8)相關性較高,會將其聚合為一個場景進行預估,同時該相似度矩陣不是對稱的,這也說明各場景間相互的影響存在著差異。

3 總結與展望

透過多場景學習的探索和實踐,我們深入挖掘了推薦模型在不同場景下的建模能力,並分別從場景知識遷移、場景聚合方向進行了嘗試和最佳化,這些嘗試提供了更好的理解和解釋推薦模型對不同型別流量和場景的應對能力。然而,這只是多場景學習研究的開始,後續我們會探索並迭代以下方向:

  • 更好的場景劃分方式:當前多場景的劃分主要還是依據渠道(渠道*展示形態)作為流量的劃分方式,未來會在媒體、展示位、媒體*時間等維度上進行更詳細地探索;
  • 端到端的流量聚合方式:在進行流量聚合時,使用了Two-Stage的策略進行聚合。然而,這種方式不能充分地利用流量資料中相關的資訊。因此,需要探索端到端的流量場景聚合方案將更直接和有效地提高推薦模型的能力。

結合多場景學習,在未來的研究中將不斷探索新的方法和技術,以提高推薦模型對不同場景和流量型別的建模能力,創造更好的使用者體驗以及商業價值。

4 作者簡介

王馳、森傑、樹立、文帥、尹華、肖雄等,均來自美團到家事業群/到家研發平臺。

5 參考文獻

相關文章