多場景多工學習在美團到店餐飲推薦的實踐

美團技術團隊發表於2023-03-26
隨著推薦演算法技術的不斷髮展,跨場景學習已經受到了越來越多的研究人員的關注。美團到餐演算法團隊受到業界相關技術的啟發,不斷探索到店餐飲多場景推薦的最佳化問題,在多場景多工學習的推薦領域中積累了較多的應用經驗。團隊使用到店餐飲全域推薦場景資料訓練統一的多場景多工學習模型,減少了重複性開發,並在多個到店餐飲推薦場景進行落地,取得了較為顯著的效果。

本文詳細闡述了美團到店餐飲業務中多場景多工學習的解決方案,基於該方案形成的學術論文《HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction》已經被國際資料工程會議ICDE 2023收錄。

1. 背景

隨著網路資訊和服務的爆炸式增長,推薦系統已經成為為使用者提供高質量個性化決策建議和體驗的關鍵元件。傳統的推薦系統,模型服務通常需要為特定場景單獨進行定製化的開發,以適配不同場景下資料分佈和特徵空間的差異。然而在美團等工業網際網路平臺中通常存在多種多樣的推薦場景(例如首頁資訊流、垂類子頻道等)作用於使用者訪問的決策鏈路,同時基於每個場景的個性化推薦模型再對展示專案進行排序最終呈現給使用者。

在美團到店餐飲(以下簡稱到餐)平臺中,伴隨業務精細化的發展趨勢,越來越多的場景需要對推薦系統進行定製化的建設,以滿足使用者到店就餐的個性化需求。如下圖1所示,現實中使用者往往會在多個不同場景之間進行瀏覽、點選,並最終成交。

圖1 使用者在美團到餐平臺中的互動流程

但隨著推薦場景數量的增加,傳統地針對單個場景獨立開發推薦模型,往往會導致如下問題:

  1. 僅根據單場景自身的資料進行建模,無法利用到使用者在跨場景中豐富的行為資訊,忽視了場景共性資訊,特別是考慮到多種場景中可能會存在重複展示的商品(在上圖1中,紅色矩形框圈中的其實是相同的商品)。
  2. 一些長尾的業務場景由於流量較小且使用者行為較為稀疏,資料量不足以讓模型有效地進行建模。
  3. 由於每個場景的特徵挖掘、模型訓練和上線部署是獨立開發且相互隔離的,這會大大增加計算成本和維護負擔。

總的來講,推薦演算法對各場景單獨建模存在諸多的侷限性。然而,簡單地將多個場景資料集進行合併訓練一個排序模型來提供服務,並不能有效地捕獲到每個場景的特有資訊。

此外,除了多場景推薦問題,每個場景中的使用者滿意度和參與度等通常都存在不同的衡量指標需要共同最佳化,例如點選率(CTR)和點選轉化率(CTCVR)。因此需要開發一個有效和統一的框架,來解決這種在多個場景中最佳化各種指標複雜性的問題(即多場景多工最佳化問題)。

在最近的一些研究中,相關方法往往是將多場景推薦做為一個多工學習(Multi-Task Learning,MTL)問題進行建模,並且此類方法大多使用多門控混合專家(Multi-gate Mixture-of-Experts,MMoE)網路框架作為模型改進的基礎來學習場景之間的共性和特性。然而,這種基於MTL的方法往往將多個場景的資料資訊投影到同一個特徵空間進行最佳化,這很難充分捕捉到具有多個任務的眾多場景之間的複雜關係,因此也無法進一步提升多場景多工學習模型的效能。

從直覺來看,多場景和多工的資訊建模應屬於不同層次的最佳化,應該進行分層處理。因此,在本文中,我們提出了一種層次化資訊抽取網路(Hierarchical information extraction Network,HiNet)。具體來說,我們設計了一個端到端的兩層資訊抽取框架,來共同建模場景間和任務間的資訊共享和協作。

首先,在場景抽取層(Scenario Extraction Layer),HiNet能夠透過單獨的專家模組提取場景共享資訊和場景特有資訊。為了進一步加強對當前場景的表示學習,我們設計了場景感知注意力網路(Scenario-aware Attentive Network,SAN),顯式學習其他場景對當前場景的資訊表徵貢獻程度。

然後,在任務抽取層(Task Extraction Layer),利用自定義的由任務共享和任務特有專家網路組成的門控網路,有效地緩解了多工學習中共享資訊和任務特有資訊之間的引數干擾。

透過在模型結構上分離場景層和任務層的資訊提取,可以將不同場景下的多個任務明確劃分到不同的特徵空間中進行最佳化,從而有利於提升模型效能。

整個論文的主要創新點如下:

  1. 我們提出了一種新穎的多場景多工學習模型HiNet,用於最佳化多場景下的多種任務指標,其中創新性地應用了分層資訊抽取架構。
  2. 在場景資訊抽取層中,我們提出了場景感知注意力網路SAN模組,進一步增強了場景資訊建模的能力。
  3. 離線評估和線上A/B測試的實驗證明了HiNet優於當前主要方法。目前,HiNet已在美團到餐中的兩個場景中進行了全面部署。

2. 層次化資訊抽取網路

2.1 問題定義

image.png

原始的特徵輸入中主要包括了使用者畫像特徵、使用者行為特徵、當前場景特有特徵和商品特徵,其中的數值特徵首先被轉化為分類特徵,然後將所有分類特徵對映到低維向量空間來獲得$x$。考慮到美團到餐平臺中具體的最佳化目標,我們分別為每個場景設定了CTR和CTCVR兩個任務。

2.2 方法介紹

本小節將展開介紹層次化資訊抽取網路模型HiNet。如下圖2-(A)所示,HiNet模型中主要包括場景抽取層和任務抽取層兩個核心模組。其中在場景抽取層主要包括了場景共享專家(Scenario-shared expert)模組、當前場景特有專家(Scenario-specific expert)模組以及場景感知注意力網路,透過這三部分的資訊抽取,最終形成了場景層次的資訊表徵;而在任務抽取層中,我們使用自定義門控網路模組CGC(Customized Gate Control)來對當前場景的多工學習進行建模。下文將詳細介紹上述提到的HiNet模型的關鍵部分。

圖2 Hierarchical information extraction Network模型結構

2.2.1 場景抽取層(Scenario Extraction Layer)

場景抽取層的作用是提取場景特有的資訊表徵和場景間共享的有價值資訊表徵,這是提高任務層次資訊表徵能力的基礎。在場景抽取層,主要包括場景共享專家網路、場景特有專家網路和場景感知注意力網路三部分,下文將依次進行介紹。

  1. 場景共享/特有專家網路

考慮到使用者跨場景的穿插式行為以及多個場景間商品重疊的現象,到餐業務中多個場景的資料之間存在著有價值的共享資訊。因此在策略上,我們設計了場景共享專家網路。這裡受到混合專家網路架構MoE(Mixture of Expert)的影響,場景共享專家網路是透過使用子專家整合模組SEI(Sub-Expert Integration module,如圖2-(C))生成的。

具體來說,場景共享專家網路的最終輸出為$G$,其公式為:

  1. 場景感知注意力網路

如上文所述,不同場景之間存在一定程度的相關性,因此來自其他場景的資訊也可以對當前場景的資訊表徵做出貢獻,從而增強當前場景的資訊表達能力。考慮到不同場景間對彼此的表徵能力貢獻不同,我們設計了場景感知注意力網路(Scenario-aware Attentive Network,SAN)來衡量其他場景資訊對當前場景資訊表徵貢獻的重要性。具體來說,SAN包含兩部分輸入:

2.2.2 任務抽取層(Task Extraction Layer)

為了解決多工學習中的負遷移問題,在任務抽取層,我們受到PLE(Progressive Layered Extraction)模型的啟發,採用了自定義門控網路CGC模組。

自定義門控網路

自定義門控網路主要由兩部分組成:任務共享專家網路和任務特有專家網路。前者主要負責學習當前場景中所有任務中的共享資訊,後者用於提取當前場景中各個任務的特有資訊。

2.3 訓練目標

我們提出的HiNet的最終損失函式是:

3. 實驗

3.1 實驗設定

  1. 資料收集:我們收集了美團到餐平臺中的六個場景(場景編號為a到f)的使用者日誌資料作為我們的多場景多工訓練和評估資料集,其中場景a和b是大場景資料集。相比之下,c到f被作為小場景資料集。

表1 各場景樣本資料集統計

  1. 評估指標:我們分別考慮每個場景的CTR和CTCVR任務的效能評估,並採用AUC(Area Under ROC Curve)作為多場景多工資料集的評估指標。
  2. 模型對比:為了公平地對比我們提出的HiNet模型與業界的SOTA(State-Of-The-Art)模型,我們使用相同條件的實驗環境和模型引數量,並對每個模型進行了充分調優和多次實驗。具體對比的模型如下:

多工學習模型

  • Shared Bottom:該模型是一個具有硬引數共享的神經網路模型。
  • MMoE:該方法使用靈活的門控網路調整專家網路表示資訊,並最終使用塔單元融合每個任務的所有專家網路表示資訊。
  • PLE:該模型基於MMoE,將專家網路顯式劃分為任務共享專家和任務特有專家,有效緩解了“蹺蹺板”現象帶來的負遷移問題。

多場景學習模型

  • HMoE:該方法由MMoE改進而來,對多個場景的預測值進行建模,並針對當前場景最佳化任務預測結果。
  • STAR:該方法透過星型拓撲結構構造一個共享的和場景特有的網路,用於學習當前場景的資訊表徵。

需要指出的是,上述用於對比的模型最初只是為了單純解決多工學習或多場景學習的問題而提出的。為了實現公平的實驗比較,我們在實驗中對相關對比模型做了自適應擴充套件,以滿足多場景多工建模的需求。

3.2 效能比較

表2 在所有場景下相關對比模型的效能比較

表2展示的是我們在美團到餐平臺中六個場景下的各個模型的效能對比。從結果可以看出,我們提出的HiNet模型在所有場景的CTR和CTCVR任務指標上都優於其他對比模型,這證明了HiNet在多場景多工建模的優勢。

3.3 消融研究

為了研究HiNet模型中每個關鍵元件的效果,我們設計了兩個HiNet模型的變體用於消融分析。具體如下:

  • HiNet(w/o hierarchy):表示去掉了資訊抽取的層級架構,直接採用CGC網路進行多場景多工學習建模。
  • HiNet(w/o SAN):表示的是在場景抽取層中刪除SAN模組後的HiNet模型。

表3 HiNet模型的消融實驗結果對比

從表3的實驗結果,我們可以觀察到,變體模型HiNet(w/o hierarchy)在所有指標上都有嚴重的效能下降,這表明分層資訊抽取架構可以有效地捕獲跨場景的共性和差異,從而提高模型的效能。類似地,在場景抽取層去掉SAN模組後,變體模型HiNet(w/o SAN)在多個場景下效能也有明顯的下降,這表明SAN模組學習到的權重資訊可以有效地增強場景抽取層的資訊表徵能力。

3.4 線上A/B測試

為了進一步驗證我們提出的HiNet模型的線上效能,我們在美團到餐平臺中的場景a和b中部署了HiNet模型,並與基線模型進行了為期一個月的線上A/B測試。

表4 場景a和b的線上A/B測試收益

從表4可以看出,HiNet模型在多個場景的CTR和CTCVR指標中均超過了基線模型,並且在訂單增益上有顯著的提升,這進一步說明了我們提出的HiNet模型的有效性。目前,HiNet模型已經全面部署在上述兩個業務中,併為業務的增長做出了一定的貢獻。

4. 總結與展望

多場景多工建模是目前推薦系統中最關鍵和最具挑戰性的問題之一。以往的模型主要透過將所有資訊投影到同一個特徵空間來最佳化不同場景下的多個任務,這導致模型效能存在不足。

在本文中,我們提出了層次化資訊抽取網路HiNet模型,它利用分層最佳化架構對多場景多工問題進行建模。在此基礎上,我們在場景抽取層設計了場景感知注意力網路模組SAN來增強場景的表示學習能力。離線和線上A/B測試實驗都驗證了HiNet模型的優越性。

值得一提的是,目前業界已經出現了大量的圖神經網路在推薦模型上的應用。受此啟發,在未來的工作中,美團到餐演算法團隊將圖神經網路的資訊傳遞能力結合到多場景多工學習建模的方案中,繼續實踐我們的方法,並進一步設計更加完善的模型,來解決在美團到餐平臺中存在的複雜的多場景多工建模問題。

作者簡介

周杰、先帥、文豪、薄琳、張琨等,均來自美團到店/平臺技術部。

參考文獻

  • [1] P. Li, R. Li, Q. Da, A.-X. Zeng, and L. Zhang, “Improving multi-scenario learning to rank in e-commerce by exploiting task relationships in the label space,” in Proceedings of the 29th ACM International Conference on * Information & Knowledge Management (CIKM), 2020, pp. 2605–2612.
  • [2] X.-R. Sheng, L. Zhao, G. Zhou, X. Ding, B. Dai, Q. Luo, S. Yang, J. Lv, C. Zhang, H. Deng et al., “One model to serve all: Star topology adaptive recommender for multi-domain ctr prediction,” in Proceedings of the 30th * ACM International Conference on Information & Knowledge Management (CIKM), 2021, pp. 4104–4113.
  • [3] J. Ma, Z. Zhao, X. Yi, J. Chen, L. Hong, and E. H. Chi, “Modeling task relationships in multi-task learning with multi-gate mixture-of-experts,” in Proceedings of the 24th ACM SIGKDD international conference on * knowledge discovery & data mining (SIGKDD), 2018, pp. 1930–1939.
  • [4] H. Tang, J. Liu, M. Zhao, and X. Gong, “Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations,” in Proceedings of the 14th ACM Conference on Recommender Systems (RecSys), 2020, pp. 269–278.
  • [5] L. Torrey and J. Shavlik, “Transfer learning,” in Handbook of research on machine learning applications and trends: algorithms, methods, and techniques. IGI global, 2010, pp. 242–264.
  • [6] S. J. Pan and Q. Yang, “A survey on transfer learning,” IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, pp. 1345–1359, 2010.
  • [7] F. Zhu, Y. Wang, C. Chen, J. Zhou, L. Li, and G. Liu, “Cross-domain recommendation: challenges, progress, and prospects,” in 30th International Joint Conference on Artificial Intelligence (IJCAI). International Joint * Conferences on Artificial Intelligence, 2021, pp. 4721–4728.
  • [8] Y. Zhang and Q. Yang, “A survey on multi-task learning,” IEEE Transactions on Knowledge and Data Engineering, 2021.
  • [9] S. Ruder, “An overview of multi-task learning in deep neural networks,” arXiv preprint arXiv:1706.05098, 2017.
  • [10] O. Sener and V. Koltun, “Multi-task learning as multi-objective optimization,” in Thirty-second Conference on Neural Information Processing Systems (NeurIPS), 2018.
  • [11] C. Rosenbaum, T. Klinger, and M. Riemer, “Routing networks: Adaptive selection of non-linear functions for multi-task learning,” in International Conference on Learning Representations (ICLR), 2018.
  • [12] J. Wang, S. C. Hoi, P. Zhao, and Z.-Y. Liu, “Online multi-task collaborative filtering for on-the-fly recommender systems,” in Proceedings of the 7th ACM conference on Recommender systems (RecSys), 2013, pp. 237–244.
  • [13] R. Caruana, “Multitask learning,” Machine learning, vol. 28, no. 1, pp. 41–75, 1997.
  • [14] K. Weiss, T. M. Khoshgoftaar, and D. Wang, “A survey of transfer learning,” Journal of Big data, vol. 3, no. 1, pp. 1–40, 2016.
  • [15] N. Shazeer, A. Mirhoseini, K. Maziarz, A. Davis, Q. Le, G. Hinton, and J. Dean, “Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,” arXiv preprint arXiv:1701.06538, 2017.
  • [16] D. Eigen, M. Ranzato, and I. Sutskever, “Learning factored representations in a deep mixture of experts,” Computer Science, 2013.
  • [17] M. I. Jordan and R. A. Jacobs, “Hierarchical mixtures of experts and the em algorithm,” Neural computation, vol. 6, no. 2, pp. 181–214, 1994.
  • [18] R. A. Jacobs, M. I. Jordan, S. J. Nowlan, and G. E. Hinton, “Adaptive mixtures of local experts,” Neural computation, vol. 3, no. 1, pp. 79–87, 1991.
  • [19] S. E. Yuksel, J. N. Wilson, and P. D. Gader, “Twenty years of mixture of experts,” IEEE transactions on neural networks and learning systems, vol. 23, no. 8, pp. 1177–1193, 2012.
  • [20] Y. Zhang, C. Li, I. W. Tsang, H. Xu, L. Duan, H. Yin, W. Li, and J. Shao, “Diverse preference augmentation with multiple domains for cold-start recommendations,” in IEEE International Conference on Data Engineering (ICDE), 2022.

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請傳送郵件至tech@meituan.com申請授權。

| 在美團公眾號選單欄對話方塊回覆【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可檢視美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請傳送郵件至tech@meituan.com申請授權。

相關文章