KDD2024最佳學生論文解讀,中科大、華為諾亞:序列推薦新正規化DR4SR

机器之心發表於2024-09-01
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本工作由認知智慧全國重點實驗室 IEEE Fellow 陳恩紅團隊與華為諾亞方舟實驗室完成。陳恩紅教授團隊深耕資料探勘、機器學習領域,在頂級期刊與會議上發表多篇論文,谷歌學術論文引用超兩萬次。諾亞方舟實驗室是華為公司從事人工智慧基礎研究的實驗室,秉持理論研究與應用創新並重的理念,致力於推動人工智慧領域的技術創新和發展。

8 月 25 日 - 29 日在西班牙巴塞羅那召開的第 30 屆 ACM 知識發現與資料探勘大會 (KDD2024) 上,中國科學技術大學認知智慧全國重點實驗室陳恩紅教授、IEEE Fellow,和華為諾亞聯合發表的論文 “Dataset Regeneration for Sequential Recommendation”,獲 2024 年大會 Research Track 唯一最佳學生論文獎。論文第一作者為中科大認知智慧全國重點實驗室陳恩紅教授,連德富教授,與王皓特任副研究員共同指導的博士生尹銘佳同學,華為諾亞劉勇、郭威研究員也參與了論文的相關工作。這是自 KDD 於 2004 年設立該獎項以來,陳恩紅教授團隊的學生第二次榮獲該獎項。

圖片

  • 論文連結: https://arxiv.org/abs/2405.17795
  • 程式碼連結: https://github.com/USTC-StarTeam/DR4SR

研究動機

序列推薦系統(Sequential Recommender, SR)是現代推薦系統的重要組成部分,因為它旨在捕捉使用者不斷變化的偏好。近年來,研究者為了增強序列推薦系統的能力,已經付出了大量努力。這些方法通常遵循以模型為中心(Model-centric)的正規化,即基於固定資料集開發有效的模型。然而,這種方法往往忽視了資料中潛在的質量問題和缺陷。為了解決這些問題,學界提出了以資料為中心(Data-centric)的正規化,重點在於使用固定模型轉而生成高質量的資料集。我們將其定義為 “資料集重生成” 問題。

為了獲得最佳的訓練資料,研究團隊的關鍵思路是學習一個顯式包含物品轉移模式的新資料集。具體來說,他們將推薦系統的建模過程分為兩個階段:從原始資料集中提取轉移模式 圖片,並基於 圖片 學習使用者偏好圖片。由於學習從 圖片的對映涉及兩個隱含的對映:圖片 ,因此這一過程具有挑戰性。為此,研究團隊探索了開發一個顯式表示圖片中的物品轉移模式的資料集的可能性,這使得我們可以將學習過程明確地分為兩個階段,其中 圖片 相對更容易學習。因此,他們的主要關注點是學習一個有效的圖片的對映函式,這是一個一對多的對映。研究團隊將這一學習過程定義為資料集重生成正規化,如圖 1 所示,其中 “重生成” 意味著他們不引入任何額外資訊,僅依賴原始資料集。

圖片

圖1

為了實現資料集重生成,研究團隊提出了一種新穎的以資料為中心的正規化 —— 用於序列推薦的資料集重生成(DR4SR),旨在將原始資料集重生成一個資訊豐富且具有通用性的資料集。具體來說,研究團隊首先構建了一個預訓練任務,使得資料集重生成成為可能。接著,他們提出了一種多樣性增強的重生成器,以在重生成過程中建模序列和模式之間的一對多關係。最後,他們提出了一種混合推理策略,以在探索與利用之間取得平衡,生成新的資料集。

資料集重生成過程雖具通用性,但可能不完全適合特定目標模型。為解決這一問題,研究團隊提出了 DR4SR+,這是一個模型感知的重生成過程,它根據目標模型的特性定製資料集。DR4SR + 透過雙層最佳化問題和隱式微分技術,個性化評分並最佳化重生成資料集中的模式,以增強資料集效果。

研究方法

在本項研究中,研究團隊提出了一個名為 “用於序列推薦的資料重生成”(DR4SR)的以資料為中心的框架,旨在將原始資料集重生成一個資訊豐富且具有通用性的資料集,如圖 2 所示。由於資料重生成過程是獨立於目標模型的,因此重生成的資料集可能不一定符合目標模型的需求。因此,研究團隊將 DR4SR 擴充套件為模型感知版本,即 DR4SR+,以針對特定的目標模型定製重生成的資料集。

模型無感知的資料集重生成

圖片

圖2

為了開發一個資訊豐富且具有通用性的資料集,研究團隊旨在構建一個資料集重生成器,以促進資料集的自動重生成。然而,原始資料集中缺乏用於學習資料集重生成器的監督資訊。因此,他們必須以自監督學習的方式來實現這一目標。為此,他們引入了一個預訓練任務,以指導多樣性增強重生成器的學習。在完成預訓練後,研究團隊進一步使用混合推理策略來重生成一個新資料集。

資料重生成預訓練任務的構建:

圖片

圖3

為了構建預訓練任務,他們首先透過基於規則的方法獲取物品轉移模式。然後,要求重生成器 圖片能夠將 圖片 重生成對應的模式 圖片 。研究團隊將整個預訓練資料集記作 圖片

促進多樣性的重生成器:

藉助預訓練任務,研究團隊現在可以預訓練一個資料集重生成器。本文中,他們採用 Transformer 模型作為重生成器的主要架構,其生成能力已被廣泛驗證。資料集重生成器由三個模組組成:一個用於獲取原始資料集中序列表示的編碼器、一個用於重生成模式的解碼器,以及一個用於捕捉一對多對映關係的多樣性增強模組。接下來,研究團隊將分別介紹這些模組。

編碼器由多個堆疊的多頭自注意力(MHSA)和前饋網路(FFN)層組成。至於解碼器,它將重生成資料集 X' 中的模式作為輸入。解碼器的目標是在給定編碼器生成的序列表示的情況下重構模式

圖片

然而,從一個序列中可以提取多個模式,這在訓練過程中會帶來挑戰。為了解決這一一對多對映問題,研究團隊進一步提出了一個多樣性增強模組。

具體而言,研究團隊透過將目標模式的資訊整合到解碼階段,來自適應地調節原始序列的影響。首先,他們將編碼器生成的記憶 圖片投影到 K 個不同的向量空間中,即 圖片。理想情況下,不同的目標模式應與不同的記憶匹配。為此,他們還引入了一個 Transformer 編碼器來編碼目標模式並獲取 圖片。他們將 圖片壓縮成一個機率向量:

圖片

其中 圖片圖片是選擇第 k 個記憶的機率。為了確保每個記憶空間得到充分訓練,我們不執行硬選擇,而是透過加權求和得到最終的記憶:

圖片

最終,可以利用獲取的記憶來促進解碼過程,並有效捕捉序列與模式之間複雜的一對多關係。

模型感知的資料集重生成

由於前面的重生成過程與目標模型無關,因此重生成的資料集可能對於特定的目標模型來說並不是最優的。因此,他們將模型無關的資料集重生成過程擴充套件為模型感知的重生成過程。為此,在資料集重生成器的基礎上,他們引入了一個資料集個性化器,用於評估重生成資料集中每個資料樣本的評分。然後,研究團隊進一步透過隱式微分有效地最佳化資料集個性化器。

資料集個性化器:

研究團隊的目標是訓練一個引數為 圖片的基於 MLP 實現的資料集個性化器 圖片,用以評估每個資料樣本 W 對於目標模型的評分。為了確保框架的通用性,研究團隊利用計算得到的評分來調整訓練損失的權重,這不需要對目標模型進行額外的修改。他們從定義原始的下一個物品預測損失開始:

圖片

隨後,個性化資料集的訓練損失函式可以定義為:

圖片

實驗結論

主要實驗

研究團隊比較了每種目標模型與 “DR4SR” 和 “DR4SR+” 變體的效能,以驗證所提出框架的有效性。

圖片

圖4

從圖 4 展示的整體效能中,可以得出以下結論:

  • DR4SR 能夠重生成一個資訊豐富且具有普遍適用性的資料集
  • 不同的目標模型偏好不同的資料集
  • 去噪只是資料重生成問題的一個子集

相關文章