驗證集評估可能是錯的,阿里、南大最新論文或推翻以往電商排序演算法

機器之心發表於2020-04-03
「這意味著,這一方向的研究可能已經被驗證集評估帶歪了。」針對這一問題,他們提出了一種新的評估器-生成器方法,可顯著提升商品排序的有效性。

驗證集評估可能是錯的,阿里、南大最新論文或推翻以往電商排序演算法


論文連結:https://arxiv.org/pdf/2003.11941.pdf

學習排名(LTR/Learning-to-rank)是網路搜尋引擎和推薦系統的核心問題,直接關乎這些業務的利潤。之前的很多 LTR 方法都假設一項商品(或文件)存在固有的查詢相關性,這些方法希望能基於有標註的資料集準確習得這種相關性。這些標籤通常是通過消費者隱性反饋所收集的,可在許多方法中被用作訓練模型的基本真值(ground-truth)。在上述設定中,關注基於資料的排名指標是合理的,比如被廣泛採用的曲線下面積(AUC)和歸一化折損累積收益(NDCG)。這會得到與標註資料緊密匹配的 LTR 模型,然後這些模型會被用於尋找最相關的商品。

但是,在電子商務場景中,一款商品的轉化率並不僅依賴於商品本身。舉個例子,如果一款商品周圍都是相似但更貴的商品,那麼消費者購買它的可能性就會升高,這被稱為「誘餌效應(decoy effect)」。圖 1 展示了一個商品周圍競品可能改變消費者行為的示意案例。如果統計一項商品周圍可能存在的競爭環境情況,那麼,因為與所有商品組合相關的競爭環境資訊可達數十億,則得到的資料規模將非常龐大。

為了攻克組合空間巨大這一難題,Zhuang et al., 2018 提出了不同於經典 LTR 方法的重排名(re-ranking)策略。這種學習過程首先是尋找與查詢相關的一個小型的候選商品集合,然後在重排名階段決定候選商品的順序。這種重排名策略可以極大地減小組合空間,因此可以對候選項有全面的理解,以便找到適當的順序。Ai et al., 2019 提出的逐分組評分函式(GSF)框架也關注的是商品之間的影響力,其與重排名方法採用了同樣的設定。

驗證集評估可能是錯的,阿里、南大最新論文或推翻以往電商排序演算法

圖 1:誘餌效應的一個示例。左圖:三款銷量最好的商品排成一條線,它們的轉化率大致均等。右圖:兩款銷量最好的商品加一款誘餌商品,第一款商品會獲得更高的轉化率。經典 LTR 可能會像左圖那樣組織順序,因為它們的歷史表現很優良。但是它沒有能力找到右圖那樣的創造性排序——這可能實現更好的業績。

即使重排名策略已經減少了候選項的數量,使得在組合空間中進行搜尋變得可以實現,但是為了找到最佳排序,我們仍然需要一個準確的評估器來為各個商品列表打分。但是,通常的情況是已有列表的很多排序方式其實並未在已收集的資料中出現過。考慮到這些問題,阿里巴巴和南京大學的研究者發現:之前採用基於資料的指標的監督學習方法有兩個重大侷限。第一,基於資料的指標往往與線上表現不一致,因此可能誤導學習過程。第二,監督學習正規化難以探索組合空間,因此難以直接優化轉化率(CR)和毛銷售量(GMV)等最終的效能指標。因此,有必要建立一種超出資料集範圍的評估方法以及一種超出監督學習正規化的探索方法。

本論文為電子商務的逐分組 LTR 提出了一種評估器-生成器框架 EG-Rerank。EG-Rerank 可使用商品及其上下文資訊來預測已排序商品列表的購買概率。此外,研究者還引入了一個判別器並將其用作自信評分函式(self-confidence scoring function)。這個判別器可通過對抗訓練方法來學習,可給出評估器為一個商品列表給出的分數的置信度。研究者使用這一判別器來引導生成器從判別器的視角在置信空間中輸出順序。然後,EG-Rerank 通過一種強化學習方法來訓練 LTR 模型,其可在評估器的引導下探索商品的順序。本文的主要貢獻包括: 

研究者在世界上最大的國際零售平臺 AliExpress Search 上進行了實驗,結果表明某些常用的基於資料的指標可能與網上的實際表現不一致,因此確認基於資料的指標可能會誤導 LTR 模型的學習過程。

研究表明所學習到的評估器可能是一種非常穩健的目標,可以替代基於資料的指標。

研究者展示了評估器-生成器框架的 EG-Rerank 和 EG-Rerank+ 方法。研究表明,在線上 A/B 測試中,相比於經過微調的產業級再排名逐對評分模型,EG-Rerank+ 可將轉化率穩定地提升 2%——對於成熟的大型平臺而言,這是非常重大的提升。

方法

新提出的用於逐分組 LTR 的評估器-生成器框架包括一個生成器、一個評估器和一個判別器,如下圖所示。

驗證集評估可能是錯的,阿里、南大最新論文或推翻以往電商排序演算法

圖 2:EG-Rerank 框架。首先訓練評估器並將其固定下來,然後通過 PPO 訓練生成器,其獎勵由評估器提供。對於 EG-Rerank+,生成器和判別器是同時訓練的。

在這一框架中,使用強化學習根據評估器的反饋來優化生成器是很自然的思路。

評估器

評估器的結構見圖 2,其輸入包括一個商品列表的特徵及其場景特徵。場景特徵獨立於商品,但能提供豐富的資訊,比如日期、語言和使用者的公開檔案。
 
為了兼顧購買樣本的稀疏性,評估器還用點選資料標籤進行了聯合訓練。這可幫助模型學習點選預測任務和購買預測任務中的常識知識。
 
生成器
 
在該框架中,生成器的結構類似於指標網路(pointer network),但為了更快速地線上預測,該網路進行過簡化。
 
編碼器:生成器的編碼器的輸入分為兩部分。第一部分是表徵列表的當前狀態,其處理過程類似於評估器中的方法。第二部分是提取動作的特徵。編碼器的輸出包含 N 個向量,其中包含候選商品的特徵和當前的隱藏狀態。
 
解碼器:解碼器的輸入是 N 個動作對和隱藏狀態,輸出則可通過簡單的 masking 進行取樣得到。

EG-Rerank
 
研究者優化生成器的方法是 PPO 演算法,這是根據評估器在生成器輸出上的反饋來實現的。但是,標準的 PPO 演算法無法在阿里巴巴的離線資料中訓練得到穩定的 critic 網路。在實驗中,critic 網路總是輸出隨機值,無法根據編碼器產生的狀態而為訓練提供太多幫助。因此,研究者並未訓練 critic 網路,而是取樣了一些軌跡,然後估計狀態的值。
 
如果評估器訓練優良,那麼這樣的框架理應能夠順利工作。但是,由於評估器試圖僅靠巨大的商品組合空間中一小部分範圍來建模消費者的行為,所以就出現了一個很明顯的缺點。圖 3 在模擬環境中展示了這種現象。

驗證集評估可能是錯的,阿里、南大最新論文或推翻以往電商排序演算法

圖 3:在僅有 30 款商品的模擬環境中測試集(左)與全樣本空間(右)的預測偏差。訓練集和測試集由一個訓練後的模型錄入,它們與選擇偏差的分佈一樣。可以看到,即使樣本數量如此之少,在全樣本空間中評估器分數與環境之間的差距也明顯更加顯著。
 
EG-Rerank+
 
針對這一問題,這篇論文提出的解決方案是引入一個序列判別器,加入這個判別器後的框架記為 EG-Rerank+。
 
這樣的修改會導致生成器輸出判別器無法輕易區分來源的順序。因此,評估器的反饋將變得更有信心。圖 4 展示了所記錄的資料中列表、EG-Rerank 和 EG-Rerank+ 的輸出的分佈。
 
該資料包含幾千個原始查詢為「手機螢幕保護膜」的真實列表。很明顯,EG-Rerank+ 的輸出比 EG-Rerank 更接近記錄中的列表。

驗證集評估可能是錯的,阿里、南大最新論文或推翻以往電商排序演算法

圖 4:真實資料中的列表分佈。為了減少線上環境中的噪聲以及更好的演示,研究者移除了離各組質心最遠的 20% 的記錄。

實驗
 
下表展示了各種方法在模擬環境中的表現:

驗證集評估可能是錯的,阿里、南大最新論文或推翻以往電商排序演算法

表 3:在基於規則的模擬環境中的模型表現。評估器根據原始順序為商品打分,這樣我們便可以在生成任務中排除它。EG-Rerank 和 EG-Rerank+ 並沒有為列表打分的函式。各分組的最佳用下劃線標出,粗體則表示全域性最佳。
 
研究者還在 AliExpress Search 上進行了少量線上 A/B 測試,其中每個模型都可提供隨機部分的搜尋查詢。模型可以獲取過去兩週的資料,展示的列表有數十億個,購買記錄有數百萬個。購買轉化率是線上效能的主要指標。線上環境的變化速度非常快,每天的差距可能都各不相同。所有的 A/B 測試都持續進行了一週時間,然後方差是可接受的,可以清楚地確定更好的方法。
 
在長期測試中,事實證明,經過微調的 RankNet* 離線表現最好且線上表現也很出色。RankNet* 與該系統能很好地合作,並且可以近乎實時地更新自己,其中 EG-Rerank(EG-Rerank+)每天都進行增量訓練。得益於判別器策略,EG-Rerank+ 的平均離線 Group AUC(約 0.63)比 EG-Rerank(約 0.51)高。表 4 給出了線上指標的結果。

驗證集評估可能是錯的,阿里、南大最新論文或推翻以往電商排序演算法

表 4:線上效能。在 CR gap 列,第一行因為是基準,所以差距始終為 0。

相關文章