與1500多支國內外隊伍同臺競技,快手在NeurIPS 2024頂級大賽中上演雙殺

机器之心發表於2024-12-16

這幾天,學術圈的小夥伴肯定都很關注正在加拿大溫哥華舉辦的機器學習頂會——NeurIPS 2024。本屆會議於今日落下帷幕,共接收 15671 篇有效論文投稿,比去年增長了 27%,最終接收率為 25.8%。

本屆會議上同樣值得關注的,還有一項重要的賽事,它就是「NeurIPS 2024 Auto-Bidding in Large-Scale Auctions」(大規模拍賣中的自動出價),旨在探索當前火熱的強化學習、生成模型、Agent 等前沿 AI 技術在廣告投放以及決策智慧場景的應用。

該賽事不僅是業內首次廣告出價比賽,也是 NeurIPS 2024 唯一的搜廣推比賽,可以說規格和含金量都很高,也因此收穫了超高的熱度,吸引超過 1500 支隊伍參賽,其中不乏國內外知名高校和公司、專業研究機構以及決策智慧領域知名團隊的身影。

圖片 賽事主頁:https://tianchi.aliyun.com/specials/promotion/neurips2024_alimama#/

簡單來說,在比賽中,參賽者扮演自動出價 Agent(即廣告主),在大規模拍賣環境下與其他 47 個競爭對手對抗,作出有效的出價決策,並在滿足投放需求的情況下幫助廣告主最大化投放效果。

圖片

從①到⑤為典型廣告平臺的自動出價全流程。

此次比賽分為了兩個賽道,分別是通用賽道 AIGB(AI-Generated Bidding)賽道。兩個賽道側重點各有不同,對參賽隊伍提出了不同的技術要求,其中:

  • 通用賽道關注不確定環境中的自動出價,需要解決資料稀疏性、轉化方差、多坑等不確定問題;

  • AIGB 賽道使用生成模型來學習自動出價 Agent,需要採用生成模型來端到端輸出決策。

算起來,自今年 6 月底註冊階段開始,經過了近半年的激烈角逐,比賽終於決出了勝負!

快手商業化演算法團隊(簡稱快手團隊)從千餘支隊伍中脫穎而出,包攬了兩個賽道的第一名,成為本次賽事最大贏家。

圖片
奪冠方案

自動出價服務是國內外各廣告平臺的基礎組成模組,有眾多的業界實踐和研究工作。

此次比賽任務基於一個簡化版本的 Target CPA,並將 CPA 定義為平均轉化成本。參賽者需要設計和實現一個自動出價 Agent。給定廣告主 j 的預算 B 和目標 CPA C,該自動出價 Agent 在一個廣告投放週期內對 N 個展現機會進行競價,目標是在保證最終實現的 CPA 不大於 C 的前提下,最大化總轉化量。

具體來說,所有展現機會按順序到達,出價 Agent 依次對每個機會進行競價。對於每個機會 i:

出價:自動出價 Agent 出價圖片,同時其他競爭廣告主利用他們的單獨的出價 Agent 出價圖片,來競爭 3 個廣告坑位。其中,出價會依賴轉化機率值,圖片定義為廣告主 j 的廣告曝光給使用者時的轉化動作機率,圖片定位為預估的標準差。

拍賣:廣告平臺執行 GSP(Generalized Second Price)拍賣機制,按照出價從高到低依次分配 3 個到坑位上,獲勝者按照下一位出價進行扣費。拍賣結果會返回給出價 Agent,其中圖片表示是否獲勝,圖片表示贏得的廣告坑位,圖片表示需要支付的費用。圖片不僅取決於圖片還取決於圖片

展現:廣告坑位圖片是否曝光給使用者由隨機變數圖片決定,其中圖片是廣告坑位圖片的曝光機率。實際是否發生轉化也是一個隨機變數,定義為圖片,其中圖片圖片為預估標準差。如果廣告坑位未曝光,廣告主無需支付費用,轉化也不會發生。因此,這個任務可以形式化如下:
圖片
最終實現的 CPA 定義為:
圖片
自動出價 Agent 的目標是在滿足廣告主設定的 CPA 約束情況下最大化轉化量。具體的評估指標定義如下:
圖片
其中,圖片對應最佳化目標最大化轉化圖片,在超成本即實際 CPA > C 時,P (CPA; C) < 1,會對轉化進行降權。

總體來說,這項比賽不僅可以促進決策技術的突破,而且還將給行業應用場景帶來啟發。我們來看下快手是如何在通用和 AIGB 兩個賽道拔得頭籌的。

通用賽道

現實世界中,複雜的廣告拍賣環境往往會帶來額外的挑戰,特別是不確定性。因此,通用賽道要求參賽者在大規模拍賣中做出有效競價決策,需要有效感知競爭對手策略的變化。參賽者必須考慮客戶到達的隨機性、轉化預測的方差、資料稀疏性和其他因素。

這就需要在離線規劃最優解的基礎上,自適應線上競價過程,以獲得更優出價序列。快手團隊創新地提出了一種基於強化學習的線上探索技術方案,巧妙地解決了該問題。

首先,考慮多坑特點,快手團隊基於競勝率以及多坑的曝光率將問題建模成約束最佳化問題,並基於該問題的對偶問題求解出離線最優出價係數,得到最優出價形式。

然後,快手團隊建模出價係數和未來預期消耗以及預期轉化的關係,並且為了解決不確定性問題,在建模時綜合考慮了稠密的先驗轉化以及稀疏的後驗轉化。

最後,為了適應線上環境的不確定性,快手團隊提出基於強化學習的線上搜尋方案:首先搭建一個競價模擬器環境,能夠學習不同出價對應的序列長期價值;然後基於離線最優出價係數劃定一個區間進行取樣,最後挑選出價值最優的動作(action)作為最終的出價係數。
圖片 結合最最佳化理論和強化學習線上搜尋。

AIGB 賽道

相比於通用賽道,AIGB 賽道面向一種全新的迭代正規化。由於生成模型,包括擴散模型(Diffusion Model)、決策 Transformer(Decision Transformer)、大型語言模型(LLM),在語言、視覺等領域體現出算力和資料的 scaling law,並且在決策任務中表現出了巨大的潛力,因此 AIGB 賽道要求採用生成模型,將自動出價建模為生成式序列決策問題,探索生成模型用於出價問題的機會。

在 AIGB 賽道,一個首先要解決的問題是選擇模型架構。序列決策領域有擴散模型和決策 Transformer 兩大類。參賽者面臨在競爭性遊戲中做出長期戰略決策的關鍵挑戰,眾多競爭對手的策略會快速發生變化,以 DiffBid 為代表的擴散模型方案存在兩個不足:
  1. 最佳化目標對齊能力弱:一次性生成一條序列,序列之間約束較弱,甚至學不出剩餘預算單調遞減這一性質;

  2. 訓練效率低:是兩階段正規化,首先預測狀態序列 {s_{t+1},s_{t+2},...,s_{T}},然後根據 {s_t,s_{t+1}} 預測最終出價,訓練較為複雜。

而決策 Transformer 建模長期價值 return to go(RTG),直接預測出價,相比於 DiffBid 具有和目標對齊能力更強、訓練更簡單的優勢。

然而,快手團隊發現:決策 Transformer 模型的學習機制是模仿學習,難以學習到超出資料集的出價策略。因此,他們考慮在策略學習時探索更優的出價係數,增強模型學習,但簡單的探索很容易導致離線強化學習的分佈外(Out Of Distribution,OOD)問題。

為了解決這個問題,快手團隊從決策 Transformer 的本質出發,即決策 Transformer 根據 RTG 生成對應的出價係數,下一時刻的高 RTG 出價係數(長期價值)需要有更大的生成機率。

有了這個關鍵認知,快手團隊提出一種 RTG 引導的出價係數探索方案——Decision Transformer with RTG-driven Explorations,保證探索性的同時兼顧安全性,從而增強模型學習。
圖片 Decision Transformer with RTG-driven Explorations

簡單來說,Decision Transformer with RTG-driven Explorations 方案主要包括如下步驟:
  1. 首先訓練模型預估下一時刻的 RTG,具備評估探索的出價係數好壞的能力。

  2. 每個 timestep 額外預測一個基於原始出價係數圖片探索新的出價係數圖片,鼓勵模型探索下一時刻 RTG 更高的出價係數。

  3. 模型朝著原始出價係數和探索到的出價係數中更優的出價係數更新,避免 OOD 問題。

廣告收入提升 5%+
基於 RL 的自動出價在業務側開始發力

說起來,廣告投放的目的其實很簡單,以企業或商家為主的廣告主選擇合適的廣告平臺,將廣告傳遞給受眾(即消費者)。但實現起來需要考慮的因素就多了,比如針對同一廣告位展開競爭出價、投放預算與實際投放成本、投放收益等。這就要求廣告主進行全方位權衡,其中動態調整出價是控制廣告成本和提升廣告收入的關鍵一環。

而作為廣告投放平臺,快手也在廣告推薦、預算分配策略、效果預估以及尤為重要的自動出價調整等層面進行演算法上的最佳化升級,更好地服務於客戶的同時增加自身廣告收入。

從縱向來看,快手的出價演算法經歷了從 PID、MPC 到強化學習(RL)的「三代」演化路徑,技術上的持續迭代更新帶來了廣告投放效果的節節提升。

第一代出價演算法 PID(被動反饋式控制)包含了三個關鍵的控制引數:比例(Proportional)、積分(Integral)和微分(Derivative)。該演算法可以透過動態調整出價來很好地將廣告平均成交價穩定在目標成交價,但不足的點在於對未來消耗和預期消耗沒有預估和規劃。

第二代出價演算法 MPC,它的全稱為 Model Predictive Control,引入了對未來的預測,在對出價與未來消耗、成本的關係進行建模的基礎上可以做出更精準的出價規劃。不過,該演算法建模能力較弱,也無法做出多步長期決策。

到了強化學習階段,包括出價、成本、使用者行為在內各個變數的建模能力大大加強,並對序列整體長期價值進行最佳化。透過不斷與環境互動,強化學習演算法可以根據實時市場環境變化調整出價,並能夠預估長期廣告效果以做出更精確的出價決策。相較於 PID、MPC,強化學習演算法在動態決策、處理複雜環境與競爭行為、多目標最佳化、應對不確定性與資料稀缺、長期收益最佳化等多個方面都佔優。

此外,面對 OOD 問題,快手在演算法選型上採用了離線強化學習演算法,緩解了訓練資料集不足帶來的問題,可以更穩健地進行決策,降低策略失效的風險;快手又搭建離線模擬環境,最佳化出價策略並驗證效果,確保線上策略的安全性、有效性和穩健性,降低高風險決策可能造成的損失。

目前,基於強化學習的自動出價模型已經在快手廣告系統全量推全,在成本達標不降約束下取得了 5% 以上的廣告收入提升。消融實驗也證明了:收益來自於模型泛化以及強化學習最大化序列價值建模。

透過此次大賽,快手看到生成模型(如 Decision Transformer)在廣告出價場景中的應用潛力。雖然相較於強化學習在最大化序列整體價值方面存在短板,但對序列資料的擬合能力更強,因此二者的有效結合可能是下一代更強出價模型的演化方向。同時,快手也暢想借鑑 o1 思想,透過 Monte-Carlo Tree Search(MCTS)技術搜尋不同出價序列,挑選出最優路徑,在多輪決策和推理過程中最佳化出價策略。

奪冠背後
是 AI 技術的厚積薄發

此次 NeurIPS 2024 大賽,真正詮釋了快手商業化演算法團隊的 AI 技術積累以及在實際業務中經受考驗的信心。

從確定參賽、前期準備, 到練習輪(Practice Round)、再到正式比賽(Official Round),參賽成員在幾個月的時間裡,攻克了不少的難關,這才有了最終的雙賽道奪冠。

參賽成員來自清華大學、香港中文大學、香港城市大學、南洋理工大學等國內外名校。在談到此次最大的收穫時,他們表示對幾類出價演算法(包括最最佳化理論、強化學習和生成模型)的優劣有了定性和定量的分析,並對未來出價技術的演進做出清晰的判斷。而且,此次比賽提出的創新點在快手的廣告業務中也得到了初步驗證。

據瞭解,作為快手核心演算法部門,商業化演算法團隊負責快手國內及海外多場景的變現演算法研發,著力構建領先的廣告變現演算法,透過演算法驅動商業營銷增長,最佳化使用者和客戶體驗。團隊依託快手實際業務問題,產出頂會論文覆蓋 KDD、ICLR、NeurIPS、CVPR 等多個領域的國際會議,還先後斬獲 CIKM Best Paper、SIGIR Best Paper 提名獎、錢偉長中文資訊處理科學技術獎一等獎。在 AI 技術層面的硬實力,是他們此次奪冠的最大底氣。

作為一家以人工智慧為核心驅動和技術依託的科技公司,快手已經看到了以技術為引擎、輔以演算法在推動業績增長方面的巨大價值。

未來,快手將繼續探索強化學習、生成模型等 AI 技術在廣告出價以及更廣泛業務場景的落地。屆時又會帶來哪些驚喜,我們拭目以待。

相關文章