這幾天,學術圈的小夥伴肯定都很關注正在加拿大溫哥華舉辦的機器學習頂會——NeurIPS 2024。本屆會議於今日落下帷幕,共接收 15671 篇有效論文投稿,比去年增長了 27%,最終接收率為 25.8%。
本屆會議上同樣值得關注的,還有一項重要的賽事,它就是「NeurIPS 2024 Auto-Bidding in Large-Scale Auctions」(大規模拍賣中的自動出價),旨在探索當前火熱的強化學習、生成模型、Agent 等前沿 AI 技術在廣告投放以及決策智慧場景的應用。
該賽事不僅是業內首次廣告出價比賽,也是 NeurIPS 2024 唯一的搜廣推比賽,可以說規格和含金量都很高,也因此收穫了超高的熱度,吸引超過 1500 支隊伍參賽,其中不乏國內外知名高校和公司、專業研究機構以及決策智慧領域知名團隊的身影。
賽事主頁:https://tianchi.aliyun.com/specials/promotion/neurips2024_alimama#/
簡單來說,在比賽中,參賽者扮演自動出價 Agent(即廣告主),在大規模拍賣環境下與其他 47 個競爭對手對抗,作出有效的出價決策,並在滿足投放需求的情況下幫助廣告主最大化投放效果。
從①到⑤為典型廣告平臺的自動出價全流程。
此次比賽分為了兩個賽道,分別是通用賽道和 AIGB(AI-Generated Bidding)賽道。兩個賽道側重點各有不同,對參賽隊伍提出了不同的技術要求,其中:
通用賽道關注不確定環境中的自動出價,需要解決資料稀疏性、轉化方差、多坑等不確定問題;
AIGB 賽道使用生成模型來學習自動出價 Agent,需要採用生成模型來端到端輸出決策。
算起來,自今年 6 月底註冊階段開始,經過了近半年的激烈角逐,比賽終於決出了勝負!
快手商業化演算法團隊(簡稱快手團隊)從千餘支隊伍中脫穎而出,包攬了兩個賽道的第一名,成為本次賽事最大贏家。
最佳化目標對齊能力弱:一次性生成一條序列,序列之間約束較弱,甚至學不出剩餘預算單調遞減這一性質;
訓練效率低:是兩階段正規化,首先預測狀態序列 {s_{t+1},s_{t+2},...,s_{T}},然後根據 {s_t,s_{t+1}} 預測最終出價,訓練較為複雜。
首先訓練模型預估下一時刻的 RTG,具備評估探索的出價係數好壞的能力。
每個 timestep 額外預測一個基於原始出價係數探索新的出價係數,鼓勵模型探索下一時刻 RTG 更高的出價係數。
模型朝著原始出價係數和探索到的出價係數中更優的出價係數更新,避免 OOD 問題。