阿里媽媽首提AIGB並實現大規模商業化落地,將在NeurIPS 2024正式開源Benchmark
机器之心發表於2024-12-04
2023 年,阿里媽媽首次提出了 AIGB(AI-Generated Bidding)Bidding 模型訓練新正規化(參閱:阿里媽媽生成式出價模型(AIGB)詳解)。AIGB 是一種全新的迭代正規化,把自動出價問題建模為生成式序列決策問題,這是生成式 AI 在該領域的首次應用。經過一年的探索和研發,我們在阿里媽媽廣告平臺成功部署 AIGB 並取得顯著效果,我們還把過程中的發現和經驗總結成論文發表在 KDD 2024,詳細分享了這一全新的迭代正規化。
為了激發該領域進一步的技術創新,我們今年發起了大規模拍賣中的自動出價比賽,並特別設定了 AIGB 賽道,這一理念得到了 NeurIPS 的認同,阿里媽媽成為國內工業界今年唯一一家獲得 NeurIPS 比賽主辦權的組織。同時,我們也將在 NeurIPS 2024 上正式開源 AIGB 的 Benchmark:業界首個標準化的大規模模擬競價系統和大規模博弈資料集。
- 論文名稱:AIGB: Generative Auto-bidding via Diffusion Modeling
- 論文作者:Jiayan Guo, Yusen Huo, Zhilin Zhang, Tianyu Wang, Chuan Yu, Jian Xu, Yan Zhang, Bo Zheng
- 論文連結:https://arxiv.org/abs/2405.16141
廣告業務是網際網路公司營收的一項重要來源。僅在 2023 年,線上廣告市場的規模就達到了 6268 億美元。線上廣告往往是透過流量拍賣的方式進行廣告投放。廣告主需要設定合理的出價從而競得流量。近年來,自動出價(Auto-Bidding)技術已成為推動廣告市場持續增長的關鍵因素。相比於傳統的手動出價,自動出價充分考慮了線上流量分佈、競價環境、預算以及各種限制因素,在為廣告主帶來了更多價值的同時,促進了平臺業務的增長。一種典型的自動出價目標是在給定預算及其他約束的條件下最大化廣告主的流量價值。典型的自動出價任務包括給定預算下的最大化拿量任務 Max-Return,以及給定預算和 ROI 約束的最大化拿量任務 Target Roas 等。在實踐中,自動出價的最佳化問題一般會被看作一個序列決策問題,出價模型在整個投放週期(通常為 1 天)內隨著流量和競價情況的變化動態調整出價引數從而最佳化整體效果。模型需要具備一定的全域性視角,進行整體規劃和決策。對於序列決策問題,一種被業界廣泛採用的解決方案是強化學習(RL)。RL 方法可以透過不斷和環境互動尋優,從而不斷提升策略效果。RL 也是目前一種主流的 Bidding 解決方法。但是這種方法由於存在一定的內生性缺陷(價值函式預估和自舉法導致的訓練不穩定),不擅長處理 Bidding 面臨的長序列決策問題,容易出現訓練效果差的問題。因此,我們期待透過演算法正規化的升級來提升 Biding 模型的線上效果。生成式模型近年來得到了迅速的發展,在影像生成、文字生成、計算機視覺等領域取得了重大突破。目前最新的生成式模型在分佈擬合以及相關性關聯等方面顯著地優於淺層神經網路。工業界 Bidding 策略最佳化的核心是基於歷史的 Bidding 資料,透過模型挖掘策略與效果之間的相關性從對策略進行最佳化,是生成式模型落地的一個較為理想環境。基於這一洞察,我們提出了 AIGB(AI-Generated Bidding)解決方案。AIGB 是一種基於生成式模型(Transformer、Diffusion Model 等)的出價問題解決方案框架。與以往解決序列決策問題的 RL 思路不同,AIGB 將 Auto-Bidding 視為一個策略生成問題,透過生成模型強大的特徵關聯以及分佈擬合能力,直接捕捉歷史 Bidding 資料集中最佳化目標和出價策略之間的相關性從而最佳化策略。相比於 RL 方法,這種新的建模正規化避免了價值函式預估和自舉法所所造成的誤差,尤其擅長處理 Bidding 所面對的長序列稀疏回報的問題。圖 1:圖左歷史投放軌跡中,顏色深淺代表計劃 return 的不同。右圖為 AIGB 模型根據不同需求生成的新策略。整個模型看作一個分佈處理 pipeline,輸入歷史非最優但存在有效資訊的廣告投放軌跡,輸出符合最佳化目標的新策略。圖 1 直觀地展示了生成式出價(AIGB)模型的流程。我們將出價、最佳化目標和約束等具備相關性的指標視為一個有一定規律的資料分佈。在訓練階段,我們可以利用生成模型對這一資料分佈進行資料探勘尋優,這使得模型能夠自動學習出價策略、狀態間轉移機率、最佳化目標和約束項之間的相關性。線上上推斷階段,生成式模型可以基於約束和最佳化目標,以符合分佈規律的方式輸出出價策略。理論上,AIGB 正規化可以相容多種生成模型。目前常用的生成式模型包括 Transformer、Diffusion Model 等。但不同的模型側重點不同,例如,Transformer 模型主要基於自注意力機制,能夠對樣本中跨時序和分層資訊進行提取和關聯,擅長進行自迴歸處理。而 Diffusion Model 則緩慢地將隨機噪聲新增到資料中,然後學習逆向擴散過程以從噪聲中構造所需的資料樣本。加噪和去噪的過程可以類比為是把特徵用馬賽克遮住然後再還原的過程。相比之下,可以從細節到整體捕捉多個層次的相關性,從而提取出更多的有效資訊,更擅長進行分佈建模。因此,基於不同的生成模型特點,可以構建出不同的建模方案。DiffBid:基於擴散模型(Diffusion Model)的 AIGB在 AIGB 框架下,我們引入了基於擴散模型方案 DiffBid。DiffBid 由規劃模組和控制模組組成。對於規劃模組,我們首先將一個完整投放週期內廣告主剩餘預算、消耗速率、ROI、流量價值等出價相關狀態資訊隨著時間不斷變化的過程看作一條 Bidding 軌跡,然後利用擴散模型對歷史資料集中的海量 Bidding 軌跡序列進行建模(圖 2),以最大似然估計的方式擬合軌跡資料中的分佈特徵。因此,DiffBid 可以基於給定目標規劃出對應的出價軌跡。在此基礎上,DiffBid 會再利用一個逆動力學控制模型根據環境的變化儘可能逼近規劃軌跡。圖 2:左為正向過程,右為反向過程。DiffBid 正向與反向過程示例,對於一條由剩餘預算序列軌跡,正向過程不斷加入噪聲,破壞其有效資訊,然後反向過程生成新的軌跡,最大限度將這部分丟失的資訊還原。在近一年多的實踐中,我們透過多輪線上實驗,反覆驗證了 DiffBid 的效果。截止目前,DiffBid 已經多個場景的實驗中相比於傳統的 RL 方法產生了顯著的正向效果。其中在某場景 Max-Return 任務中,產生了 GMV+3.6% 的結果。在 Target Roas 任務中,在保證整體 ROI 滿足要求的情況下取得了 GMV+5.0% 的結果。特別在 Target Roas 中,由於 ROI 反饋稀疏且滯後,RL 方法訓練難度較大,而 DiffBid 受影響較小。因此,DiffBid 既為廣告主帶來更多收益,又很好保障了廣告主的 ROI。與此同時,我們透過進一步分析,發現 DiffBid 模型在提效的同時,還能夠對實際投放軌跡產生一定的平滑性最佳化(圖 3),在 DiffBid 策略生效後,投放軌跡的異常狀態顯著減少,振盪性顯著降低,與此同時減少過快消耗的現象。廣告主的投放體驗也因此得到改善。圖 3:真實線上剩餘預算散點圖。橫軸為剩餘時間,縱軸為剩餘預算。越分散代表消耗越振盪,投放平滑性越差。此外在圖 a 中,存在大量提前消耗完畢的投放軌跡。這部分軌跡可能會由於錯過一部分晚上的高價效比流量導致效果下跌。而 DiffBid 可以明顯減少這種問題除了實際線上效果的優勢外,相比於其他方法,DiffBid 還具有其他兩方面的優勢。首先,相比於透過端到端方法直接輸出 Bidding 資訊,DiffBid 生成的軌跡資訊具有更好的可解釋性(圖 4)。有助於我們對模型效果進行更好的評估,從而助力最佳化工作。例如,我們觀察模型規劃出的軌跡和實際線上的軌跡,如果出現規劃出的最終剩餘預算不為 0 的情況說明模型並未能有效利用所有預算。如果規劃軌跡與實際軌跡差距較大,則說明逆動力學控制模型自適應能力較差。在定位問題之後,可以較為方便地進行針對性最佳化。其次,DiffBid 對多目標的相容能力更強,與此同時支援在訓練完成後對目標進行調整從而最佳化規劃軌跡。基於這一特點,我們可以更為方便地加入一些將業務邏輯指標作為最佳化目標,與 Bidding 模型更好地結合起來。例如,在 Max-Return 任務最佳化的過程中,可以將預算使用率合併進入目標中,同時保證 GMV 和預算使用率得到最佳化。圖 4:橫座標軸表示時間,縱座標表示剩餘預算和但時間步消耗。灰色曲線 / 柱子為最優軌跡剩餘預算曲線 / 消耗。紅色表示不同最佳化目標所對應的規劃軌跡曲線。可以看出,隨著目標 Return 變大,模型規劃會逐步逼近最優軌跡。證明模型學到了合理的業務邏輯和最佳化措施目前 DiffBid 在阿里媽媽廣告場景中大規模商業化落地,助力雙十一,為廣告主賦能。此外,基於擴散模型的特點,DiffBid 下可延展性和多目標能力會顯著強於傳統模型,這種特點將會為未來的 Bidding 最佳化和產品建設帶來幫助。除了已經展現出來的諸多優勢之外,AIGB 框架的開放性也能夠相容諸多不同的方案設計。在阿里媽媽剛剛舉辦的 NeurIPS 2024:大規模拍賣中的自動出價比賽中,選手們基於不同的基礎生成模型,提出了一批不同於 DiffBid 的 AIGB 解決方案,迸發出諸多亮點。其中有的選手充分利用了 Transformer 的優勢,透過自迴歸的方式預測給定最佳化目標的出價資訊。有的選手提出 Transformer 全域性規劃模型與 bidding 小模型結合的出價方案。也有基於 Diffusion 模型直接進行出價的方案。這些方案均在不同程度上展示出了優勢,為未來 AIGB 的進一步迭代提供了啟發。但是,我們相信這僅僅是一個開始。未來隨著技術的進一步發展,更多的 AIGB 方案湧現出來,從而以完全不同的方式重構自動出價的技術體系。阿里媽媽沉澱了億級廣告投放軌跡資料,是業界為數不多具備超大規模決策類資料資源儲備的平臺。這些海量資料資源可以成為營銷決策大模型訓練的有力保證,從而推動 AIGB 技術的發展。邀請函 | NeurIPS 2024 Competition Workshop:Auto-Bidding in Large-Scale Auctions12 月 14 日,阿里媽媽將在 NeurIPS 2024 會議現場組 Workshop:大規模拍賣中的自動出價(Auto-Bidding in Large-Scale Auctions)。我們邀請了來自谷歌、亞馬遜、普渡大學和阿里媽媽的學界和工業界嘉賓,以及本屆賽事獲獎團隊代表,圍繞決策智慧領域的最前沿技術進行分享和交流。同時阿里媽媽也將正式開源世界首個標準化的大規模競價系統和大規模博弈資料集。期待與大家現場交流~