WWW 2022 | 基於均值的學習演算法在首價拍賣中的納什均衡收斂性

北京大学前沿计算研究中心發表於2022-07-18

論文連結:https://arxiv.org/abs/2110.03906

01 背   景

首價拍賣是線上廣告拍賣的一個趨勢,比如2019年穀歌在幾乎所有廣告平臺完成了從次價拍賣到首價拍賣的轉型。在首價拍賣中,出最高價的買家獲得商品並支付自己的報價,獲得的實際收益是自己對商品的估值減去其報價。據此,首價拍賣中的買家會策略性報價以獲取更大收益。

比如在一個有兩個買家一個商品的首價拍賣中,假設買家1對商品的估值為200元,而又同時知道買家2對商品的估值為100元,那麼買家1知道買家2不會報比100元更高的價格,他只需報價101元就能拿到商品同時獲得200-101=99元的效益,於是他不會誠實地報自己對商品的實際估值200元,而是會策略性報低價格。然而在實際的市場中,剛剛進入市場的買家往往並不瞭解其它買家對同一商品的估值,這時候他們會採用線上學習演算法來學習如何報價以獲取最大的效益。

那麼大家自然會問:當買家採取這些線上學習演算法在重複拍賣中自動報價時,買家的行為會怎樣動態變化?是否會收斂到一個好的均衡?我們的工作研究了一大類被稱為“基於均值的線上學習演算法(mean-based learning algorithm)”,並完整地刻畫了這類學習演算法在重複首價拍賣中的兩種納什均衡收斂性。

WWW 2022 | 基於均值的學習演算法在首價拍賣中的納什均衡收斂性

02 模   型

我們考慮一個重複首價拍賣的模型,一個賣家給固定的多個買家重複無窮多輪賣同一種商品。每個買家執行一個“基於均值的線上學習演算法”來學習報價策略。每一輪,每個買家的演算法給出其當輪的報價,根據首價拍賣結果,每個買家獲得當輪收益,演算法再根據當輪的拍賣資訊更新未來的報價策略。Braverman et al (2009) 提出的“基於均值的線上學習演算法”要求演算法在每一輪僅以低機率選取歷史平均收益低的報價。這類演算法包括很多無悔學習演算法(no-regret learning algorithm),例如 eps-greedy,MWU 和 Follow the Pertubed Leader。

我們假設每個買家對商品的估值是固定的,即不隨輪數變化。這意味著我們並不採取貝葉斯模型(每一輪每個買家對商品的估值從某一個固定分佈中取樣)。研究表明首價拍賣的貝葉斯納什均衡對於一般的非對稱分佈沒有顯示刻畫,也沒有已知的演算法能高效計算,更別談大家熟知的無悔演算法。而現實中,很多線上廣告拍賣場景,拍賣發生的頻率很高,即拍賣在相當短的一段時間內發生很多次。所以,買家對商品的估值可能在短時間內還沒有發生變化,買家行為就已經收斂到了均衡。事實上,我們將會看到,在這個假設下,買家的行為已經展現出了複雜的收斂性質。

03 結   果

我們聚焦於兩種納什均衡收斂的概念:一是“時間平均(time-average)”意義下收斂,指當輪數趨於無窮時,採取納什均衡策略的輪的頻率將趨向於1;二是“末輪策略(last-iterate)”意義下收斂,指當輪數趨於無窮時,買家混合策略組合趨向於納什均衡。

我們證明了在有至少兩個最高估值買家的情形下,任意“基於均值的學習演算法”將收斂到納什均衡。特別的,如果有至少三個最高估值買家,我們證明了買家行為在兩種意義下均收斂;如果僅有兩個最高估值買家,我們證明了買家行為在“時間平均”意義下收斂,而在“末輪策略”意義下不一定收斂,同時,我們的試驗顯示 eps-greedy 演算法可能收斂到此時的兩個納什均衡中的任意一個均衡。而如果僅有一個最高估值買家,我們構造了某個“基於均值的學習演算法”在兩個意義下均不收斂,同時,我們的實驗表明 eps-greedy 和 MWU 演算法均表現出不收斂的性質。

04 證明思路和技巧


我們證明的直覺來源於經濟學博弈論中的“逐步剔除被佔優策略(iterated elimination of dominated strategies)”的均衡解概念。事實上這個思路在 Hon-Snir et al (1998) 分析 fictitious play 在首價拍賣中收斂性的論文中已經用到。但該論文研究的 fictitious play 為確定性演算法,我們證明的難點正是在於處理“基於均值的學習演算法”中的很大一類隨機演算法,它們可能會以正的機率選取很差的被佔優的策略。我們採用並擴充了 Feng et al (2021) 研究次價拍賣中學習演算法收斂性工作所提出的“時間分割”技術(time-partitioning),來處理首價拍賣中學習演算法的隨機性難題。

05 總   結


我們完整刻畫了“基於均值的學習演算法”在重複首價拍賣中兩種納什均衡收斂性,如下圖所示。

參考文獻

[1] Feng, Z., Guruganesh, G., Liaw, C., Mehta, A., and Sethi, A. (2021). Convergence Analysis of No-Regret Bidding Algorithms in Repeated Auctions. In Proceedings of the Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21).

[2] Hon-Snir, S., Monderer, D., and Sela, A. (1998). A Learning Approach to Auctions. Journal of Economic Theory, 82(1):65–88.

[3] Braverman, M., Mao, J., Schneider, J., and Weinberg, M. (2018). Selling to a No-Regret Buyer. In Proceedings of the 19th ACM Conference on Economics and Computation (EC'18).

[4] Kolumbus, Y. and Nisan, N. (2021). Auctions between regret-minimizing agents. arXiv preprint arXiv:2110.11855.

圖文 | 胡欣妍

PKU daGAME Lab


相關文章