WWW 2022 | 基於均值的學習演算法在首價拍賣中的納什均衡收斂性

北京大学前沿计算研究中心發表於2022-07-18

原文網址 : http://www.jiqizhixin.com/articles/2022-01-26-1

論文連結：https://arxiv.org/abs/2110.03906

01 背景

首價拍賣是線上廣告拍賣的一個趨勢，比如2019年穀歌在幾乎所有廣告平臺完成了從次價拍賣到首價拍賣的轉型。在首價拍賣中，出最高價的買家獲得商品並支付自己的報價，獲得的實際收益是自己對商品的估值減去其報價。據此，首價拍賣中的買家會策略性報價以獲取更大收益。

比如在一個有兩個買家一個商品的首價拍賣中，假設買家1對商品的估值為200元，而又同時知道買家2對商品的估值為100元，那麼買家1知道買家2不會報比100元更高的價格，他只需報價101元就能拿到商品同時獲得200-101=99元的效益，於是他不會誠實地報自己對商品的實際估值200元，而是會策略性報低價格。然而在實際的市場中，剛剛進入市場的買家往往並不瞭解其它買家對同一商品的估值，這時候他們會採用線上學習演算法來學習如何報價以獲取最大的效益。

那麼大家自然會問：當買家採取這些線上學習演算法在重複拍賣中自動報價時，買家的行為會怎樣動態變化？是否會收斂到一個好的均衡？我們的工作研究了一大類被稱為“基於均值的線上學習演算法（mean-based learning algorithm）”，並完整地刻畫了這類學習演算法在重複首價拍賣中的兩種納什均衡收斂性。

02 模型

我們考慮一個重複首價拍賣的模型，一個賣家給固定的多個買家重複無窮多輪賣同一種商品。每個買家執行一個“基於均值的線上學習演算法”來學習報價策略。每一輪，每個買家的演算法給出其當輪的報價，根據首價拍賣結果，每個買家獲得當輪收益，演算法再根據當輪的拍賣資訊更新未來的報價策略。Braverman et al (2009) 提出的“基於均值的線上學習演算法”要求演算法在每一輪僅以低機率選取歷史平均收益低的報價。這類演算法包括很多無悔學習演算法（no-regret learning algorithm），例如 eps-greedy，MWU 和 Follow the Pertubed Leader。

我們假設每個買家對商品的估值是固定的，即不隨輪數變化。這意味著我們並不採取貝葉斯模型（每一輪每個買家對商品的估值從某一個固定分佈中取樣）。研究表明首價拍賣的貝葉斯納什均衡對於一般的非對稱分佈沒有顯示刻畫，也沒有已知的演算法能高效計算，更別談大家熟知的無悔演算法。而現實中，很多線上廣告拍賣場景，拍賣發生的頻率很高，即拍賣在相當短的一段時間內發生很多次。所以，買家對商品的估值可能在短時間內還沒有發生變化，買家行為就已經收斂到了均衡。事實上，我們將會看到，在這個假設下，買家的行為已經展現出了複雜的收斂性質。

03 結果

我們聚焦於兩種納什均衡收斂的概念：一是“時間平均（time-average）”意義下收斂，指當輪數趨於無窮時，採取納什均衡策略的輪的頻率將趨向於1；二是“末輪策略（last-iterate）”意義下收斂，指當輪數趨於無窮時，買家混合策略組合趨向於納什均衡。

我們證明了在有至少兩個最高估值買家的情形下，任意“基於均值的學習演算法”將收斂到納什均衡。特別的，如果有至少三個最高估值買家，我們證明了買家行為在兩種意義下均收斂；如果僅有兩個最高估值買家，我們證明了買家行為在“時間平均”意義下收斂，而在“末輪策略”意義下不一定收斂，同時，我們的試驗顯示 eps-greedy 演算法可能收斂到此時的兩個納什均衡中的任意一個均衡。而如果僅有一個最高估值買家，我們構造了某個“基於均值的學習演算法”在兩個意義下均不收斂，同時，我們的實驗表明 eps-greedy 和 MWU 演算法均表現出不收斂的性質。

04 證明思路和技巧

我們證明的直覺來源於經濟學博弈論中的“逐步剔除被佔優策略（iterated elimination of dominated strategies）”的均衡解概念。事實上這個思路在 Hon-Snir et al (1998) 分析 fictitious play 在首價拍賣中收斂性的論文中已經用到。但該論文研究的 fictitious play 為確定性演算法，我們證明的難點正是在於處理“基於均值的學習演算法”中的很大一類隨機演算法，它們可能會以正的機率選取很差的被佔優的策略。我們採用並擴充了 Feng et al (2021) 研究次價拍賣中學習演算法收斂性工作所提出的“時間分割”技術（time-partitioning），來處理首價拍賣中學習演算法的隨機性難題。

05 總結

我們完整刻畫了“基於均值的學習演算法”在重複首價拍賣中兩種納什均衡收斂性，如下圖所示。

參考文獻

[1] Feng, Z., Guruganesh, G., Liaw, C., Mehta, A., and Sethi, A. (2021). Convergence Analysis of No-Regret Bidding Algorithms in Repeated Auctions. In Proceedings of the Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI-21).

[2] Hon-Snir, S., Monderer, D., and Sela, A. (1998). A Learning Approach to Auctions. Journal of Economic Theory, 82(1):65–88.

[3] Braverman, M., Mao, J., Schneider, J., and Weinberg, M. (2018). Selling to a No-Regret Buyer. In Proceedings of the 19th ACM Conference on Economics and Computation (EC'18).

[4] Kolumbus, Y. and Nisan, N. (2021). Auctions between regret-minimizing agents. arXiv preprint arXiv:2110.11855.

圖文 | 胡欣妍

PKU daGAME Lab

基於Java+SpringBoot+Mysql線上簡單拍賣競價拍賣競拍系統功能設計與實現三
2024-11-23
JavaSpring BootMySql
基於Java+SpringBoot+Mysql線上簡單拍賣競價拍賣競拍系統功能設計與實現十一
2024-11-27
JavaSpring BootMySql
§1. 一致收斂性
2024-05-08
為什麼說“納什均衡”改變了經濟學基礎理論
2019-01-17
中國拍賣行業協會：2019年中國機動車拍賣均價不到5萬元
2020-06-22
行業
基於sklearn的波士頓房價預測_線性迴歸學習筆記
2021-04-02
筆記
全球首次！AI畫作將於週四在紐約被拍賣，估價超7000美元
2018-10-29
AI
演算法測試，怎樣才能收斂？
2020-12-26
演算法
DeepVS：基於深度學習的影片顯著性方法
2018-09-26
深度學習
專訪中國移動首席科學家馮俊蘭：AI業務應用需要收斂再收斂
2018-12-03
AI
猴首NFT首拍收官，APENFT Marketplace發起挑戰
2022-04-22
04EM演算法-EM演算法收斂證明
2018-12-29
演算法
在表格中基於樹的模型與深度學習優劣對比
2022-09-12
模型深度學習
UA MATH563 概率論的數學基礎鞅論初步8 鞅收斂定理
2020-12-06
H5
深度學習|基於MobileNet的多目標跟蹤深度學習演算法
2022-11-09
深度學習演算法
基於節拍同步的 IF PCP 特徵提取
2020-05-26
特徵
基於動態規劃的強化學習演算法
2024-03-08
動態規劃強化學習演算法
IS-IS網路收斂
2020-10-25
聊聊缺陷收斂率
2024-06-21
強化學習(十七) 基於模型的強化學習與Dyna演算法框架
2019-02-15
強化學習模型演算法框架
一致性Hash在負載均衡中的應用
2018-09-05
負載
小資料在機器學習中的重要性
2022-03-01
機器學習
基於Cucumber框架的學習
2024-08-23
框架
說說你對域名收斂和域名發散的理解？分別在什麼場景下使用？
2024-11-23
在Linux中，什麼是負載均衡？它是如何工作的？
2024-04-01
Linux負載
TKE基於彈性網路卡直連Pod的網路負載均衡
2020-10-22
負載
粒子群演算法中對於學習因子的改進
2024-08-19
演算法
機器學習中的類別不均衡問題
2018-09-26
機器學習
15.2 一致收斂
2024-06-15
機器學習、深度學習、和AI演算法可以在網路安全中做什麼？
2018-03-29
機器學習深度學習AI演算法
中國拍賣行業協會：2021中國文物藝術品拍賣市場統計年報
2023-01-05
行業
unserialize-基於Pikachu的學習
2024-05-06
xxe-基於Pikachu的學習
2024-05-06
RCE-基於Pikachu的學習
2024-05-04
filedownload-基於pikachu的學習
2024-05-05
fileupload-基於pikachu的學習
2024-05-05
ssrf-基於Pikachu的學習
2024-05-07
xss-基於Pikachu的學習
2024-05-01

WWW 2022 | 基於均值的學習演算法在首價拍賣中的納什均衡收斂性

相關文章