We study online learning in Bayesian Stackelberg games, where a leader repeatedly interacts with a follower whose unknown private type is independently drawn at each round from an unknown probability distribution. The goal is to design algorithms that minimize the leader's regret with respect to always playing an optimal commitment computed with knowledge of the game. We consider, for the first time to the best of our knowledge, the most realistic case in which the leader does not know anything about the follower's types, i.e., the possible follower payoffs. This raises considerable additional challenges compared to the commonly studied case in which the payoffs of follower types are known. First, we prove a strong negative result: no-regret is unattainable under action feedback, i.e., when the leader only observes the follower's best response at the end of each round. Thus, we focus on the easier type feedback model, where the follower's type is also revealed. In such a setting, we propose a no-regret algorithm that achieves a regret of $\widetilde{O}(\sqrt{T})$, when ignoring the dependence on other parameters.


翻译:本文研究贝叶斯斯塔克尔伯格博弈中的在线学习问题,其中领导者重复与追随者进行交互,而追随者未知的私有类型在每轮中从未知概率分布中独立抽取。目标是设计能够最小化领导者遗憾的算法,该遗憾相对于始终执行在已知博弈信息下计算出的最优承诺策略。据我们所知,我们首次考虑了最现实的情况:领导者对追随者类型(即可能的追随者收益)一无所知。与通常研究的追随者类型收益已知的情况相比,这带来了显著额外的挑战。首先,我们证明了一个强烈的负面结果:在行动反馈(即领导者仅每轮结束时观察追随者的最优响应)下无法实现无遗憾学习。因此,我们聚焦于更简单的类型反馈模型,其中追随者的类型也会被揭示。在此设定下,我们提出了一种无遗憾算法,当忽略对其他参数的依赖时,该算法可实现 $\widetilde{O}(\sqrt{T})$ 的遗憾界。

0
下载
关闭预览

相关内容

【干货书】算法博弈论,Algorithmic Game Theory,775页pdf
专知会员服务
89+阅读 · 2023年6月19日
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
156+阅读 · 2021年5月9日
【干货书】贝叶斯推断随机过程,449页pdf
专知
30+阅读 · 2020年8月27日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月3日
VIP会员
相关VIP内容
【干货书】算法博弈论,Algorithmic Game Theory,775页pdf
专知会员服务
89+阅读 · 2023年6月19日
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
156+阅读 · 2021年5月9日
相关基金
国家自然科学基金
16+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员