In a multi-follower Bayesian Stackelberg game, a leader plays a mixed strategy over $L$ actions to which $n\ge 1$ followers, each having one of $K$ possible private types, best respond. The leader's optimal strategy depends on the distribution of the followers' private types. We study an online learning version of this problem: a leader interacts for $T$ rounds with $n$ followers with types sampled from an unknown distribution every round. The leader's goal is to minimize regret, defined as the difference between the cumulative utility of the optimal strategy and that of the actually chosen strategies. We design learning algorithms for the leader under different feedback settings. Under type feedback, where the leader observes the followers' types after each round, we design algorithms that achieve $O\big(\sqrt{\min(L\log(nKA T), nK ) \cdot T} \big)$ regret for independent type distributions and $O\big(\sqrt{\min(L\log(nKA T), K^n ) \cdot T} \big)$ regret for general type distributions. Interestingly, those bounds do not grow with $n$ at a polynomial rate. Under action feedback, where the leader only observes the followers' actions, we design algorithms with $O( \min(\sqrt{ n^L K^L A^{2L} L T \log T}, K^n\sqrt{ T } \log T ) )$ regret. We also provide a lower bound of $Ω(\sqrt{\min(L, nK)T})$, almost matching the type-feedback upper bounds.


翻译:在多跟随者贝叶斯斯塔克尔伯格博弈中,领导者采用$L$个行动上的混合策略,$n\ge 1$个跟随者(各自拥有$K$种可能的私有类型之一)对此做出最优响应。领导者的最优策略取决于跟随者私有类型的分布。我们研究该问题的在线学习版本:领导者在$T$轮中与$n$个跟随者交互,每轮跟随者的类型从未知分布中采样。领导者的目标是最小化遗憾,其定义为最优策略的累积效用与实际选择策略的累积效用之差。我们在不同反馈设置下为领导者设计了学习算法。在类型反馈(即每轮后领导者能观察到跟随者类型)下,我们设计的算法对独立类型分布实现了$O\big(\sqrt{\min(L\log(nKA T), nK ) \cdot T} \big)$遗憾,对一般类型分布实现了$O\big(\sqrt{\min(L\log(nKA T), K^n ) \cdot T} \big)$遗憾。值得注意的是,这些上界并不以多项式速率随$n$增长。在行动反馈(即领导者仅能观察到跟随者行动)下,我们设计的算法实现了$O( \min(\sqrt{ n^L K^L A^{2L} L T \log T}, K^n\sqrt{ T } \log T ) )$遗憾。我们还给出了$Ω(\sqrt{\min(L, nK)T})$的下界,该下界几乎匹配类型反馈的上界。

0
下载
关闭预览

相关内容

博弈论应用《互补战场上的多场战斗对抗》
专知会员服务
27+阅读 · 2024年1月30日
【干货书】算法博弈论,Algorithmic Game Theory,775页pdf
专知会员服务
89+阅读 · 2023年6月19日
【2023新书】使用博弈论进行决策,215页pdf
专知会员服务
132+阅读 · 2023年4月19日
多智能体博弈、学习与控制
专知会员服务
128+阅读 · 2023年1月18日
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
157+阅读 · 2021年5月9日
【干货书】贝叶斯推断随机过程,449页pdf
专知
31+阅读 · 2020年8月27日
送书 | 深入浅出,一起学习贝叶斯!
AI100
10+阅读 · 2018年2月2日
贝叶斯机器学习前沿进展
机器学习研究会
21+阅读 · 2018年1月21日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月4日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月3日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员