We study the problem of online learning in Stackelberg games with side information between a leader and a sequence of followers. In every round the leader observes contextual information and commits to a mixed strategy, after which the follower best-responds. We provide learning algorithms for the leader which achieve $O(T^{1/2})$ regret under bandit feedback, an improvement from the previously best-known rates of $O(T^{2/3})$. Our algorithms rely on a reduction to linear contextual bandits in the utility space: In each round, a linear contextual bandit algorithm recommends a utility vector, which our algorithm inverts to determine the leader's mixed strategy. We extend our algorithms to the setting in which the leader's utility function is unknown, and also apply it to the problems of bidding in second-price auctions with side information and online Bayesian persuasion with public and private states. Finally, we observe that our algorithms empirically outperform previous results on numerical simulations.


翻译:我们研究了在领导者与一系列跟随者之间带有侧信息的斯塔克尔伯格博弈中的在线学习问题。每一轮中,领导者观察情境信息并承诺一个混合策略,随后跟随者做出最优反应。在赌博反馈下,我们为领导者提供了一种实现$O(T^{1/2})$后悔的学习算法,相比此前已知最优的$O(T^{2/3})$速率有所改进。我们的算法依赖于对效用空间中的线性情境赌博问题的归约:在每一轮中,线性情境赌博算法推荐一个效用向量,我们的算法将其求逆以确定领导者的混合策略。我们将算法扩展到领导者效用函数未知的情形,并将其应用于带侧信息的第二价格拍卖投标以及具有公开和私有状态的在线贝叶斯说服问题。最后,我们观察到,在数值模拟中,我们的算法在经验性能上优于以往结果。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
【新书】深度学习中的博弈论应用
专知会员服务
84+阅读 · 2024年3月27日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
37+阅读 · 2023年8月31日
【干货书】算法博弈论,Algorithmic Game Theory,775页pdf
专知会员服务
89+阅读 · 2023年6月19日
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
157+阅读 · 2021年5月9日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
资源 | 源自斯坦福CS229,机器学习备忘录在集结
机器之心
19+阅读 · 2018年8月22日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
0+阅读 · 3月4日
Arxiv
0+阅读 · 3月2日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【新书】深度学习中的博弈论应用
专知会员服务
84+阅读 · 2024年3月27日
【MIT博士论文】序列博弈中的近似最优学习, 338页pdf
专知会员服务
37+阅读 · 2023年8月31日
【干货书】算法博弈论,Algorithmic Game Theory,775页pdf
专知会员服务
89+阅读 · 2023年6月19日
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
157+阅读 · 2021年5月9日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员