We study the problem of learning in zero-sum matrix games with repeated play and bandit feedback. Specifically, we focus on developing uncoupled algorithms that guarantee, without communication between players, the convergence of the last-iterate to a Nash equilibrium. Although the non-bandit case has been studied extensively, this setting has only been explored recently, with a bound of $\mathcal{O}(T^{-1/8})$ on the exploitability gap. We show that, for uncoupled algorithms, guaranteeing convergence of the policy profiles to a Nash equilibrium is detrimental to the performance, with the best attainable rate being $Ω(T^{-1/4})$ in contrast to the usual $Ω(T^{-1/2})$ rate for convergence of the average iterates. We then propose two algorithms that achieve this optimal rate up to constant and logarithmic factors. The first algorithm leverages a straightforward trade-off between exploration and exploitation, while the second employs a regularization technique based on a two-step mirror descent approach.


翻译:我们研究零和矩阵博弈中重复博弈和赌博反馈下的学习问题。具体来说,我们专注于开发非耦合算法,在无需玩家间通信的情况下保证最后迭代收敛到纳什均衡。尽管非赌博情况已被广泛研究,但这一设定直至近期才被探索,且其可利用性差距界为 $\mathcal{O}(T^{-1/8})$。我们证明,对于非耦合算法,保证策略轮廓收敛到纳什均衡会损害性能,其最佳可达速率为 $Ω(T^{-1/4})$,这与平均迭代收敛的常规 $Ω(T^{-1/2})$ 速率形成对比。随后,我们提出两种在常数和对数因子内达到该最优速率的算法。第一种算法利用探索与利用之间的直接权衡,而第二种则采用基于两步镜像下降方法的正则化技术。

0
下载
关闭预览

相关内容

《资源分配博弈中的收敛率》
专知会员服务
42+阅读 · 2023年3月10日
专知会员服务
75+阅读 · 2020年12月7日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
Machine Learning:十大机器学习算法
开源中国
21+阅读 · 2018年3月1日
【干货】理解深度学习中的矩阵运算
机器学习研究会
18+阅读 · 2018年2月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
3+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
《资源分配博弈中的收敛率》
专知会员服务
42+阅读 · 2023年3月10日
专知会员服务
75+阅读 · 2020年12月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员