Two-Player Zero-Sum Games with Bandit Feedback - 专知论文

会员服务 ·

0

博弈 · 算法 · 对抗 · 自适应 · 均衡 ·

Two-Player Zero-Sum Games with Bandit Feedback

翻译：基于老虎机反馈的两人零和博弈

Elif Yılmaz,Christos Dimitrakakis

from arxiv, 22 pages

We study a two-player zero-sum game in which the row player aims to maximize their payoff against an adversarial column player, under an unknown payoff matrix estimated through bandit feedback. We propose three algorithms based on the Explore-Then-Commit (ETC) framework. The first adapts it to zero-sum games, the second incorporates adaptive elimination that leverages the $\varepsilon$-Nash Equilibrium property to efficiently select the optimal action pair, and the third extends the elimination algorithm by employing non-uniform exploration. Our objective is to demonstrate the applicability of ETC in a zero-sum game setting by focusing on learning pure strategy Nash Equilibria. A key contribution of our work is a derivation of instance-dependent upper bounds on the expected regret of our proposed algorithms, which has received limited attention in the literature on zero-sum games. Particularly, after $T$ rounds, we achieve an instance-dependent regret upper bounds of $O(Δ+ \sqrt{T})$ for ETC in zero-sum game setting and $O(\log (T Δ^2)/Δ)$ for the adaptive elimination algorithm and its variant with non-uniform exploration, where $Δ$ denotes the suboptimality gap. Therefore, our results indicate that ETC-based algorithms perform effectively in zero-sum game settings, achieving regret bounds comparable to existing methods while providing insight through instance-dependent analysis.

翻译：本研究探讨了一种两人零和博弈，其中行玩家旨在最大化其收益以对抗对抗性列玩家，收益矩阵未知并通过老虎机反馈进行估计。我们提出了三种基于探索后提交（ETC）框架的算法。第一种算法将其适配于零和博弈；第二种算法结合了自适应消除策略，该策略利用$\varepsilon$-纳什均衡特性来高效选择最优行动对；第三种算法则通过采用非均匀探索来扩展消除算法。我们的目标是通过专注于学习纯策略纳什均衡，来证明ETC在零和博弈设定中的适用性。本研究的一个关键贡献是推导了所提出算法的期望遗憾的实例相关上界，这在零和博弈的相关文献中关注有限。具体而言，在$T$轮后，我们在零和博弈设定中为ETC算法实现了$O(Δ+ \sqrt{T})$的实例相关遗憾上界，而为自适应消除算法及其非均匀探索变体实现了$O(\log (T Δ^2)/Δ)$的上界，其中$Δ$表示次优间隙。因此，我们的结果表明，基于ETC的算法在零和博弈设定中表现有效，其遗憾界与现有方法相当，同时通过实例相关分析提供了深入见解。

0

相关内容

博弈论驱动的人机编队

博弈论驱动的人机编队

专知会员服务

29+阅读 · 1月4日

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

专知会员服务

141+阅读 · 2024年3月16日

博弈论应用《互补战场上的多场战斗对抗》

博弈论应用《互补战场上的多场战斗对抗》

专知会员服务

26+阅读 · 2024年1月30日

《在互补战场上进行多场战斗》

《在互补战场上进行多场战斗》

专知会员服务

18+阅读 · 2024年1月20日

基于态势演化博弈的无人机集群动态攻防

基于态势演化博弈的无人机集群动态攻防

专知会员服务

98+阅读 · 2023年9月3日

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

专知会员服务

108+阅读 · 2022年10月28日

《计算和学习博弈》美国空军、加州理工15页项目总结报告

《计算和学习博弈》美国空军、加州理工15页项目总结报告

专知会员服务

41+阅读 · 2022年10月3日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

专知

131+阅读 · 2022年4月4日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

兴军亮Science评述：多人德州扑克博弈新突破

兴军亮Science评述：多人德州扑克博弈新突破

中国科学院自动化研究所

19+阅读 · 2019年7月15日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

基于在线双向拍卖的运输服务市场交易策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于非局域性的量子博弈研究

国家自然科学基金

1+阅读 · 2015年12月31日

逆模型在线调整的两电机同步系统低损耗解耦控制

国家自然科学基金

0+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机对策的首达目标准则及其有限逼近

国家自然科学基金

0+阅读 · 2015年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

随机辛算法和多辛算法

国家自然科学基金

2+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

Actor-Dual-Critic Dynamics for Zero-sum and Identical-Interest Stochastic Games

Arxiv

0+阅读 · 1月31日

Tie-breaking in self interest cumulative subtraction games

Arxiv

0+阅读 · 1月20日

Determining the Winner in Alternating-Move Games

Arxiv

0+阅读 · 1月19日

Inverse Learning in $2\times2$ Games: From Synthetic Interactions to Traffic Simulation

Arxiv

0+阅读 · 1月15日

Optimism Without Regularization: Constant Regret in Zero-Sum Games

Arxiv

0+阅读 · 1月14日

Determining the Winner in Alternating-Move Games

Arxiv

0+阅读 · 1月13日

The value of random zero-sum games

Arxiv

0+阅读 · 1月12日

Solving Matrix Games with Even Fewer Matrix-Vector Products

Arxiv

0+阅读 · 1月5日

Convergence of a L2 regularized Policy Gradient Algorithm for the Multi Armed Bandit

Arxiv

0+阅读 · 1月5日

Traces via Strategies in Two-Player Games

Arxiv

0+阅读 · 1月2日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

4+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

3+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

3+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

2+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

5+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

5+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

18+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

9+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

10+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

14+阅读 · 5月29日

相关VIP内容

博弈论驱动的人机编队

博弈论驱动的人机编队

专知会员服务

29+阅读 · 1月4日

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

《动态作战规划：军事战役的随机博弈方法》2024最新37页论文

专知会员服务

141+阅读 · 2024年3月16日

博弈论应用《互补战场上的多场战斗对抗》

博弈论应用《互补战场上的多场战斗对抗》

专知会员服务

26+阅读 · 2024年1月30日

《在互补战场上进行多场战斗》

《在互补战场上进行多场战斗》

专知会员服务

18+阅读 · 2024年1月20日

基于态势演化博弈的无人机集群动态攻防

基于态势演化博弈的无人机集群动态攻防

专知会员服务

98+阅读 · 2023年9月3日

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

《基于博弈论的多无人机最优协同路径规划》悉尼科技大学等2022最新论文

专知会员服务

108+阅读 · 2022年10月28日

《计算和学习博弈》美国空军、加州理工15页项目总结报告

《计算和学习博弈》美国空军、加州理工15页项目总结报告

专知会员服务

41+阅读 · 2022年10月3日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

专知

131+阅读 · 2022年4月4日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

兴军亮Science评述：多人德州扑克博弈新突破

兴军亮Science评述：多人德州扑克博弈新突破

中国科学院自动化研究所

19+阅读 · 2019年7月15日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

在TensorFlow中对比两大生成模型：VAE与GAN

在TensorFlow中对比两大生成模型：VAE与GAN

机器之心

12+阅读 · 2017年10月23日

相关论文

Actor-Dual-Critic Dynamics for Zero-sum and Identical-Interest Stochastic Games

Arxiv

0+阅读 · 1月31日

Tie-breaking in self interest cumulative subtraction games

Arxiv

0+阅读 · 1月20日

Determining the Winner in Alternating-Move Games

Arxiv

0+阅读 · 1月19日

Inverse Learning in $2\times2$ Games: From Synthetic Interactions to Traffic Simulation

Arxiv

0+阅读 · 1月15日

Optimism Without Regularization: Constant Regret in Zero-Sum Games

Arxiv

0+阅读 · 1月14日

Determining the Winner in Alternating-Move Games

Arxiv

0+阅读 · 1月13日

The value of random zero-sum games

Arxiv

0+阅读 · 1月12日

Solving Matrix Games with Even Fewer Matrix-Vector Products

Arxiv

0+阅读 · 1月5日

Convergence of a L2 regularized Policy Gradient Algorithm for the Multi Armed Bandit

Arxiv

0+阅读 · 1月5日

Traces via Strategies in Two-Player Games

Arxiv

0+阅读 · 1月2日

相关基金

基于在线双向拍卖的运输服务市场交易策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于非局域性的量子博弈研究

国家自然科学基金

1+阅读 · 2015年12月31日

逆模型在线调整的两电机同步系统低损耗解耦控制

国家自然科学基金

0+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机对策的首达目标准则及其有限逼近

国家自然科学基金

0+阅读 · 2015年12月31日

相依重尾随机变量和的渐近性及其在更新风险模型中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

随机辛算法和多辛算法

国家自然科学基金

2+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员