The goal of agents in multi-agent environments is to maximize total reward against the opposing agents that are encountered. Following a game-theoretic solution concept, such as Nash equilibrium, may obtain a strong performance in some settings; however, such approaches fail to capitalize on historical and observed data from repeated interactions against our opponents. Opponent modeling algorithms integrate machine learning techniques to exploit suboptimal opponents utilizing available data; however, the effectiveness of such approaches in imperfect-information games to date is quite limited. We show that existing opponent modeling approaches fail to satisfy a simple desirable property even against static opponents drawn from a known prior distribution; namely, they do not guarantee that the model approaches the opponent's true strategy even in the limit as the number of game iterations approaches infinity. We develop a new algorithm that is able to achieve this property and runs efficiently by solving a convex minimization problem based on the sequence-form game representation using projected gradient descent. The algorithm is guaranteed to efficiently converge to the opponent's true strategy under standard Bayesian identifiability and visitation assumptions, given observations from gameplay and possibly additional historical data if it is available.


翻译:在多智能体环境中,智能体的目标是通过与所遭遇的对手智能体对抗来最大化总奖励。遵循博弈论解概念(如纳什均衡)在某些设定下可能获得较强的性能;然而,此类方法未能充分利用与对手重复交互中产生的历史和观测数据。对手建模算法整合机器学习技术,利用可用数据来利用次优对手;然而,迄今为止,此类方法在不完全信息博弈中的有效性相当有限。我们证明,即使面对从已知先验分布中抽取的静态对手,现有的对手建模方法也无法满足一个简单的理想属性;即,它们不能保证在博弈迭代次数趋于无穷大的极限情况下,模型能够逼近对手的真实策略。我们开发了一种新算法,该算法能够通过基于序列形式博弈表示、使用投影梯度下降法求解凸最小化问题,高效地实现这一属性。在标准的贝叶斯可识别性和访问假设下,给定来自游戏过程的观测数据以及可能获得的额外历史数据,该算法能够保证高效收敛到对手的真实策略。

0
下载
关闭预览

相关内容

智能博弈对抗算法及其在情报领域中的应用*
专知会员服务
39+阅读 · 2024年12月1日
智能博弈决策大模型智能体技术综述
专知会员服务
115+阅读 · 2024年6月29日
博弈论应用《互补战场上的多场战斗对抗》
专知会员服务
26+阅读 · 2024年1月30日
基于深度强化学习的对手建模方法研究综述
专知会员服务
84+阅读 · 2023年4月17日
面向多智能体博弈对抗的对手建模框架
专知会员服务
165+阅读 · 2022年9月28日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
3+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
2+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
8+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员