Data-Augmented Game Starts for Accelerating Self-Play Exploration in Imperfect Information Games - 专知论文

会员服务 ·

0

INFORMS · 不完美信息 · Self-Play · 样本 · 设计 ·

Data-Augmented Game Starts for Accelerating Self-Play Exploration in Imperfect Information Games

翻译：暂无翻译

JB Lanier,Nathan Monette,Pierre Baldi,Roy Fox

from arxiv, 17 pages, 4 figures. JB Lanier and Nathan Monette contributed equally

Finding approximate equilibria for large-scale imperfect-information competitive games such as StarCraft, Dota, and CounterStrike remains computationally infeasible due to sparse rewards and challenging exploration over long horizons. In this paper, we propose a multi-agent starting-state sampling strategy designed to substantially accelerate online exploration in regularized policy-gradient game methods for two-player zero-sum (2p0s) games. Motivated by an assumption that offline demonstrations from skilled humans can provide good coverage of high-level strategies relevant to equilibrium play, we propose the initialization of reinforcement learning data collection at intermediate states sampled from offline data to facilitate exploration of strategically relevant subgames. Referring to this method as Data-Augmented Game Starts (DAGS), we perform experiments using synthetic datasets and analytically tractable, long-horizon control variants of two-player Kuhn Poker, Goofspiel, and a counterexample game designed to penalize biased beliefs over hidden information. Under fixed computational budgets, DAGS enables regularized policy gradient methods to achieve lower exploitability in games with significantly more challenging exploration. We show that augmenting starting state distributions when solving imperfect information games can lead to biased equilibria, and we provide a straightforward mitigation to this in the form of multi-task observation flags. Finally, we release a new set of benchmark environments that drastically increase exploration challenges and state counts in existing OpenSpiel games while keeping exploitability measurements analytically tractable.

翻译：暂无翻译

0

相关内容

INFORMS

《计算机信息》杂志发表高质量的论文，扩大了运筹学和计算的范围，寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文，以及描述新的和有用的软件工具的论文。官网链接：https://pubsonline.informs.org/journal/ijoc

《信息作为作战任务变量》

《信息作为作战任务变量》

专知会员服务

46+阅读 · 2024年5月14日

“战斗空间”智能体开发《神经网络结构化数据编码实验》最新论文

“战斗空间”智能体开发《神经网络结构化数据编码实验》最新论文

专知会员服务

26+阅读 · 2024年3月19日

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

专知会员服务

52+阅读 · 2023年4月15日

《链式游戏：为自主威胁搜索提供动力》卡内基梅隆大学2022最新24页slides

《链式游戏：为自主威胁搜索提供动力》卡内基梅隆大学2022最新24页slides

专知会员服务

17+阅读 · 2022年12月19日

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

专知会员服务

64+阅读 · 2022年11月29日

智能博弈综述：游戏AI 对作战推演的启示

智能博弈综述：游戏AI 对作战推演的启示

专知会员服务

127+阅读 · 2022年8月29日

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

专知会员服务

16+阅读 · 2022年3月29日

【AI+兵棋推演】最新paper速读：美国陆军将游戏和模拟器作为平台开发用于指挥和控制的人工智能

【AI+兵棋推演】最新paper速读：美国陆军将游戏和模拟器作为平台开发用于指挥和控制的人工智能

专知会员服务

119+阅读 · 2022年3月15日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【IJCAI 2019 | tutorial】解决具有复杂策略空间的游戏中的问题 Solving Games With Complex Strategy Spaces，林肯大学|Hau Chan，卡内基梅隆大学|Fei Fang

【IJCAI 2019 | tutorial】解决具有复杂策略空间的游戏中的问题 Solving Games With Complex Strategy Spaces，林肯大学|Hau Chan，卡内基梅隆大学|Fei Fang

专知会员服务

29+阅读 · 2019年8月12日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

兴军亮Science评述：多人德州扑克博弈新突破

兴军亮Science评述：多人德州扑克博弈新突破

中国科学院自动化研究所

19+阅读 · 2019年7月15日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【泡泡图灵智库】RTAB-Map : 一个大规模且长期在线的激光与视觉SLAM开源库

【泡泡图灵智库】RTAB-Map : 一个大规模且长期在线的激光与视觉SLAM开源库

泡泡机器人SLAM

34+阅读 · 2018年12月25日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

338+阅读 · 2017年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

h型信息网络测度的机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于仿真大数据的武器装备体系复杂性机理及效能评估方法研究

国家自然科学基金

75+阅读 · 2014年12月31日

基于仿真大数据的信息化作战体系分析方法研究

国家自然科学基金

39+阅读 · 2013年12月31日

认知战术网络系统行为建模仿真研究

国家自然科学基金

43+阅读 · 2012年12月31日

Augmenting Game AI with Deep Reinforcement Learning

Arxiv

0+阅读 · 6月18日

Who embraces AI in play? Exploratory modeling of player preference profiles toward game AI

Arxiv

0+阅读 · 6月17日

Consistent Opponent Modeling in Imperfect-Information Games

Arxiv

0+阅读 · 5月29日

Capsule: Efficient Player Isolation for Datacenters

Arxiv

0+阅读 · 5月27日

AI-Enabled Serious Games: Integrating Intelligence and Adaptivity in Training Systems

Arxiv

0+阅读 · 5月21日

Imperfect-Information Games on Quantum Computers: A Case Study in Skat

Arxiv

0+阅读 · 5月17日

Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning

Arxiv

34+阅读 · 2022年6月30日

On games and simulators as a platform for development of artificial intelligence for command and control

On games and simulators as a platform for development of artificial intelligence for command and control

Arxiv

90+阅读 · 2021年10月21日

Data Augmentation Approaches in Natural Language Processing: A Survey

Arxiv

18+阅读 · 2021年10月5日

Modelling Behavioural Diversity for Learning in Open-Ended Games

Arxiv

11+阅读 · 2021年3月14日

VIP会员

文章信息

相关主题

不完美信息

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

8+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

11+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

5+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

7+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

7+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

6+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

7+阅读 · 6月16日

相关VIP内容

《信息作为作战任务变量》

《信息作为作战任务变量》

专知会员服务

46+阅读 · 2024年5月14日

“战斗空间”智能体开发《神经网络结构化数据编码实验》最新论文

“战斗空间”智能体开发《神经网络结构化数据编码实验》最新论文

专知会员服务

26+阅读 · 2024年3月19日

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

【Science论文】《通过无模型多智能体强化学习掌握战略游戏（Stratego）》DeepMind重磅成果，58页论文

专知会员服务

52+阅读 · 2023年4月15日

《链式游戏：为自主威胁搜索提供动力》卡内基梅隆大学2022最新24页slides

《链式游戏：为自主威胁搜索提供动力》卡内基梅隆大学2022最新24页slides

专知会员服务

17+阅读 · 2022年12月19日

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

《自适应游戏智能体算法》258页博士论文，哥本哈根信息技术大学

专知会员服务

64+阅读 · 2022年11月29日

智能博弈综述：游戏AI 对作战推演的启示

智能博弈综述：游戏AI 对作战推演的启示

专知会员服务

127+阅读 · 2022年8月29日

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

【ToG 2021】强化学习中图像局部区域敏感的探索奖励，Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games

专知会员服务

16+阅读 · 2022年3月29日

【AI+兵棋推演】最新paper速读：美国陆军将游戏和模拟器作为平台开发用于指挥和控制的人工智能

【AI+兵棋推演】最新paper速读：美国陆军将游戏和模拟器作为平台开发用于指挥和控制的人工智能

专知会员服务

119+阅读 · 2022年3月15日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

【IJCAI 2019 | tutorial】解决具有复杂策略空间的游戏中的问题 Solving Games With Complex Strategy Spaces，林肯大学|Hau Chan，卡内基梅隆大学|Fei Fang

【IJCAI 2019 | tutorial】解决具有复杂策略空间的游戏中的问题 Solving Games With Complex Strategy Spaces，林肯大学|Hau Chan，卡内基梅隆大学|Fei Fang

专知会员服务

29+阅读 · 2019年8月12日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

中国科学院网络数据重点实验室

16+阅读 · 2019年8月26日

兴军亮Science评述：多人德州扑克博弈新突破

兴军亮Science评述：多人德州扑克博弈新突破

中国科学院自动化研究所

19+阅读 · 2019年7月15日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【泡泡图灵智库】RTAB-Map : 一个大规模且长期在线的激光与视觉SLAM开源库

【泡泡图灵智库】RTAB-Map : 一个大规模且长期在线的激光与视觉SLAM开源库

泡泡机器人SLAM

34+阅读 · 2018年12月25日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

相关论文

Augmenting Game AI with Deep Reinforcement Learning

Arxiv

0+阅读 · 6月18日

Who embraces AI in play? Exploratory modeling of player preference profiles toward game AI

Arxiv

0+阅读 · 6月17日

Consistent Opponent Modeling in Imperfect-Information Games

Arxiv

0+阅读 · 5月29日

Capsule: Efficient Player Isolation for Datacenters

Arxiv

0+阅读 · 5月27日

AI-Enabled Serious Games: Integrating Intelligence and Adaptivity in Training Systems

Arxiv

0+阅读 · 5月21日

Imperfect-Information Games on Quantum Computers: A Case Study in Skat

Arxiv

0+阅读 · 5月17日

Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning

Arxiv

34+阅读 · 2022年6月30日

On games and simulators as a platform for development of artificial intelligence for command and control

On games and simulators as a platform for development of artificial intelligence for command and control

Arxiv

90+阅读 · 2021年10月21日

Data Augmentation Approaches in Natural Language Processing: A Survey

Arxiv

18+阅读 · 2021年10月5日

Modelling Behavioural Diversity for Learning in Open-Ended Games

Arxiv

11+阅读 · 2021年3月14日

相关基金

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

338+阅读 · 2017年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

h型信息网络测度的机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于仿真大数据的武器装备体系复杂性机理及效能评估方法研究

国家自然科学基金

75+阅读 · 2014年12月31日

基于仿真大数据的信息化作战体系分析方法研究

国家自然科学基金

39+阅读 · 2013年12月31日

认知战术网络系统行为建模仿真研究

国家自然科学基金

43+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员