这个项目利用RL的一些最新进展来开发实时战略游戏的规划器,特别是MicroRTS来代替Stratagem计划的兵棋。PI实验室的这些进展之一被称为强化学习作为预演(RLaR)。在此之前,RLaR只在玩具基准任务中进行了评估,以确定其在减少样本复杂性方面的功效。这个项目为行为者-评论者架构开发了RLaR,并首次将其应用于具有不完整信息的复杂领域,如MicroRTS。本项目中应用的另一项技术源于最近在复杂的《星际争霸II》游戏中多智能体学习的成功,特别是多阶段训练的架构,在训练稳健策略的中间阶段发展联盟和联盟开拓者策略。

我们针对MicroPhantom--最近MicroRTS比赛的亚军--对RLaR进行了训练,结果表明它能够对这个对手进行有效的计划,但使用的样本比相关基线少。另外,我们使用4个阶段的训练方案在自我博弈中训练RLaR,并针对MentalSeal(冠军程序)和MicroPhantom评估了训练后的策略。虽然该策略在面对MicroPhantom时再次显示出良好的性能,但它在面对MentalSeal时却没有表现得很好。根据先前的初步发现,针对MentalSeal的训练是非常缓慢的,我们推测需要大量的训练时间,而不是我们在这个项目的延长期内能够投入到这个步骤中的。

成为VIP会员查看完整内容
67

相关内容

军事防务数据板块介绍:系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块,其核心在于整合全球新兴国防技术(军事人工智能、无人系统等)、热点案例(俄乌战争、美以伊战争)等方面的最新时讯、研究报告/论文、条令法规、案例分析,为战略研判、情报分析、决策支持等提供知识支撑。
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2023年8月17日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
VIP会员
最新内容
【剑桥博士论文】智能体-环境协同优化
专知会员服务
3+阅读 · 今天14:33
为初级军官战术训练设计生成式人工智能平台
专知会员服务
5+阅读 · 今天6:43
《美军条令:作战伤员后送保障》
专知会员服务
4+阅读 · 今天6:38
《美空军条令出版物 4-0,维持》
专知会员服务
4+阅读 · 今天6:32
《基于仿真的空军任务规划优化》
专知会员服务
4+阅读 · 今天6:21
相关VIP内容
相关资讯
相关基金
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员