最近,深度强化学习(RL)方法已被成功应用于多智能体场景。通常情况下,分布式决策的观测向量是由一个智能体收集的关于其他智能体(局部)信息的串联来表示。然而,串联法在具有大量同质智能体的集群系统中的扩展性很差,因为它没有利用这些系统固有的基本特性:(i)集群中的智能体是可以互换的;(ii)集群中智能体的确切数量是不相关的。因此,我们提出了一种新的基于分布式均值嵌入的深度多智能体RL状态表示,我们将智能体视为样本,并使用经验的均值嵌入作为分布式策略的输入。我们使用直方图、径向基函数和端到端训练的神经网络来定义均值嵌入的不同特征空间。我们对集群文献中的两个著名问题--交会和追赶逃避--在全局和局部可观察的设置中评估了该表示。对于本地设置,我们进一步引入了简单的通信协议。在所有的方法中,使用神经网络特征的平均嵌入表示能够在相邻的智能体之间进行最丰富的信息交流,促进复杂的集体策略的开发。

成为VIP会员查看完整内容
60

相关内容

军事防务数据板块介绍:系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块,其核心在于整合全球新兴国防技术(军事人工智能、无人系统等)、热点案例(俄乌战争、美以伊战争)等方面的最新时讯、研究报告/论文、条令法规、案例分析,为战略研判、情报分析、决策支持等提供知识支撑。
《分布式多智能体深度强化学习:竞争性博弈》最新论文
专知会员服务
130+阅读 · 2023年3月16日
【伯克利博士论文】可信赖机器学习,227页pdf
专知会员服务
89+阅读 · 2022年12月12日
《多智能体任务规划》2022博士论文
专知会员服务
286+阅读 · 2022年11月20日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
干货|深度强化学习在面向任务的对话管理中的应用
全球人工智能
13+阅读 · 2017年9月14日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月3日
Arxiv
10+阅读 · 2018年4月19日
VIP会员
最新内容
《多域作战面临复杂现实》
专知会员服务
0+阅读 · 15分钟前
《印度的多域作战:条令与能力发展》报告
专知会员服务
0+阅读 · 26分钟前
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
6+阅读 · 4月23日
国外海军作战管理系统与作战训练系统
专知会员服务
3+阅读 · 4月23日
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 4月23日
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 4月23日
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 4月23日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员