DCIST联盟成员的一篇论文开发了一种多智能体强化学习(MARL)算法,该算法使用编码理论来减轻分布式训练中的滞留者效应。滞留者是指延迟的、无反应的或被破坏的计算节点,由于通信瓶颈和对抗性条件,在分布式学习系统中经常发生。编码技术已经被用来加速存在散兵游勇的分布式计算任务,如矩阵乘法和逆问题。他们提出的编码分布式学习框架可以与任何策略梯度方法一起应用,在存在散兵游勇的情况下为MARL问题训练策略。他们开发了多智能体深度确定性策略梯度(MADDPG)的编码分布式版本,这是一种最先进的MARL算法。为了全面了解编码在分布式MARL中的好处,他们研究了各种编码方案,包括最大距离可分离(MDS)编码、随机稀疏编码、基于复制的编码和常规低密度奇偶校验(LDPC)编码。所有这些方法都在几个多机器人问题的模拟中实现,包括协作导航、捕食者-猎物、物理欺骗和远离任务。他们的方法实现了相同的训练精度,同时大大加快了策略梯度算法的训练速度。

图 1:MARL 的未编码分布式学习示意图。

成为VIP会员查看完整内容
55

相关内容

军事防务数据板块介绍:系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块,其核心在于整合全球新兴国防技术(军事人工智能、无人系统等)、热点案例(俄乌战争、美以伊战争)等方面的最新时讯、研究报告/论文、条令法规、案例分析,为战略研判、情报分析、决策支持等提供知识支撑。
【伯克利博士论文】可信赖机器学习,227页pdf
专知会员服务
89+阅读 · 2022年12月12日
【硬核书】迁移学习多智能体强化学习系统,131页pdf
专知会员服务
148+阅读 · 2022年7月8日
【伯克利博士论文】机器人机械搜索的操作与感知策略
专知会员服务
16+阅读 · 2022年6月4日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
58+阅读 · 2021年10月16日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
一文读懂字符编码
阿里技术
0+阅读 · 2022年10月12日
【NeurIPS2022】分布式自适应元强化学习
专知
3+阅读 · 2022年10月8日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
最新内容
AutoScientists:自组织智能体团队驱动长期科学实验
战略前沿人工智能的再思考(中文)
专知会员服务
3+阅读 · 今天14:53
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
3+阅读 · 今天14:51
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
2+阅读 · 今天14:38
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员