Being able to solve a task in diverse ways makes agents more robust to task variations and less prone to local optima. In this context, constrained diversity optimization has become a useful reinforcement learning (RL) framework for training a set of diverse agents in parallel. However, existing constrained-diversity RL methods often under-explore in complex tasks such as robot manipulation, resulting in limited behavioral diversity. We address this with a two-stage curriculum that introduces a spline-based trajectory prior as an inductive bias to produce diverse, high-reward behaviors in an initial stage, and then distills these behaviors into reactive, step-wise policies in a second stage. In our empirical evaluation, we provide novel insights into challenges of diversity-targeted training and show that our curriculum increases the diversity of learned skills while maintaining high task performance.


翻译:能够以多样化方式解决任务,使智能体对任务变化更具鲁棒性,且不易陷入局部最优。在此背景下,约束多样性优化已成为一种并行训练多样化智能体集合的有效强化学习框架。然而,现有约束多样性强化学习方法在复杂任务(如机器人操作)中常存在探索不足的问题,导致行为多样性受限。为此,我们提出一种两阶段课程:第一阶段引入基于样条的轨迹先验作为归纳偏置,以生成多样化、高回报的行为;第二阶段将这些行为蒸馏为反应式的逐步骤策略。通过实证评估,我们揭示了多样性导向训练中的新挑战,并证明该方法在保持高任务性能的同时,显著提升了习得技能的多样性。

0
下载
关闭预览

相关内容

《多智能体强化学习中的机制设计优化研究》103页
专知会员服务
33+阅读 · 2025年5月31日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
《多智能体强化学习策略优化算法设计》226页
专知会员服务
65+阅读 · 2024年6月9日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关资讯
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员