In the context of neuroevolution, Quality-Diversity algorithms have proven effective in generating repertoires of diverse and efficient policies by relying on the definition of a behavior space. A natural goal induced by the creation of such a repertoire is trying to achieve behaviors on demand, which can be done by running the corresponding policy from the repertoire. However, in uncertain environments, two problems arise. First, policies can lack robustness and repeatability, meaning that multiple episodes under slightly different conditions often result in very different behaviors. Second, due to the discrete nature of the repertoire, solutions vary discontinuously. Here we present a new approach to achieve behavior-conditioned trajectory generation based on two mechanisms: First, MAP-Elites Low-Spread (ME-LS), which constrains the selection of solutions to those that are the most consistent in the behavior space. Second, the Quality-Diversity Transformer (QDT), a Transformer-based model conditioned on continuous behavior descriptors, which trains on a dataset generated by policies from a ME-LS repertoire and learns to autoregressively generate sequences of actions that achieve target behaviors. Results show that ME-LS produces consistent and robust policies, and that its combination with the QDT yields a single policy capable of achieving diverse behaviors on demand with high accuracy.


翻译:在神经进化背景下,质量多样性算法通过定义行为空间,已被证明能够有效生成多样化且高效策略的库。创建此类库所引发的自然目标是尝试按需实现特定行为,这可通过执行库中对应的策略来完成。然而,在不确定环境中会出现两个问题:首先,策略可能缺乏鲁棒性和可重复性,即在略微不同的条件下多次执行通常会得到截然不同的行为;其次,由于库的离散特性,解决方案呈现不连续变化。本文提出了一种基于两种机制实现行为条件轨迹生成的新方法:第一,MAP-Elites低分散算法(ME-LS),其将解决方案的选择约束为在行为空间中一致性最高的那些方案;第二,质量多样性变换器(QDT),这是一种基于连续行为描述符的变换器模型,通过在ME-LS库中策略生成的数据集上进行训练,学习自回归地生成能够达成目标行为的动作序列。结果表明,ME-LS能产生一致且鲁棒的策略,而将其与QDT相结合,可得到一个能以高精度按需实现多样化行为的单一策略。

0
下载
关闭预览

相关内容

强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
0+阅读 · 16分钟前
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
0+阅读 · 32分钟前
在人工智能加速决策环境中拓展OODA循环
专知会员服务
0+阅读 · 42分钟前
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
0+阅读 · 57分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员