In a variety of domains, from robotics to finance, Quality-Diversity algorithms have been used to generate collections of both diverse and high-performing solutions. Multi-Objective Quality-Diversity algorithms have emerged as a promising approach for applying these methods to complex, multi-objective problems. However, existing methods are limited by their search capabilities. For example, Multi-Objective Map-Elites depends on random genetic variations which struggle in high-dimensional search spaces. Despite efforts to enhance search efficiency with gradient-based mutation operators, existing approaches consider updating solutions to improve on each objective separately rather than achieving desired trade-offs. In this work, we address this limitation by introducing Multi-Objective Map-Elites with Preference-Conditioned Policy-Gradient and Crowding Mechanisms: a new Multi-Objective Quality-Diversity algorithm that uses preference-conditioned policy-gradient mutations to efficiently discover promising regions of the objective space and crowding mechanisms to promote a uniform distribution of solutions on the non-dominated front. We evaluate our approach on six robotics locomotion tasks and show that our method outperforms or matches all state-of-the-art Multi-Objective Quality-Diversity methods in all six, including two newly proposed tri-objective tasks. Importantly, our method also achieves a smoother set of trade-offs, as measured by newly-proposed sparsity-based metrics.


翻译:在从机器人学到金融的众多领域中,质量多样性算法已被用于生成兼具多样性和高性能的解集合。多目标质量多样性算法已成为将这些方法应用于复杂多目标问题的一种有前景的途径。然而,现有方法受限于其搜索能力。例如,多目标Map-Elites依赖于随机遗传变异,这些变异在高维搜索空间中表现不佳。尽管已有努力通过基于梯度的变异算子来提升搜索效率,但现有方法考虑的是分别更新解以改进每个目标,而非实现期望的权衡。在本工作中,我们通过引入具有偏好条件策略梯度和拥挤机制的多目标Map-Elites来解决这一局限:这是一种新的多目标质量多样性算法,它使用偏好条件策略梯度变异来高效发现目标空间中有前景的区域,并利用拥挤机制来促进非支配前沿上解的均匀分布。我们在六个机器人运动任务上评估了我们的方法,结果表明,在所有六个任务(包括两个新提出的三目标任务)中,我们的方法均优于或匹配所有最先进的多目标质量多样性方法。重要的是,根据新提出的基于稀疏性的度量指标,我们的方法还实现了一组更平滑的权衡。

0
下载
关闭预览

相关内容

【博士论文】多目标奖励与偏好优化:理论与算法
专知会员服务
32+阅读 · 2025年12月12日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
专知会员服务
50+阅读 · 2021年4月15日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【博士论文】多目标奖励与偏好优化:理论与算法
专知会员服务
32+阅读 · 2025年12月12日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
专知会员服务
50+阅读 · 2021年4月15日
相关资讯
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
综述:深度学习时代的目标检测算法
极市平台
27+阅读 · 2018年3月17日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员