Quality-Diversity (QD) algorithms have shown remarkable success in discovering diverse, high-performing solutions, but rely heavily on hand-crafted behavioral descriptors that constrain exploration to predefined notions of diversity. Leveraging the equivalence between policies and occupancy measures, we present a theoretically grounded approach to automatically generate behavioral descriptors by embedding the occupancy measures of policies in Markov Decision Processes. Our method, AutoQD, leverages random Fourier features to approximate the Maximum Mean Discrepancy (MMD) between policy occupancy measures, creating embeddings whose distances reflect meaningful behavioral differences. A low-dimensional projection of these embeddings that captures the most behaviorally significant dimensions can then be used as behavioral descriptors for CMA-MAE, a state of the art blackbox QD method, to discover diverse policies. We prove that our embeddings converge to true MMD distances between occupancy measures as the number of sampled trajectories and embedding dimensions increase. Through experiments in multiple continuous control tasks we demonstrate AutoQD's ability in discovering diverse policies without predefined behavioral descriptors, presenting a well-motivated alternative to prior methods in unsupervised Reinforcement Learning and QD optimization. Our approach opens new possibilities for open-ended learning and automated behavior discovery in sequential decision making settings without requiring domain-specific knowledge. Source code is available at https://github.com/conflictednerd/autoqd-code.


翻译:质量多样性(QD)算法在发现多样化、高性能解决方案方面已展现出显著成效,但其严重依赖人工设计的行为描述符,将探索范围限制在预定义的多样性概念中。利用策略与占用测度之间的等价性,我们提出了一种理论依据充分的方法,通过嵌入马尔可夫决策过程中策略的占用测度来自动生成行为描述符。我们的方法AutoQD利用随机傅里叶特征来近似策略占用测度之间的最大均值差异(MMD),从而创建出距离能够反映有意义行为差异的嵌入表示。随后,可对这些嵌入进行低维投影以捕捉最具行为显著性的维度,并将其作为行为描述符应用于当前最先进的黑盒QD方法CMA-MAE,以发现多样化策略。我们证明,随着采样轨迹数量和嵌入维度的增加,我们的嵌入表示会收敛到占用测度之间的真实MMD距离。通过在多个连续控制任务中的实验,我们证明了AutoQD能够在无需预定义行为描述符的情况下发现多样化策略,为无监督强化学习和QD优化领域提供了动机充分的新方法。我们的方法为序列决策设定中的开放式学习和自动化行为发现开辟了新可能,且无需领域特定知识。源代码可在 https://github.com/conflictednerd/autoqd-code 获取。

0
下载
关闭预览

相关内容

《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
28+阅读 · 2025年11月17日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【NeurIPS 2023】Mix-ME:多智能体学习的质量多样性
专知会员服务
17+阅读 · 2023年11月6日
多模态数据的行为识别综述
专知会员服务
88+阅读 · 2022年11月30日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月4日
VIP会员
最新内容
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
1+阅读 · 今天14:22
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
21+阅读 · 4月29日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员