Unsupervised skill discovery aims to acquire behavior primitives that improve exploration and accelerate downstream task learning. However, existing approaches often ignore the geometric symmetries of physical environments, leading to redundant behaviors and sample inefficiency. To address this, we introduce Group-Invariant Skill Discovery (GISD), a framework that explicitly embeds group structure into the skill discovery objective. Our approach is grounded in a theoretical guarantee: we prove that in group-symmetric environments, the standard Wasserstein dependency measure admits a globally optimal solution comprised of an equivariant policy and a group-invariant scoring function. Motivated by this, we formulate the Group-Invariant Wasserstein dependency measure, which restricts the optimization to this symmetry-aware subspace without loss of optimality. Practically, we parameterize the scoring function using a group Fourier representation and define the intrinsic reward via the alignment of equivariant latent features, ensuring that the discovered skills generalize systematically under group transformations. Experiments on state-based and pixel-based locomotion benchmarks demonstrate that GISD achieves broader state-space coverage and improved efficiency in downstream task learning compared to a strong baseline.


翻译:无监督技能发现旨在获取能够改善探索并加速下游任务学习的行为基元。然而,现有方法往往忽略物理环境的几何对称性,导致行为冗余和样本效率低下。为解决此问题,我们提出了群不变技能发现(GISD)框架,该框架将群结构显式嵌入技能发现目标中。我们的方法基于一个理论保证:我们证明了在群对称环境中,标准的Wasserstein依赖度量存在一个由等变策略和群不变评分函数构成的全局最优解。受此启发,我们构建了群不变Wasserstein依赖度量,该度量将优化限制在这一对称感知子空间内,且不损失最优性。在实践层面,我们使用群傅里叶表示对评分函数进行参数化,并通过等变潜在特征的对齐来定义内在奖励,从而确保发现的技能在群变换下能够系统性地泛化。在基于状态和基于像素的运动基准测试上的实验表明,与强基线方法相比,GISD能够实现更广泛的状态空间覆盖,并在下游任务学习中表现出更高的效率。

0
下载
关闭预览

相关内容

【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
19+阅读 · 2021年2月12日
【干货】Python无监督学习的4大聚类算法
新智元
14+阅读 · 2018年5月26日
【干货】监督学习与无监督学习简介
专知
14+阅读 · 2018年4月4日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月30日
VIP会员
相关VIP内容
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
19+阅读 · 2021年2月12日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员