Hierarchical Imitation Learning is a powerful paradigm for acquiring complex robot behaviors from demonstrations. A central challenge, however, lies in discovering reusable skills from long-horizon, multi-task offline data, especially when the data lacks explicit rewards or subtask annotations. In this work, we introduce LOKI, a three-stage end-to-end learning framework designed for offline skill discovery and hierarchical imitation. The framework commences with a two-stage, weakly supervised skill discovery process: Stage one performs coarse, task-aware macro-segmentation by employing an alignment-enforced Vector Quantized VAE guided by weak task labels. Stage two then refines these segments at a micro-level using a self-supervised sequential model, followed by an iterative clustering process to consolidate skill boundaries. The third stage then leverages these precise boundaries to construct a hierarchical policy within an option-based framework-complete with a learned termination condition beta for explicit skill switching. LOKI achieves high success rates on the challenging D4RL Kitchen benchmark and outperforms standard HIL baselines. Furthermore, we demonstrate that the discovered skills are semantically meaningful, aligning with human intuition, and exhibit compositionality by successfully sequencing them to solve a novel, unseen task.


翻译:分层模仿学习是从演示中获取复杂机器人行为的有力范式。然而,其核心挑战在于如何从长时域、多任务的离线数据中发现可复用的技能,尤其是在数据缺乏显式奖励或子任务标注的情况下。本文提出了LOKI,一个为离线技能发现与分层模仿设计的三阶段端到端学习框架。该框架始于一个两阶段的弱监督技能发现过程:第一阶段通过采用由弱任务标签引导的、对齐强化的向量量化变分自编码器,执行粗粒度的、任务感知的宏观分割;第二阶段则利用自监督序列模型在微观层面细化这些片段,随后通过迭代聚类过程来巩固技能边界。第三阶段则利用这些精确的边界,在一个基于选项的框架内构建分层策略——该策略包含一个用于显式技能切换的学习终止条件β。LOKI在具有挑战性的D4RL Kitchen基准测试中取得了高成功率,并优于标准的分层模仿学习基线。此外,我们证明了所发现的技能具有语义意义,符合人类直觉,并且通过成功地对它们进行序列化以解决一个新颖的、未见过的任务,展现了组合性。

0
下载
关闭预览

相关内容

机器人领域的多任务泛化研究
专知会员服务
16+阅读 · 1月14日
多模态持续学习的最新进展:综合综述
专知会员服务
47+阅读 · 2024年10月10日
机器人运动轨迹的模仿学习综述
专知会员服务
45+阅读 · 2021年6月8日
《多任务学习》最新综述论文,20页pdf
专知会员服务
126+阅读 · 2021年4月6日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 1月30日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员