Learning robot manipulation policies with deep neural networks from a single demonstration remains highly challenging, as even small deviations from the demonstrated trajectory can quickly compound into failure, while collecting substantial online interaction data is costly. We propose ReGIL, a retrieval-guided imitation learning framework that treats a single demonstration as an external memory. ReGIL repeatedly queries this static memory throughout training to simultaneously guide exploration, generate the regularization buffer, and construct rewards. Specifically, it computes rewards through local temporal alignment between the current trajectory and the retrieved segment, providing step-wise and informative feedback for policy improvement. We evaluate ReGIL on robotic manipulation tasks from the LIBERO and Meta-World benchmarks under the single demonstration setting. ReGIL outperforms prior baselines in both success rate and training efficiency. In real-robot experiments, using only one demonstration and less than one hour of online training, ReGIL achieves over 75% success rate across three manipulation tasks with randomness in both initial robot pose and target position. These results demonstrate that leveraging the single demonstration as reusable memory can provide more than static supervision for efficient robot learning. More details can be found on our website: https://regil2026.github.io/


翻译:摘要:利用深度神经网络从单次演示中学习机器人操作策略仍然极具挑战性,因为即便与演示轨迹存在微小偏差,也可能迅速累积导致失败,而收集大量在线交互数据成本高昂。我们提出ReGIL,一种检索引导的模仿学习框架,将单次演示视为外部记忆。ReGIL在整个训练过程中反复查询该静态记忆,同时指导探索、生成正则化缓冲区并构建奖励函数。具体而言,它通过计算当前轨迹与检索片段之间的局部时间对齐来提供奖励,从而为策略改进提供逐步且信息丰富的反馈。我们在LIBERO和Meta-World基准测试的机器人操作任务上,在单次演示设置下评估了ReGIL。ReGIL在成功率和训练效率上均优于先前基线方法。在真实机器人实验中,仅使用一次演示和不到一小时的在线训练,ReGIL在三个操作任务中(机器人初始位姿和目标位置均具有随机性)实现了超过75%的成功率。这些结果表明,将单次演示作为可重用记忆可提供超越静态监督的效能,用于高效的机器人学习。更多详情请访问我们的网站:https://regil2026.github.io/

0
下载
关闭预览

相关内容

【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
136+阅读 · 2022年10月4日
专知会员服务
48+阅读 · 2021年7月2日
【MIT博士论文】数据高效强化学习,176页pdf
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【牛津大学博士论文】多模态自监督学习,172页pdf
专知会员服务
136+阅读 · 2022年10月4日
专知会员服务
48+阅读 · 2021年7月2日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员