General robot skill adaptation requires expressive representations robust to varying task configurations. While recent learning-based skill adaptation methods refined via Reinforcement Learning (RL), have shown success, existing skill models often lack sufficient representational capacity for anything beyond minor environmental changes. In contrast, Gaussian Process (GP)-based skill modelling provides an expressive representation with useful analytical properties; however, adaptation of GP-based skills remains underexplored. This paper proposes a novel, robust skill adaptation framework that utilises GPs with sparse via-points for compact and expressive modelling. The model considers the trajectory's poses and leverages its first and second analytical derivatives to preserve the skill's kinematic profile. We present three adaptation methods to cater for the variability between initial and observed configurations. Firstly, an optimisation agent that adjusts the path's via-points while preserving the demonstration velocity. Second, a behaviour cloning agent trained to replicate output trajectories from the optimisation agent. Lastly, an RL agent that has learnt to modify via-points whilst maintaining the kinematic profile and enabling online capabilities. Evaluated across three tasks (drawer opening, cube-pushing and bar manipulation) in both simulation and hardware, our proposed methods outperform every benchmark in success rates. Furthermore, the results demonstrate that the GP-based representation enables all three methods to attain high cosine similarity and low velocity magnitude errors, indicating strong preservation of the kinematic profile. Overall, our formulation provides a compact representation capable of adapting to large deviations from a single demonstrated skill.


翻译:通用机器人技能适应需要能够应对不同任务配置的鲁棒性表达表示。尽管近期基于学习的技能适应方法通过强化学习(RL)进行优化已取得成功,但现有技能模型通常缺乏足够的表达能力,难以应对超出微小环境变化的场景。相比之下,基于高斯过程(GP)的技能建模提供了具有实用解析特性的表达性表示;然而,基于GP技能的适应机制仍未得到充分探索。本文提出一种新颖的鲁棒技能适应框架,该框架利用带有稀疏路径点的高斯过程实现紧凑且表达性强的建模。该模型考虑轨迹位姿,并利用其一阶和二阶解析导数以保持技能的运动学特征。我们提出三种适应方法以应对初始配置与观测配置之间的变异性:首先,一种优化代理器,可在保持演示速度的同时调整路径的路径点;其次,一种行为克隆代理器,经过训练可复现优化代理器的输出轨迹;最后,一种强化学习代理器,已学会在保持运动学特征并实现在线能力的同时修改路径点。通过在仿真和硬件中对三项任务(抽屉开启、立方体推动和杆件操作)进行评估,我们提出的方法在成功率上均优于所有基准方法。此外,结果表明基于GP的表示使所有三种方法均能实现高余弦相似度和低速度幅值误差,表明其能有效保持运动学特征。总体而言,我们的框架提供了一种紧凑的表示方法,能够适应与单次演示技能存在较大偏差的场景。

0
下载
关闭预览

相关内容

【斯坦福博士论文】移动操作机器人的学习系统构建研究
专知会员服务
14+阅读 · 2025年11月14日
《机器人强化学习技术进展》34页
专知会员服务
40+阅读 · 2025年7月16日
【斯坦福博士论文】协作多机器人学习算法
专知会员服务
17+阅读 · 2025年1月6日
【ICRA2022】机器人强化学习工具教程, 附slides与视频
专知会员服务
40+阅读 · 2022年5月27日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
清华大学《高级机器学习》课程
专知
40+阅读 · 2020年7月21日
【机器学习】机器学习工业领域应用
产业智能官
11+阅读 · 2018年10月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
《国防领域敏感性分析白皮书》
专知会员服务
0+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
2+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
6+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
5+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
6+阅读 · 6月24日
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
5+阅读 · 6月24日
综述 | 世界动作模型:少做梦,多行动
专知会员服务
7+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
12+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员