Reinforcement learning has shown strong performance in robotic manipulation, but learned policies often degrade in performance when test conditions differ from the training distribution. This limitation is especially important in contact-rich tasks such as pushing and pick-and-place, where changes in goals, contact conditions, or robot dynamics can drive the system out-of-distribution at inference time. In this paper, we investigate a hybrid controller that combines reinforcement learning with bounded extremum seeking to improve robustness under such conditions. In the proposed approach, deep deterministic policy gradient (DDPG) policies are trained under standard conditions on the robotic pushing and pick-and-place tasks, and are then combined with bounded ES during deployment. The RL policy provides fast manipulation behavior, while bounded ES ensures robustness of the overall controller to time variations when operating conditions depart from those seen during training. The resulting controller is evaluated under several out-of-distribution settings, including time-varying goals and spatially varying friction patches.


翻译:强化学习在机器人操作中展现出强劲性能,但当测试条件与训练分布不同时,所学策略的性能往往会下降。这一局限性在推取和抓放等接触密集任务中尤为突出,因为在推理时,目标、接触条件或机器人动力学变化可能导致系统偏离原始分布。本文研究了一种结合强化学习与有界极值搜索的混合控制器,旨在提升此类条件下的鲁棒性。在提出的方法中,深度确定性策略梯度(DDPG)策略在标准条件下针对机器人推取和抓放任务进行训练,并在部署时与有界极值搜索相结合。强化学习策略提供快速操作行为,而有界极值搜索则确保当运行条件偏离训练环境时,整体控制器对时间变化的鲁棒性。最终控制器在多种分布偏移场景下进行评估,包括时变目标和空间变化摩擦斑块。

0
下载
关闭预览

相关内容

面向机器人系统的虚实迁移强化学习综述
专知会员服务
44+阅读 · 2024年2月8日
基于内在动机的深度强化学习探索方法综述
专知会员服务
40+阅读 · 2023年5月13日
结合进化算法的深度强化学习方法研究综述
专知会员服务
81+阅读 · 2022年7月16日
专知会员服务
66+阅读 · 2021年4月22日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
面向机器人系统的虚实迁移强化学习综述
专知会员服务
44+阅读 · 2024年2月8日
基于内在动机的深度强化学习探索方法综述
专知会员服务
40+阅读 · 2023年5月13日
结合进化算法的深度强化学习方法研究综述
专知会员服务
81+阅读 · 2022年7月16日
专知会员服务
66+阅读 · 2021年4月22日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员