We present an online model-based reinforcement learning algorithm suitable for controlling complex robotic systems directly in the real world. Unlike prevailing sim-to-real pipelines that rely on extensive offline simulation and model-free policy optimization, our method builds a dynamics model from real-time interaction data and performs policy updates guided by the learned dynamics model. This efficient model-based reinforcement learning scheme significantly reduces the number of samples to train control policies, enabling direct training on real-world rollout data. This significantly reduces the influence of bias in the simulated data, and facilitates the search for high-performance control policies. We adopt online optimization analysis to derive sublinear regret bounds under stochastic online optimization assumptions, providing formal guarantees on performance improvement as more interaction data are collected. Experimental evaluations were performed on a hydraulic excavator arm and a soft robot arm, where the algorithm demonstrates strong sample efficiency compared to model-free reinforcement learning methods, reaching comparable performance within hours. Robust adaptation to shifting dynamics was also observed when the payload condition was randomized. Our approach paves the way toward efficient and reliable on-robot learning for a broad class of challenging control tasks.


翻译:我们提出一种可直接在真实世界中控制复杂机器人系统的在线模型驱动强化学习算法。与依赖大量离线仿真与无模型策略优化的传统模拟到现实迁移管线不同,本方法通过实时交互数据构建动力学模型,并基于该学习模型进行策略更新。这种高效模型驱动强化学习方案显著降低了训练控制策略所需的样本量,使得策略可直接基于真实世界滚动数据训练。该方法有效减少了仿真数据偏差的影响,并促进了对高性能控制策略的搜索。我们采用在线优化分析框架,在随机在线优化假设下推导出次线性遗憾界,为性能随交互数据增加而改进提供了形式化保障。在液压挖掘机臂与软体机器人臂上的实验评估表明,相较于无模型强化学习方法,该算法展现出卓越的样本效率,可在数小时内达到相当的性能水平。当有效载荷条件随机变化时,算法同样展现出对动态环境变化的鲁棒适应能力。本研究为广泛具有挑战性的控制任务实现高效可靠的机器人本体学习开辟了新路径。

0
下载
关闭预览

相关内容

面向机器人系统的虚实迁移强化学习综述
专知会员服务
44+阅读 · 2024年2月8日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
28+阅读 · 2024年1月2日
基于神经网络的机器人学习与控制:回顾与展望
专知会员服务
33+阅读 · 2023年9月10日
专知会员服务
66+阅读 · 2021年4月22日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
133+阅读 · 2020年8月27日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员