We introduce EfficientTDMPC, a sample-efficient model-based reinforcement learning method for continuous control built on the TD-MPC family of algorithms. Central to this family is a planner that aims to find an action sequence that maximizes the estimated return. The return is estimated using a learned model and value networks, each of which can introduce error. EfficientTDMPC proposes to reduce this error in two ways. First, it introduces an ensemble of dynamics models and averages the return estimates across those models and across different rollout depths. Second, it adds the option to apply an uncertainty penalty to the planner objective, yielding a planner that avoids actions with uncertain return estimates. It then adds practical improvements which increase buffer data freshness and reduce compute. Lastly, we find that our contributions enable EfficientTDMPC to benefit more from a higher update-to-data (UTD) ratio, further improving sample efficiency. To the best of our knowledge, in the low data regime of each benchmark, EfficientTDMPC achieves state-of-the-art (SOTA) in terms of sample efficiency on HumanoidBench-Hard and DMC hard, while matching SOTA on DMC easy.


翻译:我们提出EfficientTDMPC——一种基于TD-MPC算法族的样本高效模型驱动强化学习方法,专为连续控制任务设计。该算法族的核心是一个规划器,旨在寻找能最大化预估收益的动作序列。收益估计依赖于学习得到的模型与价值网络,但二者均可能引入误差。EfficientTDMPC通过两种方式降低该误差:首先,引入动力学模型集成,对不同模型及其不同展开深度下的收益估计取平均;其次,在规划器目标中增加不确定性惩罚项,使规划器规避收益估计不确定性高的动作。此外,算法添加了提升缓冲数据新鲜度与降低计算量的实用改进。最后,我们发现这些改进使EfficientTDMPC能从更高的更新-数据比(UTD)中获益,从而进一步提升样本效率。据我们所知,在各项基准测试的低数据量条件下,EfficientTDMPC在HumanoidBench-Hard与DMC hard任务中实现了样本效率最先进(SOTA)水平,同时与DMC easy任务的最先进水平持平。

0
下载
关闭预览

相关内容

《面向基础模型的高效参数微调》综述
专知会员服务
34+阅读 · 2025年1月24日
【ICLR2024】为样本高效的强化学习预训练基于目标的模型
【MIT博士论文】数据高效强化学习,176页pdf
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
《面向基础模型的高效参数微调》综述
专知会员服务
34+阅读 · 2025年1月24日
【ICLR2024】为样本高效的强化学习预训练基于目标的模型
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员