Existing reinforcement learning (RL) methods struggle with long-horizon robotic manipulation tasks, particularly those involving sparse rewards. While action chunking is a promising paradigm for robotic manipulation, using RL to directly learn continuous action chunks in a stable and data-efficient manner remains a critical challenge. This paper introduces AC3 (Actor-Critic for Continuous Chunks), a novel RL framework that learns to generate high-dimensional, continuous action sequences. To make this learning process stable and data-efficient, AC3 incorporates targeted stabilization mechanisms for both the actor and the critic. First, to ensure reliable policy improvement, the actor is trained with an asymmetric update rule, learning exclusively from successful trajectories. Second, to enable effective value learning despite sparse rewards, the critic's update is stabilized using intra-chunk $n$-step returns and further enriched by a self-supervised module providing intrinsic rewards at anchor points aligned with each action chunk. We conducted extensive experiments on 25 tasks from the BiGym and RLBench benchmarks. Results show that by using only a few demonstrations and a simple model architecture, AC3 achieves superior success rates on most tasks, validating its effective design.


翻译:现有强化学习方法在处理长时程机器人操作任务时面临困难,尤其是在涉及稀疏奖励的场景中。尽管动作分块是机器人操作中一种有前景的范式,但如何利用强化学习以稳定且数据高效的方式直接学习连续动作块,仍然是一个关键挑战。本文提出AC3(面向连续动作块的演员-评论家方法),这是一种能够学习生成高维连续动作序列的新型强化学习框架。为使学习过程稳定且数据高效,AC3为演员和评论家分别引入了针对性的稳定机制。首先,为确保策略改进的可靠性,演员采用非对称更新规则进行训练,仅从成功轨迹中学习。其次,为在稀疏奖励条件下实现有效的价值学习,评论家的更新通过使用块内$n$步回报得以稳定,并进一步通过自监督模块进行增强,该模块在与每个动作块对齐的锚点处提供内在奖励。我们在BiGym和RLBench基准测试的25项任务上进行了广泛实验。结果表明,仅使用少量演示样本和简单模型架构,AC3在多数任务上实现了更高的成功率,验证了其设计的有效性。

0
下载
关闭预览

相关内容

基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
基于内在动机的深度强化学习探索方法综述
专知会员服务
40+阅读 · 2023年5月13日
专知会员服务
66+阅读 · 2021年4月22日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
1+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
8+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员