在机器人操作任务中,动作分块是一种强大的技术:它不是一次预测并执行一个动作,而是预测并执行一段动作序列,从而能够更好地捕捉人类数据或先验经验中存在的噪声性与非马尔可夫行为。尽管动作分块策略已经在模仿学习中取得了大量成功,但这类方法通常依赖监督学习,并需要使用成本较高的人类示教数据进行训练。 强化学习为此提供了一种有前景的替代方案,因为它能够使机器人基于明确设定的奖励函数自主收集数据,并持续进行自我改进。然而,现有强化学习方法通常依赖较为简单的策略类别,往往难以刻画先验数据中的多模态行为。 在本博士论文中,我们讨论了面向动作分块策略的可扩展强化学习的算法与理论基础。首先,我们提出了在 Q-learning 框架下优化 flow-matching 策略的实用算法。随后,我们建立了一个理论框架,识别出关键的开环一致性条件:在该条件下,所学习的动作分块策略能够被保证接近最优。同时,我们还提出了有界最优性变化条件,在该条件下,可以通过闭环执行缓解开环偏差。 受到上述分析的启发,我们进一步提出了一种实用算法,展示了动作分块强化学习在更长时序任务上的可扩展性。总体而言,这些贡献为面向动作分块策略的可扩展强化学习奠定了基础,并推动强化学习更接近在真实机器人场景中的部署。

成为VIP会员查看完整内容
10

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NTU博士论文】基于协作式多智能体强化学习的决策制定
【CMU博士论文】强化学习的泛化灵巧性,182页pdf
专知会员服务
42+阅读 · 2023年11月4日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
深度强化学习简介
专知
30+阅读 · 2018年12月3日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月29日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员