在机器人操作任务中,动作分块是一种强大的技术:它不是一次预测并执行一个动作,而是预测并执行一段动作序列,从而能够更好地捕捉人类数据或先验经验中存在的噪声性与非马尔可夫行为。尽管动作分块策略已经在模仿学习中取得了大量成功,但这类方法通常依赖监督学习,并需要使用成本较高的人类示教数据进行训练。 强化学习为此提供了一种有前景的替代方案,因为它能够使机器人基于明确设定的奖励函数自主收集数据,并持续进行自我改进。然而,现有强化学习方法通常依赖较为简单的策略类别,往往难以刻画先验数据中的多模态行为。 在本博士论文中,我们讨论了面向动作分块策略的可扩展强化学习的算法与理论基础。首先,我们提出了在 Q-learning 框架下优化 flow-matching 策略的实用算法。随后,我们建立了一个理论框架,识别出关键的开环一致性条件:在该条件下,所学习的动作分块策略能够被保证接近最优。同时,我们还提出了有界最优性变化条件,在该条件下,可以通过闭环执行缓解开环偏差。 受到上述分析的启发,我们进一步提出了一种实用算法,展示了动作分块强化学习在更长时序任务上的可扩展性。总体而言,这些贡献为面向动作分块策略的可扩展强化学习奠定了基础,并推动强化学习更接近在真实机器人场景中的部署。

成为VIP会员查看完整内容
1

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
VIP会员
最新内容
《支持作战级人机协同智能的交互式OODA流程》
专知会员服务
0+阅读 · 7分钟前
【伯克利博士论文】基于动作分块策略的强化学习
Transformer增强强化学习:通信网络基础与应用综述
ICML 2026 | SARDI:扩散语言模型的自增强检索
专知会员服务
5+阅读 · 6月6日
《国防领域安全采用大语言模型的战略蓝图》
专知会员服务
9+阅读 · 6月6日
ICML 2026 | 演化选择的因果建模
专知会员服务
10+阅读 · 6月5日
综述|学习式3D表征最新进展与趋势
专知会员服务
7+阅读 · 6月5日
微信扫码咨询专知VIP会员