在机器人操作任务中,动作分块是一种强大的技术:它不是一次预测并执行一个动作,而是预测并执行一段动作序列,从而能够更好地捕捉人类数据或先验经验中存在的噪声性与非马尔可夫行为。尽管动作分块策略已经在模仿学习中取得了大量成功,但这类方法通常依赖监督学习,并需要使用成本较高的人类示教数据进行训练。 强化学习为此提供了一种有前景的替代方案,因为它能够使机器人基于明确设定的奖励函数自主收集数据,并持续进行自我改进。然而,现有强化学习方法通常依赖较为简单的策略类别,往往难以刻画先验数据中的多模态行为。 在本博士论文中,我们讨论了面向动作分块策略的可扩展强化学习的算法与理论基础。首先,我们提出了在 Q-learning 框架下优化 flow-matching 策略的实用算法。随后,我们建立了一个理论框架,识别出关键的开环一致性条件:在该条件下,所学习的动作分块策略能够被保证接近最优。同时,我们还提出了有界最优性变化条件,在该条件下,可以通过闭环执行缓解开环偏差。 受到上述分析的启发,我们进一步提出了一种实用算法,展示了动作分块强化学习在更长时序任务上的可扩展性。总体而言,这些贡献为面向动作分块策略的可扩展强化学习奠定了基础,并推动强化学习更接近在真实机器人场景中的部署。