Progress Constraints for Reinforcement Learning in Behavior Trees - 专知论文

会员服务 ·

0

约束 · 控制器 · 行为树 · 结构 · 结构化 ·

Progress Constraints for Reinforcement Learning in Behavior Trees

翻译：行为树中强化学习的进度约束

Finn Rietz,Mart Kartašev,Petter Ögren,Johannes A. Stork

Behavior Trees (BTs) provide a structured and reactive framework for decision-making, commonly used to switch between sub-controllers based on environmental conditions. Reinforcement Learning (RL), on the other hand, can learn near-optimal controllers but sometimes struggles with sparse rewards, safe exploration, and long-horizon credit assignment. Combining BTs with RL has the potential for mutual benefit: a BT design encodes structured domain knowledge that can simplify RL training, while RL enables automatic learning of the controllers within BTs. However, naive integration of BTs and RL can lead to some controllers counteracting other controllers, possibly undoing previously achieved subgoals, thereby degrading the overall performance. To address this, we propose progress constraints, a novel mechanism where feasibility estimators constrain the allowed action set based on theoretical BT convergence results. Empirical evaluations in a 2D proof-of-concept and a high-fidelity warehouse environment demonstrate improved performance, sample efficiency, and constraint satisfaction, compared to prior methods of BT-RL integration.

翻译：行为树（BTs）为决策制定提供了结构化且反应灵敏的框架，通常用于根据环境条件在不同子控制器之间进行切换。另一方面，强化学习（RL）能够学习接近最优的控制器，但有时在稀疏奖励、安全探索和长时程信用分配方面存在困难。将BTs与RL结合具有相互受益的潜力：BT设计编码了结构化的领域知识，可以简化RL训练，而RL则能够自动学习BTs内部的控制器。然而，BTs与RL的简单集成可能导致某些控制器抵消其他控制器的效果，可能破坏先前已实现的子目标，从而降低整体性能。为解决此问题，我们提出进度约束，这是一种新颖的机制，其中可行性估计器基于行为树收敛的理论结果来约束允许的动作集。在二维概念验证和高保真仓库环境中的实证评估表明，与先前的BT-RL集成方法相比，该方法在性能、样本效率和约束满足方面均有提升。

0

相关内容

【博士论文】结构化约束下的高效强化学习：从单智能体、多智能体到大语言模型时代

【博士论文】结构化约束下的高效强化学习：从单智能体、多智能体到大语言模型时代

专知会员服务

19+阅读 · 3月17日

【普林斯顿博士论文】迈向原则化的强化学习

【普林斯顿博士论文】迈向原则化的强化学习

专知会员服务

24+阅读 · 2025年7月2日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

57+阅读 · 2023年8月12日

《使用行为树来模拟计算机生成部队的战斗演习》16页报告

《使用行为树来模拟计算机生成部队的战斗演习》16页报告

专知会员服务

84+阅读 · 2023年2月28日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

42+阅读 · 2023年2月2日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

150+阅读 · 2022年7月13日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【Texas 大学】强化学习领域的课程学习:一个框架和综述

【Texas 大学】强化学习领域的课程学习:一个框架和综述

专知会员服务

74+阅读 · 2020年3月22日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

102+阅读 · 2020年2月8日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习精品书籍

强化学习精品书籍

平均机器

26+阅读 · 2019年1月2日

【下载】深度强化学习实战书籍和代码《Deep Reinforcement Learning in Action》

【下载】深度强化学习实战书籍和代码《Deep Reinforcement Learning in Action》

专知

78+阅读 · 2018年8月7日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

约束最小生成树及其在容迟容断网络中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

CABTO: Context-Aware Behavior Tree Grounding for Robot Manipulation

Arxiv

0+阅读 · 3月17日

Reinforcement Learning with Symbolic Reward Machines

Arxiv

0+阅读 · 3月3日

Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 2月27日

Effective Reinforcement Learning Control using Conservative Soft Actor-Critic

Arxiv

0+阅读 · 2月24日

CDRL: A Reinforcement Learning Framework Inspired by Cerebellar Circuits and Dendritic Computational Strategies

Arxiv

0+阅读 · 2月17日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

Constrained Sampling to Guide Universal Manipulation RL

Arxiv

0+阅读 · 2月9日

Stochastic Decision Horizons for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Reinforcement Learning-assisted Constraint Relaxation for Constrained Expensive Optimization

Arxiv

0+阅读 · 1月31日

A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges

Arxiv

28+阅读 · 2022年11月15日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

11+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

6+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

6+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

7+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

8+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

5+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

【博士论文】结构化约束下的高效强化学习：从单智能体、多智能体到大语言模型时代

【博士论文】结构化约束下的高效强化学习：从单智能体、多智能体到大语言模型时代

专知会员服务

19+阅读 · 3月17日

【普林斯顿博士论文】迈向原则化的强化学习

【普林斯顿博士论文】迈向原则化的强化学习

专知会员服务

24+阅读 · 2025年7月2日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

57+阅读 · 2023年8月12日

《使用行为树来模拟计算机生成部队的战斗演习》16页报告

《使用行为树来模拟计算机生成部队的战斗演习》16页报告

专知会员服务

84+阅读 · 2023年2月28日

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

【普林斯顿博士论文】动力系统的安全强化学习与约束学习，245页pdf

专知会员服务

42+阅读 · 2023年2月2日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

150+阅读 · 2022年7月13日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【Texas 大学】强化学习领域的课程学习:一个框架和综述

【Texas 大学】强化学习领域的课程学习:一个框架和综述

专知会员服务

74+阅读 · 2020年3月22日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

102+阅读 · 2020年2月8日

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

【NeurIPS 2019-教程】强化学习:过去、现在和未来展望（Rinforcement Learning: Past, Present, and Future Perspectives），微软首席研究员Katja Hofmann

专知会员服务

59+阅读 · 2019年12月9日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

33+阅读 · 2022年11月12日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

强化学习精品书籍

强化学习精品书籍

平均机器

26+阅读 · 2019年1月2日

【下载】深度强化学习实战书籍和代码《Deep Reinforcement Learning in Action》

【下载】深度强化学习实战书籍和代码《Deep Reinforcement Learning in Action》

专知

78+阅读 · 2018年8月7日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

CABTO: Context-Aware Behavior Tree Grounding for Robot Manipulation

Arxiv

0+阅读 · 3月17日

Reinforcement Learning with Symbolic Reward Machines

Arxiv

0+阅读 · 3月3日

Reinforcement Learning from Human Feedback

Arxiv

0+阅读 · 2月27日

Effective Reinforcement Learning Control using Conservative Soft Actor-Critic

Arxiv

0+阅读 · 2月24日

CDRL: A Reinforcement Learning Framework Inspired by Cerebellar Circuits and Dendritic Computational Strategies

Arxiv

0+阅读 · 2月17日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

Constrained Sampling to Guide Universal Manipulation RL

Arxiv

0+阅读 · 2月9日

Stochastic Decision Horizons for Constrained Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Reinforcement Learning-assisted Constraint Relaxation for Constrained Expensive Optimization

Arxiv

0+阅读 · 1月31日

A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges

Arxiv

28+阅读 · 2022年11月15日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

演化优化的自适应约束处理机理及在生化过程中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

约束最小生成树及其在容迟容断网络中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员