可组合无模型强化学习用于仿射输入系统的导航 (Composable Model-Free RL for Navigation with Input-Affine Systems) - 专知论文

会员服务 ·

0

价值函数 · 值函数 · 可组合 · 无模型强化学习 · 模型强化学习 ·

Composable Model-Free RL for Navigation with Input-Affine Systems

翻译：可组合无模型强化学习用于仿射输入系统的导航

Xinhuan Sang,Abdelrahman Abdelgawad,Roberto Tron

from arxiv, 17 pages, 8 figures. Submitted to WAFR 2026 (under review)

As autonomous robots move into complex, dynamic real-world environments, they must learn to navigate safely in real time, yet anticipating all possible behaviors is infeasible. We propose a composable, model-free reinforcement learning method that learns a value function and an optimal policy for each individual environment element (e.g., goal or obstacle) and composes them online to achieve goal reaching and collision avoidance. Assuming unknown nonlinear dynamics that evolve in continuous time and are input-affine, we derive a continuous-time Hamilton-Jacobi-Bellman (HJB) equation for the value function and show that the corresponding advantage function is quadratic in the action and optimal policy. Based on this structure, we introduce a model-free actor-critic algorithm that learns policies and value functions for static or moving obstacles using gradient descent. We then compose multiple reach/avoid models via a quadratically constrained quadratic program (QCQP), yielding formal obstacle-avoidance guarantees in terms of value-function level sets, providing a model-free alternative to CLF/CBF-based controllers. Simulations demonstrate improved performance over a PPO baseline applied to a discrete-time approximation.

翻译：随着自主机器人进入复杂、动态的现实世界环境，它们必须学会实时安全导航，然而预测所有可能行为是不可行的。我们提出了一种可组合的无模型强化学习方法，该方法为每个独立环境元素（例如目标或障碍物）学习一个价值函数和最优策略，并在线组合它们以实现目标到达和避碰。假设未知的非线性动力学在连续时间内演化且为仿射输入，我们推导了价值函数的连续时间 Hamilton-Jacobi-Bellman (HJB) 方程，并证明了相应的优势函数在动作和最优策略上是二次的。基于此结构，我们引入了一种无模型的演员-评论家算法，该算法使用梯度下降学习针对静态或移动障碍物的策略和价值函数。随后，我们通过一个二次约束二次规划 (QCQP) 组合多个到达/规避模型，从而在价值函数水平集方面提供形式化的避障保证，为基于 CLF/CBF 的控制器提供了一种无模型的替代方案。仿真结果表明，与应用于离散时间近似的 PPO 基线相比，本方法性能更优。

0

相关内容

价值函数

《基于无模型深度强化学习的导弹规避机动生成》

《基于无模型深度强化学习的导弹规避机动生成》

专知会员服务

14+阅读 · 2月10日

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

基于强化学习的无人机集群对抗策略推演仿真

基于强化学习的无人机集群对抗策略推演仿真

专知会员服务

69+阅读 · 2024年4月14日

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

专知会员服务

44+阅读 · 2024年3月28日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

《使用强化学习的自主无人飞行器导航：综述》

《使用强化学习的自主无人飞行器导航：综述》

专知会员服务

84+阅读 · 2023年6月18日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

「强化学习在无人车领域」的应用与展望

「强化学习在无人车领域」的应用与展望

专知会员服务

58+阅读 · 2022年12月8日

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

专知会员服务

68+阅读 · 2022年4月16日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

无人驾驶仿真软件

无人驾驶仿真软件

智能交通技术

22+阅读 · 2019年5月9日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

大数据文摘

11+阅读 · 2018年6月12日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于确定学习方法的无人水面艇智能控制研究

国家自然科学基金

17+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

Multi-Task Reinforcement Learning of Drone Aerobatics by Exploiting Geometric Symmetries

Arxiv

0+阅读 · 2月11日

High-Speed Vision-Based Flight in Clutter with Safety-Shielded Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Transformer-Based Reinforcement Learning for Autonomous Orbital Collision Avoidance in Partially Observable Environments

Arxiv

0+阅读 · 2月5日

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 2月3日

Reinforcement Learning for Active Perception in Autonomous Navigation

Arxiv

0+阅读 · 2月1日

A Continual Offline Reinforcement Learning Benchmark for Navigation Tasks

Arxiv

0+阅读 · 1月30日

Reinforcement Learning for Ballbot Navigation in Uneven Terrain

Arxiv

0+阅读 · 1月30日

Communication-Free Collective Navigation for a Swarm of UAVs via LiDAR-Based Deep Reinforcement Learning

Arxiv

0+阅读 · 1月20日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

无模型强化学习

模型强化学习

相关VIP内容

《基于无模型深度强化学习的导弹规避机动生成》

《基于无模型深度强化学习的导弹规避机动生成》

专知会员服务

14+阅读 · 2月10日

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

基于强化学习的无人机集群对抗策略推演仿真

基于强化学习的无人机集群对抗策略推演仿真

专知会员服务

69+阅读 · 2024年4月14日

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

【阿姆斯特丹博士论文】自主智能体导航的强化学习与规划：专注于稀疏奖励设置

专知会员服务

44+阅读 · 2024年3月28日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

《使用强化学习的自主无人飞行器导航：综述》

《使用强化学习的自主无人飞行器导航：综述》

专知会员服务

84+阅读 · 2023年6月18日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

「强化学习在无人车领域」的应用与展望

「强化学习在无人车领域」的应用与展望

专知会员服务

58+阅读 · 2022年12月8日

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

【AI+军事】附论文+PPT 《建立在复杂海上作业中训练自动驾驶汽车的建模与仿真能力》

专知会员服务

68+阅读 · 2022年4月16日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

26+阅读 · 2022年11月24日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

65+阅读 · 2022年8月25日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

无人驾驶仿真软件

无人驾驶仿真软件

智能交通技术

22+阅读 · 2019年5月9日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

资源 | 跟着Sutton经典教材学强化学习中的蒙特卡罗方法（代码实例）

大数据文摘

11+阅读 · 2018年6月12日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Multi-Task Reinforcement Learning of Drone Aerobatics by Exploiting Geometric Symmetries

Arxiv

0+阅读 · 2月11日

High-Speed Vision-Based Flight in Clutter with Safety-Shielded Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Transformer-Based Reinforcement Learning for Autonomous Orbital Collision Avoidance in Partially Observable Environments

Arxiv

0+阅读 · 2月5日

Online Fine-Tuning of Pretrained Controllers for Autonomous Driving via Real-Time Recurrent RL

Arxiv

0+阅读 · 2月3日

Reinforcement Learning for Active Perception in Autonomous Navigation

Arxiv

0+阅读 · 2月1日

A Continual Offline Reinforcement Learning Benchmark for Navigation Tasks

Arxiv

0+阅读 · 1月30日

Reinforcement Learning for Ballbot Navigation in Uneven Terrain

Arxiv

0+阅读 · 1月30日

Communication-Free Collective Navigation for a Swarm of UAVs via LiDAR-Based Deep Reinforcement Learning

Arxiv

0+阅读 · 1月20日

An Efficient and Multi-Modal Navigation System with One-Step World Model

Arxiv

0+阅读 · 1月18日

On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning

Arxiv

0+阅读 · 1月13日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

混合交通环境中自动驾驶汽车安全可达性分析与优化控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

几何/拓扑混合空间中的仿生导航方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于确定学习方法的无人水面艇智能控制研究

国家自然科学基金

17+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员