MSACL: Multi-Step Actor-Critic Learning with Lyapunov Certificates for Exponentially Stabilizing Control - 专知论文

会员服务 ·

0

稳定控制 · 指数稳定性 · 鲁棒 · 基准 · 基准测试 ·

MSACL: Multi-Step Actor-Critic Learning with Lyapunov Certificates for Exponentially Stabilizing Control

翻译：MSACL：基于李雅普诺夫证书的指数稳定控制多步演员-评论家学习

Yongwei Zhang,Yuanzhe Xing,Quanyi Liang,Quan Quan,Zhikun She

from arxiv, This work has been submitted to the IEEE for possible publication

For safety-critical applications, model-free reinforcement learning (RL) faces numerous challenges, particularly the difficulty of establishing verifiable stability guarantees while maintaining high exploration efficiency. To address these challenges, we present Multi-Step Actor-Critic Learning with Lyapunov Certificates (MSACL), a novel approach that seamlessly integrates exponential stability with maximum entropy reinforcement learning (MERL). In contrast to existing methods that rely on complex reward engineering and single-step constraints, MSACL utilizes intuitive rewards and multi-step data for actor-critic learning. Specifically, we first introduce Exponential Stability Labels (ESLs) to categorize samples and propose a $λ$-weighted aggregation mechanism to learn Lyapunov certificates. Leveraging these certificates, we then develop a stability-aware advantage function to guide policy optimization, thereby ensuring rapid Lyapunov descent and robust state convergence. We evaluate MSACL across six benchmarks, comprising four stabilization and two high-dimensional tracking tasks. Experimental results demonstrate its consistent superiority over both standard RL baselines and state-of-the-art Lyapunov-based RL algorithms. Beyond rapid convergence, MSACL exhibits significant robustness against environmental uncertainties and remarkable generalization to unseen reference signals. The source code and benchmarking environments are available at \href{https://github.com/YuanZhe-Xing/MSACL}{https://github.com/YuanZhe-Xing/MSACL}.

翻译：在安全关键应用中，无模型强化学习面临诸多挑战，尤其是在保持高探索效率的同时建立可验证的稳定性保证。为应对这些挑战，我们提出基于李雅普诺夫证书的多步演员-评论家学习方法，该方法将指数稳定性与最大熵强化学习无缝集成。相较于依赖复杂奖励工程与单步约束的现有方法，MSACL采用直观的奖励函数并利用多步数据进行演员-评论家学习。具体而言，我们首先引入指数稳定性标签对样本进行分类，并提出基于$λ$加权的聚合机制以学习李雅普诺夫证书。借助这些证书，我们进一步构建稳定性感知的优势函数来指导策略优化，从而确保李雅普诺夫函数的快速下降与状态的鲁棒收敛。我们在包含四个镇定任务与两个高维跟踪任务的六项基准测试中评估MSACL。实验结果表明，该方法在标准强化学习基线及最先进的基于李雅普诺夫的强化学习算法中均表现出持续优越性。除快速收敛外，MSACL对环境不确定性展现出显著鲁棒性，并对未见参考信号具有卓越的泛化能力。源代码与基准测试环境发布于\href{https://github.com/YuanZhe-Xing/MSACL}{https://github.com/YuanZhe-Xing/MSACL}。

0

相关内容

稳定控制

【CMU博士论文】稳定模型与时序差分学习, 97页pdf

【CMU博士论文】稳定模型与时序差分学习, 97页pdf

专知会员服务

31+阅读 · 2023年8月25日

【CMU博士论文】稳定模型与时间差分学习，97页pdf

【CMU博士论文】稳定模型与时间差分学习，97页pdf

专知会员服务

24+阅读 · 2023年6月17日

德国蒂宾根大学最新《半监督和无监督深度视觉学习》综述，22页pdf涵盖322篇文献阐述SSL与UL分类

德国蒂宾根大学最新《半监督和无监督深度视觉学习》综述，22页pdf涵盖322篇文献阐述SSL与UL分类

专知会员服务

38+阅读 · 2022年8月26日

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

专知会员服务

39+阅读 · 2022年2月17日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

超越MoCo/SimCLR！华人博士提出PCL：无监督学习技术新前沿

超越MoCo/SimCLR！华人博士提出PCL：无监督学习技术新前沿

CVer

17+阅读 · 2020年5月18日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知

10+阅读 · 2019年9月27日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

随机多尺度系统的亚稳态理论

国家自然科学基金

0+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于离散化Lyapunov-Krasovskii泛函方法的时滞Markov跳变系统分析与综合

国家自然科学基金

0+阅读 · 2015年12月31日

非线性系统输入状态稳定性分析与设计的不定向量Lyapunov函数导数方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

Lyapunov Stability of Stochastic Vector Optimization: Theory and Numerical Implementation

Arxiv

0+阅读 · 3月4日

Effective Reinforcement Learning Control using Conservative Soft Actor-Critic

Arxiv

0+阅读 · 2月24日

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Arxiv

0+阅读 · 2月23日

SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer

Arxiv

0+阅读 · 2月19日

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Arxiv

0+阅读 · 2月19日

Functional Critics Are Essential for Actor-Critic: From Off-Policy Stability to Efficient Exploration

Arxiv

0+阅读 · 2月8日

Lyapunov Constrained Soft Actor-Critic (LC-SAC) using Koopman Operator Theory for Quadrotor Trajectory Tracking

Arxiv

0+阅读 · 2月6日

Formal Synthesis of Certifiably Robust Neural Lyapunov-Barrier Certificates

Arxiv

0+阅读 · 2月5日

Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision

Arxiv

0+阅读 · 2月4日

CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

指数稳定性

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

6+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

7+阅读 · 6月16日

相关VIP内容

【CMU博士论文】稳定模型与时序差分学习, 97页pdf

【CMU博士论文】稳定模型与时序差分学习, 97页pdf

专知会员服务

31+阅读 · 2023年8月25日

【CMU博士论文】稳定模型与时间差分学习，97页pdf

【CMU博士论文】稳定模型与时间差分学习，97页pdf

专知会员服务

24+阅读 · 2023年6月17日

德国蒂宾根大学最新《半监督和无监督深度视觉学习》综述，22页pdf涵盖322篇文献阐述SSL与UL分类

德国蒂宾根大学最新《半监督和无监督深度视觉学习》综述，22页pdf涵盖322篇文献阐述SSL与UL分类

专知会员服务

38+阅读 · 2022年8月26日

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

南大发布首篇《健壮深度半监督学习》综述论文，全面阐述现有RDSSL技术体系与进展

专知会员服务

39+阅读 · 2022年2月17日

【NeurIPS 2020】耶鲁大学等提出「AdaBelief」的新型优化器，速度快，训练稳，泛化强

专知会员服务

18+阅读 · 2020年10月19日

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

最新《模仿学习 - Imitation Learning》教程，63页ppt，微软Kamil Ciosek

专知会员服务

67+阅读 · 2020年8月22日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

【CMU-Google-斯坦福】可控行为的弱监督强化学习，Weakly-Supervised RL

专知会员服务

22+阅读 · 2020年4月8日

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

【强化学习研讨会|Microsoft Research】多智能体强化学习 Scalable and Robust Multi-Agent Reinforcement Learning，46页pdf，美国东北大学|Christopher Amato

专知会员服务

26+阅读 · 2019年10月3日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

超越MoCo/SimCLR！华人博士提出PCL：无监督学习技术新前沿

超越MoCo/SimCLR！华人博士提出PCL：无监督学习技术新前沿

CVer

17+阅读 · 2020年5月18日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知

10+阅读 · 2019年9月27日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习/增强学习/再励学习介绍

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

相关论文

Lyapunov Stability of Stochastic Vector Optimization: Theory and Numerical Implementation

Arxiv

0+阅读 · 3月4日

Effective Reinforcement Learning Control using Conservative Soft Actor-Critic

Arxiv

0+阅读 · 2月24日

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Arxiv

0+阅读 · 2月23日

SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer

Arxiv

0+阅读 · 2月19日

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Arxiv

0+阅读 · 2月19日

Functional Critics Are Essential for Actor-Critic: From Off-Policy Stability to Efficient Exploration

Arxiv

0+阅读 · 2月8日

Lyapunov Constrained Soft Actor-Critic (LC-SAC) using Koopman Operator Theory for Quadrotor Trajectory Tracking

Arxiv

0+阅读 · 2月6日

Formal Synthesis of Certifiably Robust Neural Lyapunov-Barrier Certificates

Arxiv

0+阅读 · 2月5日

Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision

Arxiv

0+阅读 · 2月4日

CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning

Arxiv

0+阅读 · 1月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

随机多尺度系统的亚稳态理论

国家自然科学基金

0+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于离散化Lyapunov-Krasovskii泛函方法的时滞Markov跳变系统分析与综合

国家自然科学基金

0+阅读 · 2015年12月31日

非线性系统输入状态稳定性分析与设计的不定向量Lyapunov函数导数方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员