带终端律约束的在线马尔可夫决策过程 (Online Markov Decision Processes with Terminal Law Constraints) - 专知论文

会员服务 ·

0

周期性 · 损失 · 约束 · 在线 · 马尔可夫决策过程 ·

Online Markov Decision Processes with Terminal Law Constraints

翻译：带终端律约束的在线马尔可夫决策过程

Bianca Marin Moreno,Margaux Brégère,Pierre Gaillard,Nadia Oudjane

Traditional reinforcement learning usually assumes either episodic interactions with resets or continuous operation to minimize average or cumulative loss. While episodic settings have many theoretical results, resets are often unrealistic in practice. The infinite-horizon setting avoids this issue but lacks non-asymptotic guarantees in online scenarios with unknown dynamics. In this work, we move towards closing this gap by introducing a reset-free framework called the periodic framework, where the goal is to find periodic policies: policies that not only minimize cumulative loss but also return the agents to their initial state distribution after a fixed number of steps. We formalize the problem of finding optimal periodic policies and identify sufficient conditions under which it is well-defined for tabular Markov decision processes. To evaluate algorithms in this framework, we introduce the periodic regret, a measure that balances cumulative loss with the terminal law constraint. We then propose the first algorithms for computing periodic policies in two multi-agent settings and show they achieve sublinear periodic regret of order $\tilde O(T^{3/4})$. This provides the first non-asymptotic guarantees for reset-free learning in the setting of $M$ homogeneous agents, for $M > 1$.

翻译：传统强化学习通常假设智能体与环境进行片段式交互（带有重置机制）或持续运行以最小化平均损失或累积损失。虽然片段式设定在理论上已有诸多成果，但重置机制在实践中往往不切实际。无限时域设定避免了这一问题，但在动态未知的在线场景中缺乏非渐近性保证。本研究通过引入一种称为周期性框架的无重置框架来弥合这一差距，其目标是寻找周期性策略：这类策略不仅最小化累积损失，还能在固定步数后将智能体返回到初始状态分布。我们形式化了寻找最优周期性策略的问题，并确定了在表格型马尔可夫决策过程中该问题定义良好的充分条件。为在此框架下评估算法，我们引入了周期性遗憾，这是一种平衡累积损失与终端律约束的度量。随后，我们提出了首个用于计算两种多智能体设定下周期性策略的算法，并证明其实现了阶为 $\tilde O(T^{3/4})$ 的次线性周期性遗憾。这为 $M$ 个同质智能体（$M > 1$）场景下的无重置学习提供了首个非渐近性保证。

0

相关内容

周期性

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

专知会员服务

12+阅读 · 2025年9月4日

【ICML2025】通过在线世界模型规划的持续强化学习

【ICML2025】通过在线世界模型规划的持续强化学习

专知会员服务

20+阅读 · 2025年7月18日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

40+阅读 · 2025年4月21日

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

专知会员服务

42+阅读 · 2023年3月13日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

26+阅读 · 2022年10月18日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

【ICML2021】在线与非随机控制，普林斯顿等教程，82页ppt

专知会员服务

21+阅读 · 2021年7月28日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

新智元

12+阅读 · 2019年3月3日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

【AlphaGo核心技术-教程学习笔记02】深度强化学习第二讲马尔科夫决策过程

【AlphaGo核心技术-教程学习笔记02】深度强化学习第二讲马尔科夫决策过程

专知

10+阅读 · 2017年10月21日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于马尔科夫信道模型的无线网络通信系统时延性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

网络化非线性系统的协调控制及其在分布式可重构航天器中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于受约束部分可观马氏决策模型的稀疏宽带信号感知机制的建模和控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络解析的低压切负荷在线决策方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无线传感器网络中带几何约束的几类组合优化问题的近似算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Dynamic Programming for Epistemic Uncertainty in Markov Decision Processes

Arxiv

0+阅读 · 2月3日

Learning Markov Decision Processes under Fully Bandit Feedback

Arxiv

0+阅读 · 2月2日

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

Arxiv

0+阅读 · 2月2日

Action-Free Offline-to-Online RL via Discretised State Policies

Arxiv

0+阅读 · 1月31日

Offline Goal-Conditioned Reinforcement Learning with Projective Quasimetric Planning

Arxiv

0+阅读 · 1月30日

Geometry of Drifting MDPs with Path-Integral Stability Certificates

Arxiv

0+阅读 · 1月29日

Lifted Forward Planning in Relational Factored Markov Decision Processes with Concurrent Actions

Arxiv

0+阅读 · 1月28日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 1月26日

Stochastic Online Optimization for Cyber-Physical and Robotic Systems

Arxiv

0+阅读 · 1月3日

VIP会员

文章信息

相关主题

马尔可夫决策过程

相关VIP内容

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

【伯克利博士论文】衔接示范与决策：可证明的模仿学习理论与算法

专知会员服务

12+阅读 · 2025年9月4日

【ICML2025】通过在线世界模型规划的持续强化学习

【ICML2025】通过在线世界模型规划的持续强化学习

专知会员服务

20+阅读 · 2025年7月18日

【NTU博士论文】基于协作式多智能体强化学习的决策制定

【NTU博士论文】基于协作式多智能体强化学习的决策制定

专知会员服务

40+阅读 · 2025年4月21日

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

专知会员服务

42+阅读 · 2023年3月13日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

26+阅读 · 2022年10月18日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知会员服务

34+阅读 · 2022年7月27日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

【ICML2021】在线与非随机控制，普林斯顿等教程，82页ppt

专知会员服务

21+阅读 · 2021年7月28日

【ICLR2021】一种基于距离度量学习及行为正则化的完全离线的元强化学习方法

专知会员服务

17+阅读 · 2021年2月9日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型在人类移动性领域的应用：机遇、挑战与未来方向

乌克兰开放真实战场数据以训练国防人工智能

【博士论文】结构化约束下的高效强化学习：从单智能体、多智能体到大语言模型时代

美陆军下一代指挥控制（NGC2）原型系统借助Raft数据平台展示快速决策能力

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

在线元学习：通过持续元学习解决传统机器学习方式的致命不足

新智元

12+阅读 · 2019年3月3日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

【AlphaGo核心技术-教程学习笔记02】深度强化学习第二讲马尔科夫决策过程

【AlphaGo核心技术-教程学习笔记02】深度强化学习第二讲马尔科夫决策过程

专知

10+阅读 · 2017年10月21日

相关论文

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 2月3日

Dynamic Programming for Epistemic Uncertainty in Markov Decision Processes

Arxiv

0+阅读 · 2月3日

Learning Markov Decision Processes under Fully Bandit Feedback

Arxiv

0+阅读 · 2月2日

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

Arxiv

0+阅读 · 2月2日

Action-Free Offline-to-Online RL via Discretised State Policies

Arxiv

0+阅读 · 1月31日

Offline Goal-Conditioned Reinforcement Learning with Projective Quasimetric Planning

Arxiv

0+阅读 · 1月30日

Geometry of Drifting MDPs with Path-Integral Stability Certificates

Arxiv

0+阅读 · 1月29日

Lifted Forward Planning in Relational Factored Markov Decision Processes with Concurrent Actions

Arxiv

0+阅读 · 1月28日

Toward Learning POMDPs Beyond Full-Rank Actions and State Observability

Arxiv

0+阅读 · 1月26日

Stochastic Online Optimization for Cyber-Physical and Robotic Systems

Arxiv

0+阅读 · 1月3日

相关基金

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于马尔科夫信道模型的无线网络通信系统时延性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

网络化非线性系统的协调控制及其在分布式可重构航天器中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于受约束部分可观马氏决策模型的稀疏宽带信号感知机制的建模和控制研究

国家自然科学基金

1+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机约束下非齐次Markov跳变系统控制器设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络解析的低压切负荷在线决策方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无线传感器网络中带几何约束的几类组合优化问题的近似算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员