Optimistic Actor-Critic with Parametric Policies for Linear Markov Decision Processes - 专知论文

会员服务 ·

0

Optimistic Actor-Critic with Parametric Policies for Linear Markov Decision Processes

翻译：乐观参数化策略的Actor-Critic方法在线性马尔可夫决策过程中的应用

Max Qiushi Lin,Reza Asad,Kevin Tan,Haque Ishfaq,Csaba Szepesvari,Sharan Vaswani

Although actor-critic methods have been successful in practice, their theoretical analyses have several limitations. Specifically, existing theoretical work either sidesteps the exploration problem by making strong assumptions or analyzes impractical methods with complicated algorithmic modifications. Moreover, the actor-critic methods analyzed for linear MDPs often employ natural policy gradient (NPG) and construct "implicit" policies without explicit parameterization. Such policies are computationally expensive to sample from, making the environment interactions inefficient. To that end, we focus on the finite-horizon linear MDPs and propose an optimistic actor-critic framework that uses parametric log-linear policies. In particular, we introduce a tractable \textit{logit-matching} regression objective for the actor. For the critic, we use approximate Thompson sampling via Langevin Monte Carlo to obtain optimistic value estimates. We prove that the resulting algorithm achieves $\widetilde{\mathcal{O}}(ε^{-4})$ and $\widetilde{\mathcal{O}}(ε^{-2})$ sample complexity in the on-policy and off-policy setting, respectively. Our results match prior theoretical works in achieving the state-of-the-art sample complexity, while our algorithm is more aligned with practice.

翻译：尽管Actor-Critic方法在实践中取得了成功，其理论分析仍存在若干局限性。具体而言，现有理论工作要么通过强假设规避探索问题，要么分析带有复杂算法修改的不可行方法。此外，针对线性MDPs的Actor-Critic方法常采用自然策略梯度（NPG）并构造不含显式参数化的"隐式"策略。此类策略的采样计算成本高昂，导致环境交互效率低下。为此，我们聚焦于有限时域线性MDPs，提出一种使用参数化对数线性策略的乐观Actor-Critic框架。具体地，我们为Actor引入了一个易于处理的\textit{logit匹配}回归目标函数。对于Critic，我们通过Langevin蒙特卡洛近似Thompson采样以获得乐观价值估计。我们证明，在在线策略和离线策略设置下，所提算法分别达到$\widetilde{\mathcal{O}}(ε^{-4})$和$\widetilde{\mathcal{O}}(ε^{-2})$样本复杂度。该结果与先前理论工作在实现最先进样本复杂度方面保持一致，同时我们的算法更贴合实际应用。

0

相关内容

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

专知会员服务

18+阅读 · 3月30日

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

专知会员服务

27+阅读 · 2025年12月9日

《人工智能辅助决策中的数据可视化：系统性综述》

《人工智能辅助决策中的数据可视化：系统性综述》

专知会员服务

28+阅读 · 2025年8月22日

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

专知会员服务

22+阅读 · 2025年2月25日

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

专知会员服务

20+阅读 · 2025年2月24日

《通过可视化促进对AI智能体兵棋推演决策的理解》最新报告

《通过可视化促进对AI智能体兵棋推演决策的理解》最新报告

专知会员服务

56+阅读 · 2024年10月17日

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

专知会员服务

43+阅读 · 2023年3月13日

推荐！《提高军事行动方案（COA）效能的智能兵棋推演方法》2023最新论文

推荐！《提高军事行动方案（COA）效能的智能兵棋推演方法》2023最新论文

专知会员服务

160+阅读 · 2023年3月8日

【ICML2022】序列决策的效用理论

【ICML2022】序列决策的效用理论

专知会员服务

16+阅读 · 2022年6月30日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

28+阅读 · 2022年7月5日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

核电厂数字化主控室操纵员作业行为动态可靠性分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于后悔理论的多属性决策方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

43+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

Arxiv

0+阅读 · 4月30日

GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision for Effective Reasoning

Arxiv

0+阅读 · 4月22日

Policy Testing in Markov Decision Processes

Arxiv

0+阅读 · 4月20日

Optimistic Actor-Critic with Parametric Policies for Linear Markov Decision Processes

Arxiv

0+阅读 · 4月1日

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Arxiv

0+阅读 · 4月1日

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Arxiv

0+阅读 · 3月24日

Optimistically Optimistic Exploration for Provably Efficient Infinite-Horizon Reinforcement and Imitation Learning

Arxiv

0+阅读 · 3月13日

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

Arxiv

0+阅读 · 3月9日

Analysis of approximate linear programming solution to Markov decision problem with log barrier function

Arxiv

0+阅读 · 2月23日

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

6+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

专知会员服务

18+阅读 · 3月30日

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

《自适应鲁棒马尔可夫决策过程：协同作战飞机（CCA）对抗性监视任务应用》44页技术报告

专知会员服务

27+阅读 · 2025年12月9日

《人工智能辅助决策中的数据可视化：系统性综述》

《人工智能辅助决策中的数据可视化：系统性综述》

专知会员服务

28+阅读 · 2025年8月22日

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

专知会员服务

22+阅读 · 2025年2月25日

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用

专知会员服务

20+阅读 · 2025年2月24日

《通过可视化促进对AI智能体兵棋推演决策的理解》最新报告

《通过可视化促进对AI智能体兵棋推演决策的理解》最新报告

专知会员服务

56+阅读 · 2024年10月17日

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

专知会员服务

43+阅读 · 2023年3月13日

推荐！《提高军事行动方案（COA）效能的智能兵棋推演方法》2023最新论文

推荐！《提高军事行动方案（COA）效能的智能兵棋推演方法》2023最新论文

专知会员服务

160+阅读 · 2023年3月8日

【ICML2022】序列决策的效用理论

【ICML2022】序列决策的效用理论

专知会员服务

16+阅读 · 2022年6月30日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

28+阅读 · 2022年7月5日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

【干货书】深度不确定性条件下的决策:理论到实践，408页pdf

专知

17+阅读 · 2021年1月18日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

20+阅读 · 2020年8月11日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

相关论文

Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

Arxiv

0+阅读 · 4月30日

GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision for Effective Reasoning

Arxiv

0+阅读 · 4月22日

Policy Testing in Markov Decision Processes

Arxiv

0+阅读 · 4月20日

Optimistic Actor-Critic with Parametric Policies for Linear Markov Decision Processes

Arxiv

0+阅读 · 4月1日

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Arxiv

0+阅读 · 4月1日

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Arxiv

0+阅读 · 3月24日

Optimistically Optimistic Exploration for Provably Efficient Infinite-Horizon Reinforcement and Imitation Learning

Arxiv

0+阅读 · 3月13日

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

Arxiv

0+阅读 · 3月9日

Analysis of approximate linear programming solution to Markov decision problem with log barrier function

Arxiv

0+阅读 · 2月23日

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Arxiv

0+阅读 · 2月20日

相关基金

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

核电厂数字化主控室操纵员作业行为动态可靠性分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于后悔理论的多属性决策方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非线性分析方法与奇异摄动理论在力学中的若干应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向复杂情报的大数据分析方法与决策支持

国家自然科学基金

43+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

动态环境下决策单元效率评价方法与应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员