Computing the Exact Pareto Front in Average-Cost Multi-Objective Markov Decision Processes - 专知论文

会员服务 ·

0

帕累托前沿 · 代价 · 多目标 · 马尔可夫决策过程 · 控制问题 ·

Computing the Exact Pareto Front in Average-Cost Multi-Objective Markov Decision Processes

翻译：平均代价多目标马尔可夫决策过程中精确帕累托前沿的计算

Jiping Luo,Nikolaos Pappas

Many communication and control problems are cast as multi-objective Markov decision processes (MOMDPs). The complete solution to an MOMDP is the Pareto front. Much of the literature approximates this front via scalarization into single-objective MDPs. Recent work has begun to characterize the full front in discounted or simple bi-objective settings by exploiting its geometry. In this work, we characterize the exact front in average-cost MOMDPs. We show that the front is a continuous, piecewise-linear surface lying on the boundary of a convex polytope. Each vertex corresponds to a deterministic policy, and adjacent vertices differ in exactly one state. Each edge is realized as a convex combination of the policies at its endpoints, with the mixing coefficient given in closed form. We apply these results to a remote state estimation problem, where each vertex on the front corresponds to a threshold policy. The exact Pareto front and solutions to certain non-convex MDPs can be obtained without explicitly solving any MDP.

翻译：许多通信与控制问题可归结为多目标马尔可夫决策过程（MOMDPs）。MOMDP的完整解即为帕累托前沿。现有文献多通过标量化方法将其转化为单目标MDP进行近似求解。近期研究开始利用前沿几何特性，在折扣或简单双目标场景中刻画完整前沿。本文针对平均代价MOMDP，首次刻画其精确前沿。研究表明：该前沿为位于凸多面体边界上的连续分段线性曲面，每个顶点对应一个确定性策略，相邻顶点仅在一个状态上存在差异；每条边可通过端点策略的凸组合实现，且混合系数具有闭式解。我们将这些结论应用于远程状态估计问题，其中前沿上的每个顶点对应一个阈值策略。在不显式求解任何MDP的情况下，即可获得精确帕累托前沿及某些非凸MDP的解。

0

相关内容

帕累托前沿

帕累托前沿

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

专知会员服务

35+阅读 · 2024年6月15日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知会员服务

204+阅读 · 2023年4月11日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

27+阅读 · 2022年10月18日

浙大最新《多目标跟踪MOT嵌入》方法研究进展综述，20页pdf涵盖314篇综述文献阐述最新方法与数据集

浙大最新《多目标跟踪MOT嵌入》方法研究进展综述，20页pdf涵盖314篇综述文献阐述最新方法与数据集

专知会员服务

24+阅读 · 2022年5月31日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

66+阅读 · 2022年3月22日

【AI+兵棋推演】60页paper速读：美国空军兵棋推演多物网络行动路线自动分析方法，The wargame commodity course of action automated analysis method

【AI+兵棋推演】60页paper速读：美国空军兵棋推演多物网络行动路线自动分析方法，The wargame commodity course of action automated analysis method

专知会员服务

93+阅读 · 2022年3月18日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

深度学习视频中多目标跟踪：论文综述

深度学习视频中多目标跟踪：论文综述

专知会员服务

94+阅读 · 2019年10月13日

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知

114+阅读 · 2023年4月12日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

基于统计信息集的非高斯系统多目标优化控制及性能评估策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机偏微分方程多辛几何算法及不确定性量化

国家自然科学基金

0+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逐段决定马氏过程的测度值生成元与可加泛函

国家自然科学基金

0+阅读 · 2014年12月31日

排序管理的帕累托优化问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微分代数方程中的误差可控计算理论与算法

国家自然科学基金

0+阅读 · 2014年12月31日

On the Complexity of Robust Markov Decision Processes and Bisimulation Metrics

Arxiv

0+阅读 · 4月29日

Policy Testing in Markov Decision Processes

Arxiv

0+阅读 · 4月20日

Multi-agent Reach-avoid MDP via Potential Games and Low-rank Policy Structure

Arxiv

0+阅读 · 4月9日

Approximating Pareto Frontiers in Stochastic Multi-Objective Optimization via Hashing and Randomization

Arxiv

0+阅读 · 4月1日

A Novel Immune Algorithm for Multiparty Multiobjective Optimization

Arxiv

0+阅读 · 3月29日

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Arxiv

0+阅读 · 3月24日

Multi-Step First: A Lightweight Deep Reinforcement Learning Strategy for Robust Continuous Control with Partial Observability

Arxiv

0+阅读 · 3月21日

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

Analysis of approximate linear programming solution to Markov decision problem with log barrier function

Arxiv

0+阅读 · 2月23日

Policy Gradient Algorithms in Average-Reward Multichain MDPs

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

帕累托前沿

马尔可夫决策过程

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

5+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

2+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

13+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

12+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

专知会员服务

35+阅读 · 2024年6月15日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知会员服务

204+阅读 · 2023年4月11日

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

《分布式部分可观察马尔科夫决策过程中机器智能体的分解信念》美国空军技术学院2022最新论文

专知会员服务

27+阅读 · 2022年10月18日

浙大最新《多目标跟踪MOT嵌入》方法研究进展综述，20页pdf涵盖314篇综述文献阐述最新方法与数据集

浙大最新《多目标跟踪MOT嵌入》方法研究进展综述，20页pdf涵盖314篇综述文献阐述最新方法与数据集

专知会员服务

24+阅读 · 2022年5月31日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

66+阅读 · 2022年3月22日

【AI+兵棋推演】60页paper速读：美国空军兵棋推演多物网络行动路线自动分析方法，The wargame commodity course of action automated analysis method

【AI+兵棋推演】60页paper速读：美国空军兵棋推演多物网络行动路线自动分析方法，The wargame commodity course of action automated analysis method

专知会员服务

93+阅读 · 2022年3月18日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

【目标跟踪 | 2019最新综述】多目标追踪综述，附38页PDF，185篇参考文献，Deep Learning in Video Multi-Object Tracking: A Survey

专知会员服务

93+阅读 · 2019年11月15日

深度学习视频中多目标跟踪：论文综述

深度学习视频中多目标跟踪：论文综述

专知会员服务

94+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

《多域作战环境下的军事决策过程》

《多域作战环境下的军事决策过程》

专知

114+阅读 · 2023年4月12日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

淘宝 at KDD 2020，提出M2GRL优化大规模推荐中的多任务多视角图表示学习

AINLP

23+阅读 · 2020年6月16日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【综述】深度学习在视频多目标跟踪上的应用

【综述】深度学习在视频多目标跟踪上的应用

专知

14+阅读 · 2019年8月8日

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉方向简介 | 多目标跟踪算法（附源码）

计算机视觉life

15+阅读 · 2019年6月26日

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

【论文推荐】最新十篇目标跟踪相关论文—多帧光流跟踪、动态图学习、MV-YOLO、姿态估计、深度核相关滤波、Benchmark

专知

13+阅读 · 2018年5月26日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

【论文推荐】最新5篇目标跟踪（Object Tracking）相关论文—并行跟踪和验证、光流、自动跟踪、相关滤波集成、CFNet

专知

25+阅读 · 2018年2月6日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

相关论文

On the Complexity of Robust Markov Decision Processes and Bisimulation Metrics

Arxiv

0+阅读 · 4月29日

Policy Testing in Markov Decision Processes

Arxiv

0+阅读 · 4月20日

Multi-agent Reach-avoid MDP via Potential Games and Low-rank Policy Structure

Arxiv

0+阅读 · 4月9日

Approximating Pareto Frontiers in Stochastic Multi-Objective Optimization via Hashing and Randomization

Arxiv

0+阅读 · 4月1日

A Novel Immune Algorithm for Multiparty Multiobjective Optimization

Arxiv

0+阅读 · 3月29日

End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Arxiv

0+阅读 · 3月24日

Multi-Step First: A Lightweight Deep Reinforcement Learning Strategy for Robust Continuous Control with Partial Observability

Arxiv

0+阅读 · 3月21日

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

Analysis of approximate linear programming solution to Markov decision problem with log barrier function

Arxiv

0+阅读 · 2月23日

Policy Gradient Algorithms in Average-Reward Multichain MDPs

Arxiv

0+阅读 · 2月20日

相关基金

基于统计信息集的非高斯系统多目标优化控制及性能评估策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

马尔科夫跳跃正系统的稳定分析与控制综合

国家自然科学基金

0+阅读 · 2015年12月31日

基于秩一张量近似的多目标跟踪

国家自然科学基金

0+阅读 · 2015年12月31日

多输入-多输出网络量化系统的分析与综合研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机偏微分方程多辛几何算法及不确定性量化

国家自然科学基金

0+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逐段决定马氏过程的测度值生成元与可加泛函

国家自然科学基金

0+阅读 · 2014年12月31日

排序管理的帕累托优化问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微分代数方程中的误差可控计算理论与算法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员