Minimax Optimal Variance-Aware Regret Bounds for Multinomial Logistic MDPs - 专知论文

会员服务 ·

0

优化器 · Minimax · MoDELS · Learning · Markov ·

Minimax Optimal Variance-Aware Regret Bounds for Multinomial Logistic MDPs

翻译：多项式逻辑斯蒂MDP的最小最大最优方差感知遗憾界

Pierre Boudart,Pierre Gaillard,Alessandro Rudi

We study reinforcement learning for episodic Markov Decision Processes (MDPs) whose transitions are modelled by a multinomial logistic (MNL) model. Existing algorithms for MNL mixture MDPs yield a regret of $\smash{\tilde{O}(dH^2\sqrt{T})}$ (Li et al., 2024), where $d$ is the feature dimension, $H$ the episode length, and $T$ the number of episodes. Inspired by the logistic bandit literature (Abeille et al., 2021; Faury et al., 2022; Boudart et al., 2026), we introduce a problem-dependent constant $\barσ\_T \leq 1/2$, measuring the normalised average variance of the optimal downstream value function along the learner's trajectory. We propose an algorithm achieving a regret of $\smash{\tilde{O}(dH^2\barσ\_T\sqrt{T})}$, which recovers the existing bound in the worst case and improves upon it for structured MDPs. For instance, for KL-constrained robust MDPs, $\barσ\_T = O(H^{-1})$, reducing the horizon dependence by a factor $H$. We further establish a matching $\smash{Ω(dH^2\barσ\_T\sqrt{T})}$ lower bound, proving minimax optimality (up to logarithmic factors) and fully characterising the regret complexity of MNL mixture MDPs for the first time.

翻译：我们研究具有多项式逻辑斯蒂（MNL）模型建模的状态转移的回合制马尔可夫决策过程（MDPs）。现有针对MNL混合MDP的算法可达到$\smash{\tilde{O}(dH^2\sqrt{T})}$的遗憾（Li等，2024），其中$d$为特征维度，$H$为回合长度，$T$为回合数。受逻辑斯蒂老虎机文献（Abeille等，2021；Faury等，2022；Boudart等，2026）启发，我们引入一个依赖于问题的常数$\barσ\_T \leq 1/2$，用于度量最优下游价值函数沿学习者轨迹的归一化平均方差。我们提出一种算法，其遗憾界为$\smash{\tilde{O}(dH^2\barσ\_T\sqrt{T})}$，在最坏情况下可恢复现有界，而对结构化MDP则有改进。例如，对KL约束鲁棒MDP，$\barσ\_T = O(H^{-1})$，可将序列依赖因子降低$H$倍。我们进一步证明匹配的下界$\smash{Ω(dH^2\barσ\_T\sqrt{T})}$，首次证明MNL混合MDP的最小最大最优性（忽略对数因子），并完全刻画其遗憾复杂度。

0

相关内容

优化器

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

27+阅读 · 2025年5月16日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

56+阅读 · 2022年11月2日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

专知会员服务

22+阅读 · 2021年1月21日

【ICLR2020】利用图神经网络进行高效概率逻辑推理，Efficient Probabilistic Logic Reasoning with Graph Neural Networks

【ICLR2020】利用图神经网络进行高效概率逻辑推理，Efficient Probabilistic Logic Reasoning with Graph Neural Networks

专知会员服务

113+阅读 · 2020年1月29日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能学家

29+阅读 · 2019年1月19日

【干货】机器学习中的五种回归模型及其优缺点

【干货】机器学习中的五种回归模型及其优缺点

专知

21+阅读 · 2018年3月29日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

M-矩阵（张量）最小特征值估计及其相关问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

Lyapunov-Based Sample Complexity Analysis for Weakly-Coupled MDPs

Arxiv

0+阅读 · 6月12日

Efficient Multinomial Logistic Bandit via Frequent Directions

Arxiv

0+阅读 · 6月10日

Bayesian learning for the stochastic shortest path problem

Arxiv

0+阅读 · 6月3日

Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs

Arxiv

0+阅读 · 6月2日

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

Arxiv

0+阅读 · 6月2日

Minimax Optimal Strategy for Delayed Observations in Online Reinforcement Learning

Arxiv

0+阅读 · 6月2日

Variance-Adaptive Optimal Algorithm for Reinforcement Learning with Multinomial Logit Function Approximation

Arxiv

0+阅读 · 5月27日

Fast Computation of Conditional Probabilities in MDPs and Markov Chain Families

Arxiv

0+阅读 · 5月13日

Reinforcement Learning for Exponential Utility: Algorithms and Convergence in Discounted MDPs

Arxiv

0+阅读 · 5月8日

On the Complexity of Discounted Robust MDPs with $L_p$ Uncertainty Sets

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

1+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

1+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

2+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

2+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

3+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

《面向遥感的多模态小语言模型——引入思维链推理与GRPO技术》

专知会员服务

27+阅读 · 2025年5月16日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

56+阅读 · 2022年11月2日

【ICCV2021】无需检测器提取特征！LeCun团队提出MDETR：实现真正的端到端多模态推理

专知会员服务

19+阅读 · 2021年7月29日

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

《深度潜变量模型的编码视角》博士论文，154页pdf阐述深度潜变量模型(DLVM)中的统计推理与编码的关系

专知会员服务

22+阅读 · 2021年1月21日

【ICLR2020】利用图神经网络进行高效概率逻辑推理，Efficient Probabilistic Logic Reasoning with Graph Neural Networks

【ICLR2020】利用图神经网络进行高效概率逻辑推理，Efficient Probabilistic Logic Reasoning with Graph Neural Networks

专知会员服务

113+阅读 · 2020年1月29日

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

【论文|CMU】用于多模序列学习的因数分解多模态变压器，Factorized Multimodal Transformer for Multimodal Sequential Learning

专知会员服务

23+阅读 · 2019年11月26日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能顶刊TPAMI2019最新《多模态机器学习综述》

人工智能学家

29+阅读 · 2019年1月19日

【干货】机器学习中的五种回归模型及其优缺点

【干货】机器学习中的五种回归模型及其优缺点

专知

21+阅读 · 2018年3月29日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

Lyapunov-Based Sample Complexity Analysis for Weakly-Coupled MDPs

Arxiv

0+阅读 · 6月12日

Efficient Multinomial Logistic Bandit via Frequent Directions

Arxiv

0+阅读 · 6月10日

Bayesian learning for the stochastic shortest path problem

Arxiv

0+阅读 · 6月3日

Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs

Arxiv

0+阅读 · 6月2日

Data- and Variance-dependent Regret Bounds for Online Tabular MDPs

Arxiv

0+阅读 · 6月2日

Minimax Optimal Strategy for Delayed Observations in Online Reinforcement Learning

Arxiv

0+阅读 · 6月2日

Variance-Adaptive Optimal Algorithm for Reinforcement Learning with Multinomial Logit Function Approximation

Arxiv

0+阅读 · 5月27日

Fast Computation of Conditional Probabilities in MDPs and Markov Chain Families

Arxiv

0+阅读 · 5月13日

Reinforcement Learning for Exponential Utility: Algorithms and Convergence in Discounted MDPs

Arxiv

0+阅读 · 5月8日

On the Complexity of Discounted Robust MDPs with $L_p$ Uncertainty Sets

Arxiv

0+阅读 · 5月8日

相关基金

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

M-矩阵（张量）最小特征值估计及其相关问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

有限范围随机最优控制系统的数值方法与均场倒向随机系统的最优控制问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

随机动态系统的风险分析及其最优控制问题

国家自然科学基金

1+阅读 · 2014年12月31日

基于形态改变的多体空间系统动力学建模、运动规划与最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

多项式优化的最优性条件与最优化算法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员