A Mathematical Programming Approach to Computing and Learning Berk--Nash Equilibria in Infinite-Horizon MDPs - 专知论文

会员服务 ·

0

无限 · 均衡 · Nash均衡 · 最优 · 马尔可夫决策过程 ·

A Mathematical Programming Approach to Computing and Learning Berk--Nash Equilibria in Infinite-Horizon MDPs

翻译：无限期马尔可夫决策过程中计算与学习Berk-Nash均衡的数学规划方法

Quanyan Zhu,Zhengye Han

from arxiv, Accepted to the 15th EAI International Conference on Game Theory for Networks (GameNets 2026)

We study sequential decision-making when the agent's internal model class is misspecified. Within the infinite-horizon Berk-Nash framework, stable behavior arises as a fixed point: the agent acts optimally relative to a subjective model, while that model is statistically consistent with the long-run data endogenously generated by the policy itself. We provide a rigorous characterization of this equilibrium via coupled linear programs and a bilevel optimization formulation. To address the intrinsic non-smoothness of standard best-response correspondences, we introduce entropy regularization, establishing the existence of a unique soft Bellman fixed point and a smooth objective. Exploiting this regularity, we develop an online learning scheme that casts model selection as an adversarial bandit problem using an EXP3-type update, augmented by a novel conjecture-set zooming mechanism that adaptively refines the parameter space. Numerical results demonstrate effective exploration-exploitation trade-offs, convergence to the KL-minimizing model, and sublinear regret.

翻译：本文研究智能体内部模型类别设定错误时的序贯决策问题。在无限期Berk-Nash框架下，稳定行为作为不动点出现：智能体相对于主观模型采取最优行动，而该模型在统计上与策略本身内生生成的长期数据保持一致。我们通过耦合线性规划与双层优化公式对此均衡进行了严格刻画。为解决标准最优反应对应关系固有的非光滑性问题，我们引入熵正则化方法，证明了唯一软贝尔曼不动点的存在性并获得光滑目标函数。利用此正则性，我们提出一种在线学习方案，将模型选择建模为使用EXP3型更新的对抗性赌博机问题，并辅以新颖的猜想集缩放机制来自适应细化参数空间。数值结果展示了有效的探索-利用权衡、向KL最小化模型的收敛性以及次线性遗憾界。

0

相关内容

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

专知会员服务

17+阅读 · 2月14日

《战略智能体与有限反馈下的序贯决策》211页

《战略智能体与有限反馈下的序贯决策》211页

专知会员服务

36+阅读 · 2025年5月7日

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

专知会员服务

34+阅读 · 2024年1月18日

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

专知会员服务

38+阅读 · 2023年10月8日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

【2023新书】不确定性决策与强化学习:理论与算法，251页pdf

【2023新书】不确定性决策与强化学习:理论与算法，251页pdf

专知会员服务

121+阅读 · 2023年6月1日

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

专知会员服务

42+阅读 · 2023年3月13日

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

专知会员服务

140+阅读 · 2022年5月17日

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

专知会员服务

24+阅读 · 2022年4月10日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

22+阅读 · 2020年1月15日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

11+阅读 · 2022年4月10日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知

30+阅读 · 2019年1月2日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

经济学中均衡的计算及其在排序机制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

求解非凸随机二阶锥优化问题的无导数方法研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

随机广义纳什均衡问题的研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

关于二阶锥互补约束数学规划问题的约束规范和算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

若干广义Nash均衡问题的非线性分析方法和应用

国家自然科学基金

0+阅读 · 2014年12月31日

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Arxiv

0+阅读 · 3月17日

Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models

Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models

Arxiv

0+阅读 · 3月17日

Learning generalized Nash equilibria from pairwise preferences

Arxiv

0+阅读 · 3月17日

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

Bilevel Planning with Learned Symbolic Abstractions from Interaction Data

Arxiv

0+阅读 · 3月9日

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

Arxiv

0+阅读 · 3月9日

NashOpt -- A Python Library for Computing Generalized Nash Equilibria

Arxiv

0+阅读 · 3月7日

Sink equilibria and the attractors of learning in games

Arxiv

0+阅读 · 3月4日

Proving and Computing: The Infinite Pigeonhole Principle and Countable Choice

Arxiv

0+阅读 · 3月4日

Computing Perfect Bayesian Equilibria, with Application to Empirical Game-Theoretic Analysis

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

马尔可夫决策过程

最新内容

新兴反无人机技术与不对称防御对策

新兴反无人机技术与不对称防御对策

专知会员服务

3+阅读 · 今天15:12

《美空军条令出版物 3-60，目标定位（2026版）》

《美空军条令出版物 3-60，目标定位（2026版）》

专知会员服务

4+阅读 · 今天15:06

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

专知会员服务

6+阅读 · 今天14:54

《无人机在冲突地区提供紧急医疗与外科支持》

《无人机在冲突地区提供紧急医疗与外科支持》

专知会员服务

4+阅读 · 今天14:48

《定向能武器交战授权治理管道》

《定向能武器交战授权治理管道》

专知会员服务

4+阅读 · 今天14:41

《防空协同制导：用于中段目标分配的多目标成本函数》

《防空协同制导：用于中段目标分配的多目标成本函数》

专知会员服务

4+阅读 · 今天14:35

《人工智能与海军作战》最新报告

《人工智能与海军作战》最新报告

专知会员服务

4+阅读 · 今天14:00

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

人工智能专题：中国人工智能系列白皮书-具身智能(2026)，100页pdf

专知会员服务

2+阅读 · 今天13:17

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

【ICML spotlight 2026】HELIX：通过可学习特征身份嵌入实现时间序列插补的混合编码框架

专知会员服务

2+阅读 · 今天13:07

具身智能安全综述：风险、攻击与防御的多层分类框架

具身智能安全综述：风险、攻击与防御的多层分类框架

专知会员服务

3+阅读 · 今天13:04

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

【ICML 2026】GLANCE：用视觉-语言好奇心驱动VLM智能体主动探索

专知会员服务

3+阅读 · 今天12:09

具身AI安全综述：风险、攻击与防御

具身AI安全综述：风险、攻击与防御

专知会员服务

3+阅读 · 今天12:02

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

13+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

6+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

8+阅读 · 5月5日

相关VIP内容

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

专知会员服务

17+阅读 · 2月14日

《战略智能体与有限反馈下的序贯决策》211页

《战略智能体与有限反馈下的序贯决策》211页

专知会员服务

36+阅读 · 2025年5月7日

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

【斯坦福博士论文】基于理解和采用理性行为的数据驱动序列决策，193页pdf

专知会员服务

34+阅读 · 2024年1月18日

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

【斯坦福大学博士论文】基于数据的序列决策制定，通过理解并采纳理性行为，193页pdf

专知会员服务

38+阅读 · 2023年10月8日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

【2023新书】不确定性决策与强化学习:理论与算法，251页pdf

【2023新书】不确定性决策与强化学习:理论与算法，251页pdf

专知会员服务

121+阅读 · 2023年6月1日

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

《多智能体马尔可夫决策过程：问题和算法的分类》47页长综述

专知会员服务

42+阅读 · 2023年3月13日

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

专知会员服务

140+阅读 · 2022年5月17日

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

专知会员服务

24+阅读 · 2022年4月10日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

22+阅读 · 2020年1月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《美空军条令出版物 3-60，目标定位（2026版）》

《无人机在冲突地区提供紧急医疗与外科支持》

新兴反无人机技术与不对称防御对策

多模态多智能体AI系统赋能军事态势感知：与单智能体方法的比较研究

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

11+阅读 · 2022年4月10日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知

30+阅读 · 2019年1月2日

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

【干货】终极入门马尔可夫网络 (Markov Networks)——概率图模型

机器学习研究会

31+阅读 · 2018年1月7日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

相关论文

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Learning, Misspecification, and Cognitive Arbitrage in Linear-Quadratic Network Games

Arxiv

0+阅读 · 3月17日

Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models

Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models

Arxiv

0+阅读 · 3月17日

Learning generalized Nash equilibria from pairwise preferences

Arxiv

0+阅读 · 3月17日

Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values

Arxiv

0+阅读 · 3月10日

Bilevel Planning with Learned Symbolic Abstractions from Interaction Data

Arxiv

0+阅读 · 3月9日

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

Arxiv

0+阅读 · 3月9日

NashOpt -- A Python Library for Computing Generalized Nash Equilibria

Arxiv

0+阅读 · 3月7日

Sink equilibria and the attractors of learning in games

Arxiv

0+阅读 · 3月4日

Proving and Computing: The Infinite Pigeonhole Principle and Countable Choice

Arxiv

0+阅读 · 3月4日

Computing Perfect Bayesian Equilibria, with Application to Empirical Game-Theoretic Analysis

Arxiv

0+阅读 · 2月20日

相关基金

经济学中均衡的计算及其在排序机制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

求解非凸随机二阶锥优化问题的无导数方法研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

一类大规模实对称锥规划算法

国家自然科学基金

0+阅读 · 2015年12月31日

随机广义纳什均衡问题的研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

基于马尔科夫链的线性系统求解问题的高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

关于二阶锥互补约束数学规划问题的约束规范和算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

若干广义Nash均衡问题的非线性分析方法和应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员