We study sequential decision-making when the agent's internal model class is misspecified. Within the infinite-horizon Berk-Nash framework, stable behavior arises as a fixed point: the agent acts optimally relative to a subjective model, while that model is statistically consistent with the long-run data endogenously generated by the policy itself. We provide a rigorous characterization of this equilibrium via coupled linear programs and a bilevel optimization formulation. To address the intrinsic non-smoothness of standard best-response correspondences, we introduce entropy regularization, establishing the existence of a unique soft Bellman fixed point and a smooth objective. Exploiting this regularity, we develop an online learning scheme that casts model selection as an adversarial bandit problem using an EXP3-type update, augmented by a novel conjecture-set zooming mechanism that adaptively refines the parameter space. Numerical results demonstrate effective exploration-exploitation trade-offs, convergence to the KL-minimizing model, and sublinear regret.


翻译:本文研究智能体内部模型类别设定错误时的序贯决策问题。在无限期Berk-Nash框架下,稳定行为作为不动点出现:智能体相对于主观模型采取最优行动,而该模型在统计上与策略本身内生生成的长期数据保持一致。我们通过耦合线性规划与双层优化公式对此均衡进行了严格刻画。为解决标准最优反应对应关系固有的非光滑性问题,我们引入熵正则化方法,证明了唯一软贝尔曼不动点的存在性并获得光滑目标函数。利用此正则性,我们提出一种在线学习方案,将模型选择建模为使用EXP3型更新的对抗性赌博机问题,并辅以新颖的猜想集缩放机制来自适应细化参数空间。数值结果展示了有效的探索-利用权衡、向KL最小化模型的收敛性以及次线性遗憾界。

0
下载
关闭预览

相关内容

《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
36+阅读 · 2025年5月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
新兴反无人机技术与不对称防御对策
专知会员服务
3+阅读 · 今天15:12
《美空军条令出版物 3-60,目标定位(2026版)》
专知会员服务
4+阅读 · 今天15:06
《无人机在冲突地区提供紧急医疗与外科支持》
专知会员服务
4+阅读 · 今天14:48
《定向能武器交战授权治理管道》
专知会员服务
4+阅读 · 今天14:41
《人工智能与海军作战》最新报告
专知会员服务
4+阅读 · 今天14:00
具身AI安全综述:风险、攻击与防御
专知会员服务
3+阅读 · 今天12:02
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
13+阅读 · 5月5日
相关VIP内容
《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
36+阅读 · 2025年5月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员