We study inverse reinforcement learning for discrete-time, infinite-horizon mean-field games (MFGs) under an average-reward criterion. Expert demonstrations are assumed to arise from a stationary mean-field equilibrium under an unknown reward, and the goal is to recover a policy explaining the observed behaviour via the maximum causal entropy principle. We formulate the inverse problem by enforcing consistency with the expert mean-field term and long-run feature expectations, treating two reward classes within a unified occupation-measure framework. For finite-dimensional linear rewards, we give a convex dual reformulation with an explicit log-partition objective, and prove smoothness and curvature properties justifying constant-step-size gradient descent. For infinite-dimensional RKHS rewards, we develop a Lagrangian relaxation whose inner-maximising policy is characterised by a soft Bellman equation. The main obstacle is the absence of a discount-factor contraction. We resolve this by introducing a minorisation-based sub-stochastic kernel that yields a strict contraction of the soft Bellman operator. We establish Fréchet differentiability and Lipschitz smoothness of the log-likelihood score, leading to a gradient ascent algorithm with convergence guarantees. Two numerical examples, a malware-spread MFG and an RKHS-based consumer-choice model, show that the recovered policies closely match expert behaviour.


翻译:我们研究在平均奖励准则下离散时间无穷时域平均场博弈的逆强化学习问题。专家演示假定源于未知奖励下的平稳平均场均衡,目标是通过最大因果熵原理恢复能解释观测行为的策略。通过强制与专家平均场项及长期特征期望的一致性来构建逆问题,并在统一占据测度框架内处理两类奖励函数。对于有限维线性奖励,我们给出具有显式对数配分目标的凸对偶重构,并证明支持常步长梯度下降的光滑性与曲率性质。对于无限维再生核希尔伯特空间奖励,我们发展出拉格朗日松弛方法,其内层最大化策略由软贝尔曼方程刻画。主要障碍在于缺乏折扣因子压缩性。我们通过引入基于极小化的次随机核解决该问题,该核能实现软贝尔曼算子的严格压缩。建立了对数似然得分的Fréchet可微性与Lipschitz光滑性,进而得到具有收敛保证的梯度上升算法。两个数值示例——恶意软件传播平均场博弈与基于再生核希尔伯特空间的消费者选择模型——表明恢复策略与专家行为高度吻合。

0
下载
关闭预览

相关内容

逆向强化学习研究综述*
专知会员服务
59+阅读 · 2023年10月13日
逆强化学习算法、理论与应用研究综述
专知会员服务
63+阅读 · 2023年8月2日
「逆向强化学习」最新研究综述
专知会员服务
50+阅读 · 2022年12月19日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
基于逆强化学习的示教学习方法综述
计算机研究与发展
16+阅读 · 2019年2月25日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
逆向强化学习研究综述*
专知会员服务
59+阅读 · 2023年10月13日
逆强化学习算法、理论与应用研究综述
专知会员服务
63+阅读 · 2023年8月2日
「逆向强化学习」最新研究综述
专知会员服务
50+阅读 · 2022年12月19日
相关基金
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员