Estimating the unknown reward functions driving agents' behaviors is of central interest in inverse reinforcement learning and game theory. To tackle this problem, we develop a unified framework for reward function recovery in two-player zero-sum matrix games and Markov games with entropy regularization, where we aim to reconstruct the underlying reward functions given observed players' strategies and actions. This task is challenging due to the inherent ambiguity of inverse problems, the non-uniqueness of feasible rewards, and limited observational data coverage. To address these challenges, we establish the reward function's identifiability using the quantal response equilibrium (QRE) under linear assumptions. Building upon this theoretical foundation, we propose a novel algorithm to learn reward functions from observed actions. Our algorithm works in both static and dynamic settings and is adaptable to incorporate different methods, such as Maximum Likelihood Estimation (MLE). We provide strong theoretical guarantees for the reliability and sample efficiency of our algorithm. Further, we conduct extensive numerical studies to demonstrate the practical effectiveness of the proposed framework, offering new insights into decision-making in competitive environments.


翻译:估计驱动智能体行为的未知奖励函数是逆强化学习与博弈论的核心课题。为解决此问题,我们针对具有熵正则化的双人零和矩阵博弈与马尔可夫博弈,提出了一个统一的奖励函数重构框架,其目标是在给定观测到的玩家策略与行动条件下重建底层奖励函数。由于逆问题的固有模糊性、可行奖励的非唯一性以及观测数据覆盖的有限性,该任务极具挑战性。为应对这些挑战,我们在线性假设下利用量子响应均衡(QRE)建立了奖励函数的可识别性。基于这一理论基础,我们提出了一种从观测行动中学习奖励函数的新算法。该算法适用于静态与动态两种设定,并可灵活整合多种方法(如最大似然估计)。我们为算法的可靠性与样本效率提供了坚实的理论保证。此外,我们进行了广泛的数值研究以验证所提框架的实际有效性,为竞争环境中的决策机制提供了新的见解。

0
下载
关闭预览

相关内容

【博士论文】多目标奖励与偏好优化:理论与算法
专知会员服务
32+阅读 · 2025年12月12日
从图像去噪到成像逆问题的正则化:综述
专知会员服务
13+阅读 · 2025年9月4日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【ICML2025】从混淆的离线数据中自动构造奖励函数
专知会员服务
9+阅读 · 2025年5月22日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
逆强化学习算法、理论与应用研究综述
专知会员服务
63+阅读 · 2023年8月2日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【论文】深度学习的数学解释
机器学习研究会
10+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员