While discounted payoff games and classic games that reduce to them, like parity and mean-payoff games, are symmetric, their solutions are not. We have taken a fresh view on the properties that optimal solutions need to have, and devised a novel way to converge to them, which is entirely symmetric. We achieve this by building a constraint system that uses every edge to define an inequation, and update the objective function by taking a single outgoing edge for each vertex into account. These edges loosely represent strategies of both players, where the objective function intuitively asks to make the inequation to these edges sharp. In fact, where they are not sharp, there is an `error' represented by the difference between the two sides of the inequation, which is 0 where the inequation is sharp. Hence, the objective is to minimise the sum of these errors. For co-optimal strategies, and only for them, it can be achieved that all selected inequations are sharp or, equivalently, that the sum of these errors is zero. While no co-optimal strategies have been found, we step-wise improve the error by improving the solution for a given objective function or by improving the objective function for a given solution. This also challenges the gospel that methods for solving payoff games are either based on strategy improvement or on value iteration.


翻译:尽管折扣收益博弈及其可归约的经典博弈(如奇偶博弈和平均收益博弈)具有对称性,但其解却不对称。我们重新审视了最优解所需具备的性质,并设计了一种全新的收敛方法,该方法完全对称。我们通过构建一个约束系统来实现这一点,该系统利用每条边定义一个不等式,并通过考虑每个顶点的单条出边来更新目标函数。这些边松散地表示双方玩家的策略,而目标函数直观地要求使这些边对应的不等式变为严格等式。实际上,在不等式不严格成立的地方存在一个“误差”,由不等式两侧的差值表示;当不等式严格成立时,该误差为零。因此,目标是最小化这些误差的总和。对于协同最优策略——且仅对于此类策略——可以实现所有选定不等式均为严格等式,或等价地,使这些误差之和为零。在尚未找到协同最优策略的情况下,我们通过改进给定目标函数的解或改进给定解的目标函数,逐步减小误差。这也对“求解收益博弈的方法要么基于策略改进,要么基于值迭代”这一传统观念提出了挑战。

0
下载
关闭预览

相关内容

博弈论精要:基于优化方法的数学导论
专知会员服务
46+阅读 · 2025年3月30日
【干货书】算法博弈论,Algorithmic Game Theory,775页pdf
专知会员服务
89+阅读 · 2023年6月19日
面向智能博弈的决策Transformer方法综述
专知会员服务
199+阅读 · 2023年4月14日
《资源分配博弈中的收敛率》
专知会员服务
41+阅读 · 2023年3月10日
【硬核书】博弈论,592页pdf
专知会员服务
164+阅读 · 2022年12月7日
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
156+阅读 · 2021年5月9日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
简述多种降维算法
算法与数学之美
11+阅读 · 2018年9月23日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月16日
VIP会员
相关VIP内容
博弈论精要:基于优化方法的数学导论
专知会员服务
46+阅读 · 2025年3月30日
【干货书】算法博弈论,Algorithmic Game Theory,775页pdf
专知会员服务
89+阅读 · 2023年6月19日
面向智能博弈的决策Transformer方法综述
专知会员服务
199+阅读 · 2023年4月14日
《资源分配博弈中的收敛率》
专知会员服务
41+阅读 · 2023年3月10日
【硬核书】博弈论,592页pdf
专知会员服务
164+阅读 · 2022年12月7日
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
156+阅读 · 2021年5月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员