An Objective Improvement Approach to Solving Discounted Payoff Games - 专知论文

会员服务 ·

0

博弈 · 目标函数 · 最优 · 系统 · 表示 ·

An Objective Improvement Approach to Solving Discounted Payoff Games

翻译：一种求解折扣收益博弈的客观改进方法

Daniele Dell'Erba,Arthur Dumas,Sven Schewe

from arxiv, arXiv admin note: substantial text overlap with arXiv:2310.01008

While discounted payoff games and classic games that reduce to them, like parity and mean-payoff games, are symmetric, their solutions are not. We have taken a fresh view on the properties that optimal solutions need to have, and devised a novel way to converge to them, which is entirely symmetric. We achieve this by building a constraint system that uses every edge to define an inequation, and update the objective function by taking a single outgoing edge for each vertex into account. These edges loosely represent strategies of both players, where the objective function intuitively asks to make the inequation to these edges sharp. In fact, where they are not sharp, there is an `error' represented by the difference between the two sides of the inequation, which is 0 where the inequation is sharp. Hence, the objective is to minimise the sum of these errors. For co-optimal strategies, and only for them, it can be achieved that all selected inequations are sharp or, equivalently, that the sum of these errors is zero. While no co-optimal strategies have been found, we step-wise improve the error by improving the solution for a given objective function or by improving the objective function for a given solution. This also challenges the gospel that methods for solving payoff games are either based on strategy improvement or on value iteration.

翻译：尽管折扣收益博弈及其可归约的经典博弈（如奇偶博弈和平均收益博弈）具有对称性，但其解却不对称。我们重新审视了最优解所需具备的性质，并设计了一种全新的收敛方法，该方法完全对称。我们通过构建一个约束系统来实现这一点，该系统利用每条边定义一个不等式，并通过考虑每个顶点的单条出边来更新目标函数。这些边松散地表示双方玩家的策略，而目标函数直观地要求使这些边对应的不等式变为严格等式。实际上，在不等式不严格成立的地方存在一个“误差”，由不等式两侧的差值表示；当不等式严格成立时，该误差为零。因此，目标是最小化这些误差的总和。对于协同最优策略——且仅对于此类策略——可以实现所有选定不等式均为严格等式，或等价地，使这些误差之和为零。在尚未找到协同最优策略的情况下，我们通过改进给定目标函数的解或改进给定解的目标函数，逐步减小误差。这也对“求解收益博弈的方法要么基于策略改进，要么基于值迭代”这一传统观念提出了挑战。

0

相关内容

博弈论精要：基于优化方法的数学导论

博弈论精要：基于优化方法的数学导论

专知会员服务

47+阅读 · 2025年3月30日

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

专知会员服务

89+阅读 · 2023年6月19日

面向智能博弈的决策Transformer方法综述

面向智能博弈的决策Transformer方法综述

专知会员服务

200+阅读 · 2023年4月14日

《资源分配博弈中的收敛率》

《资源分配博弈中的收敛率》

专知会员服务

41+阅读 · 2023年3月10日

【硬核书】博弈论，592页pdf

【硬核书】博弈论，592页pdf

专知会员服务

165+阅读 · 2022年12月7日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知会员服务

52+阅读 · 2022年10月8日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【CMU博士论文】统计博弈理论，Statistical Game Theory，279页pdf

【CMU博士论文】统计博弈理论，Statistical Game Theory，279页pdf

专知会员服务

79+阅读 · 2022年8月17日

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

专知会员服务

156+阅读 · 2021年5月9日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【博士论文】《参数化战斗分析的方法框架》美国空军技术学院2022最新139页博士论文

【博士论文】《参数化战斗分析的方法框架》美国空军技术学院2022最新139页博士论文

专知

15+阅读 · 2022年10月22日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

19+阅读 · 2020年9月1日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性互补约束二次规划问题的一个全局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑总量折扣的运输服务采购问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有时滞效应的微分向量优化问题的理论、算法及应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

实例结构限制下信息传播算法的收敛性研究

国家自然科学基金

0+阅读 · 2014年12月31日

对称锥互补问题的算法研究及其在压缩感知中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

Equilibria in Large Position-Optimization Games

Arxiv

0+阅读 · 2月16日

Decentralized Optimal Equilibrium Learning in Stochastic Games via Single-bit Feedback

Arxiv

0+阅读 · 2月13日

A Policy Iteration Method for Inverse Mean Field Games

Arxiv

0+阅读 · 2月11日

An Automata-Based Approach to Games with $ω$-Automatic Preferences

Arxiv

0+阅读 · 2月9日

Faster Game Solving via Hyperparameter Schedules

Arxiv

0+阅读 · 2月8日

A Data Driven Structural Decomposition of Dynamic Games via Best Response Maps

Arxiv

0+阅读 · 2月5日

Properties of the core and other solution concepts of Bel coalitional games in the ex-ante scenario

Arxiv

0+阅读 · 2月4日

Maximin Relative Improvement: Fair Learning as a Bargaining Problem

Arxiv

0+阅读 · 2月4日

Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization

Arxiv

0+阅读 · 1月19日

On the closest balanced game

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

4+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

6+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

4+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

3+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

7+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

6+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

11+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

博弈论精要：基于优化方法的数学导论

博弈论精要：基于优化方法的数学导论

专知会员服务

47+阅读 · 2025年3月30日

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

专知会员服务

89+阅读 · 2023年6月19日

面向智能博弈的决策Transformer方法综述

面向智能博弈的决策Transformer方法综述

专知会员服务

200+阅读 · 2023年4月14日

《资源分配博弈中的收敛率》

《资源分配博弈中的收敛率》

专知会员服务

41+阅读 · 2023年3月10日

【硬核书】博弈论，592页pdf

【硬核书】博弈论，592页pdf

专知会员服务

165+阅读 · 2022年12月7日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知会员服务

52+阅读 · 2022年10月8日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【CMU博士论文】统计博弈理论，Statistical Game Theory，279页pdf

【CMU博士论文】统计博弈理论，Statistical Game Theory，279页pdf

专知会员服务

79+阅读 · 2022年8月17日

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

专知会员服务

156+阅读 · 2021年5月9日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

【博士论文】《参数化战斗分析的方法框架》美国空军技术学院2022最新139页博士论文

【博士论文】《参数化战斗分析的方法框架》美国空军技术学院2022最新139页博士论文

专知

15+阅读 · 2022年10月22日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

强化学习《奖励函数设计: Reward Shaping》详细解读

强化学习《奖励函数设计: Reward Shaping》详细解读

深度强化学习实验室

19+阅读 · 2020年9月1日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

相关论文

Equilibria in Large Position-Optimization Games

Arxiv

0+阅读 · 2月16日

Decentralized Optimal Equilibrium Learning in Stochastic Games via Single-bit Feedback

Arxiv

0+阅读 · 2月13日

A Policy Iteration Method for Inverse Mean Field Games

Arxiv

0+阅读 · 2月11日

An Automata-Based Approach to Games with $ω$-Automatic Preferences

Arxiv

0+阅读 · 2月9日

Faster Game Solving via Hyperparameter Schedules

Arxiv

0+阅读 · 2月8日

A Data Driven Structural Decomposition of Dynamic Games via Best Response Maps

Arxiv

0+阅读 · 2月5日

Properties of the core and other solution concepts of Bel coalitional games in the ex-ante scenario

Arxiv

0+阅读 · 2月4日

Maximin Relative Improvement: Fair Learning as a Bargaining Problem

Arxiv

0+阅读 · 2月4日

Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization

Arxiv

0+阅读 · 1月19日

On the closest balanced game

Arxiv

0+阅读 · 1月16日

相关基金

量化约束满足问题相变现象研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性互补约束二次规划问题的一个全局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑总量折扣的运输服务采购问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有时滞效应的微分向量优化问题的理论、算法及应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

实例结构限制下信息传播算法的收敛性研究

国家自然科学基金

0+阅读 · 2014年12月31日

对称锥互补问题的算法研究及其在压缩感知中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

非线性约束全局优化的新方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员