We consider a number of questions related to tradeoffs between reward and regret in repeated gameplay between two agents. To facilitate this, we introduce a notion of $\textit{generalized equilibrium}$ which allows for asymmetric regret constraints, and yields polytopes of feasible values for each agent and pair of regret constraints, where we show that any such equilibrium is reachable by a pair of algorithms which maintain their regret guarantees against arbitrary opponents. As a central example, we highlight the case one agent is no-swap and the other's regret is unconstrained. We show that this captures an extension of $\textit{Stackelberg}$ equilibria with a matching optimal value, and that there exists a wide class of games where a player can significantly increase their utility by deviating from a no-swap-regret algorithm against a no-swap learner (in fact, almost any game without pure Nash equilibria is of this form). Additionally, we make use of generalized equilibria to consider tradeoffs in terms of the opponent's algorithm choice. We give a tight characterization for the maximal reward obtainable against $\textit{some}$ no-regret learner, yet we also show a class of games in which this is bounded away from the value obtainable against the class of common "mean-based" no-regret algorithms. Finally, we consider the question of learning reward-optimal strategies via repeated play with a no-regret agent when the game is initially unknown. Again we show tradeoffs depending on the opponent's learning algorithm: the Stackelberg strategy is learnable in exponential time with any no-regret agent (and in polynomial time with any no-$\textit{adaptive}$-regret agent) for any game where it is learnable via queries, and there are games where it is learnable in polynomial time against any no-swap-regret agent but requires exponential time against a mean-based no-regret agent.


翻译:我们探讨了重复博弈中两个智能体之间奖励与遗憾权衡的相关问题。为此,我们引入了$\textit{广义均衡}$的概念,该概念允许非对称遗憾约束,并为每个智能体及每对遗憾约束生成可行值的多面体集,同时证明任意此类均衡均可由一对维持其针对任意对手遗憾保证的算法达到。作为核心示例,我们重点讨论了当一方智能体采用无交换遗憾约束而另一方的遗憾无约束时的情况。研究表明,这捕捉了具有匹配最优值的$\textit{斯塔克尔伯格}$均衡的扩展形式,并且存在大量博弈场景,其中玩家通过偏离针对无交换学习者的无交换遗憾算法可显著提高自身效用(事实上,几乎所有无纯纳什均衡的博弈均属此类)。此外,我们利用广义均衡来研究对手算法选择方面的权衡。我们给出了针对$\textit{某些}$无遗憾学习者可获得的最大奖励的紧致刻画,同时发现有一类博弈中该值远低于针对常见“基于均值”无遗憾算法类所获得的值。最后,我们探讨了在博弈初始未知时通过与无遗憾智能体重复博弈来学习奖励最优策略的问题。我们再次展示了依赖对手学习算法的权衡:对于任何可通过查询学习的博弈,斯塔克尔伯格策略可通过指数时间(面对任意无自适应遗憾智能体时为多项式时间)与任意无遗憾智能体共同学习;同时存在某些博弈,该策略面对任意无交换遗憾智能体可在多项式时间内学习,但面对基于均值的无遗憾智能体则需指数时间。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
151+阅读 · 2020年7月6日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
From Softmax to Sparsemax-ICML16(1)
KingsGarden
74+阅读 · 2016年11月26日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Can Generative Agents Predict Emotion?
Arxiv
0+阅读 · 2024年2月6日
Arxiv
0+阅读 · 2024年2月5日
Arxiv
0+阅读 · 2024年2月3日
Arxiv
0+阅读 · 2024年2月2日
Arxiv
0+阅读 · 2024年2月1日
Arxiv
19+阅读 · 2022年7月29日
Arxiv
15+阅读 · 2021年6月27日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
VIP会员
最新内容
基于博弈论的陆军人机协同(长文报告)
专知会员服务
1+阅读 · 今天1:54
美国陆军航空兵:以愿景引领转型
专知会员服务
1+阅读 · 今天1:38
《多域战场上反制小型无人机系统》150页
专知会员服务
14+阅读 · 6月11日
战场人工智能:增强陆地作战能力的发现与要求
以人工智能为中心的指挥控制
专知会员服务
4+阅读 · 6月11日
相关VIP内容
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
151+阅读 · 2020年7月6日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
可解释的CNN
CreateAMind
18+阅读 · 2017年10月5日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
From Softmax to Sparsemax-ICML16(1)
KingsGarden
74+阅读 · 2016年11月26日
相关论文
Can Generative Agents Predict Emotion?
Arxiv
0+阅读 · 2024年2月6日
Arxiv
0+阅读 · 2024年2月5日
Arxiv
0+阅读 · 2024年2月3日
Arxiv
0+阅读 · 2024年2月2日
Arxiv
0+阅读 · 2024年2月1日
Arxiv
19+阅读 · 2022年7月29日
Arxiv
15+阅读 · 2021年6月27日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员