We address two-player general-sum stochastic Stackelberg games (SSGs), where the leader's policy is optimized considering the best-response follower whose policy is optimal for its reward under the leader. Existing policy gradient and value iteration approaches for SSGs do not guarantee monotone improvement in the leader's policy under the best-response follower. Consequently, their performance is not guaranteed when their limits are not stationary Stackelberg equilibria (SSEs), which do not necessarily exist. In this paper, we derive a policy improvement theorem for SSGs under the best-response follower and propose a novel policy iteration algorithm that guarantees monotone improvement in the leader's performance. Additionally, we introduce Pareto-optimality as an extended optimality of the SSE and prove that our method converges to the Pareto front when the leader is myopic.


翻译:本文研究双玩家一般和随机斯塔克尔伯格博弈(SSGs),其中领导者的策略需在考虑追随者最优反应的情况下进行优化——追随者策略是在领导者策略下使其自身奖励最优的策略。现有针对SSGs的策略梯度和值迭代方法无法保证在最优反应追随者条件下领导者策略的单调改进。因此,当这些方法的极限不是静态斯塔克尔伯格均衡(SSEs)时,其性能无法得到保证,而SSE本身未必存在。本文推导了最优反应追随者条件下SSGs的策略改进定理,并提出一种新颖的策略迭代算法,该算法能保证领导者性能的单调改进。此外,我们引入帕累托最优性作为SSE的扩展最优性概念,并证明当领导者具有短视特性时,所提方法收敛于帕累托前沿。

0
下载
关闭预览

相关内容

博弈论应用《互补战场上的多场战斗对抗》
专知会员服务
26+阅读 · 2024年1月30日
《在互补战场上进行多场战斗》
专知会员服务
18+阅读 · 2024年1月20日
【2023新书】使用博弈论进行决策,215页pdf
专知会员服务
131+阅读 · 2023年4月19日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
精品公开课 | 随机梯度下降算法综述
七月在线实验室
13+阅读 · 2017年7月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国军方使用的10种反无人机武器(2026年更新)
专知会员服务
1+阅读 · 47分钟前
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员