We address two-player general-sum stochastic Stackelberg games (SSGs), where the leader's policy is optimized considering the best-response follower whose policy is optimal for its reward under the leader. Existing policy gradient and value iteration approaches for SSGs do not guarantee monotone improvement in the leader's policy under the best-response follower. Consequently, their performance is not guaranteed when their limits are not stationary Stackelberg equilibria (SSEs), which do not necessarily exist. In this paper, we derive a policy improvement theorem for SSGs under the best-response follower and propose a novel policy iteration algorithm that guarantees monotone improvement in the leader's performance. Additionally, we introduce Pareto-optimality as an extended optimality of the SSE and prove that our method converges to the Pareto front when the leader is myopic.


翻译:暂无翻译

0
下载
关闭预览

相关内容

博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
基于博弈论的弹目攻防决策方法研究
专知会员服务
51+阅读 · 2024年7月11日
【2023新书】使用博弈论进行决策,215页pdf
专知会员服务
131+阅读 · 2023年4月19日
【泡泡图灵智库】边缘化采样一致性
泡泡机器人SLAM
23+阅读 · 2019年10月14日
兴军亮Science评述:多人德州扑克博弈新突破
中国科学院自动化研究所
19+阅读 · 2019年7月15日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
117+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月22日
VIP会员
相关VIP内容
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
基于博弈论的弹目攻防决策方法研究
专知会员服务
51+阅读 · 2024年7月11日
【2023新书】使用博弈论进行决策,215页pdf
专知会员服务
131+阅读 · 2023年4月19日
相关资讯
相关基金
国家自然科学基金
117+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员