Bayesian Learning in Episodic Zero-Sum Games - 专知论文

会员服务 ·

0

博弈 · 回合 · 贝叶斯 · 贝叶斯学习 · 算法 ·

Bayesian Learning in Episodic Zero-Sum Games

翻译：回合制零和博弈中的贝叶斯学习

Chang-Wei Yueh,Andy Zhao,Ashutosh Nayyar,Rahul Jain

We study Bayesian learning in episodic, finite-horizon zero-sum Markov games with unknown transition and reward models. We investigate a posterior algorithm in which each player maintains a Bayesian posterior over the game model, independently samples a game model at the beginning of each episode, and computes an equilibrium policy for the sampled model. We analyze two settings: (i) Both players use the posterior sampling algorithm, and (ii) Only one player uses posterior sampling while the opponent follows an arbitrary learning algorithm. In each setting, we provide guarantees on the expected regret of the posterior sampling agent. Our notion of regret compares the expected total reward of the learning agent against the expected total reward under equilibrium policies of the true game. Our main theoretical result is an expected regret bound for the posterior sampling agent of order $O(HS\sqrt{ABHK\log(SABHK)})$ where $K$ is the number of episodes, $H$ is the episode length, $S$ is the number of states, and $A,B$ are the action space sizes of the two players. Experiments in a grid-world predator--prey domain illustrate the sublinear regret scaling and show that posterior sampling competes favorably with a fictitious-play baseline.

翻译：我们研究了回合制有限时域零和马尔可夫博弈中的贝叶斯学习，其中转移模型和奖励模型均未知。我们提出了一种后验算法：每个参与者维护一个关于博弈模型的贝叶斯后验分布，在每个回合开始时独立地对一个博弈模型进行采样，并为采样模型计算均衡策略。我们分析了两种场景：(i) 双方参与者均使用后验采样算法；(ii) 仅一方参与者使用后验采样，而对手遵循任意学习算法。在每个场景中，我们为后验采样代理的期望后悔提供了保证。我们的后悔度将学习代理的期望总收益与真实博弈均衡策略下的期望总收益进行比较。主要理论结果是后验采样代理的期望后悔边界为 $O(HS\sqrt{ABHK\log(SABHK)})$，其中 $K$ 为回合数，$H$ 为回合长度，$S$ 为状态数，$A,B$ 为双方参与者的动作空间大小。在网格世界捕食者-猎物领域的实验中，我们验证了次线性后悔缩放特性，并表明后验采样与虚拟博弈基线相比具有竞争优势。

0

相关内容

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

专知会员服务

83+阅读 · 2023年2月5日

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

专知会员服务

59+阅读 · 2022年9月27日

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

专知会员服务

27+阅读 · 2022年3月11日

【经典书】贝叶斯强化学习概述，147页pdf

【经典书】贝叶斯强化学习概述，147页pdf

专知会员服务

115+阅读 · 2021年11月21日

【Nature】贝叶斯统计与建模综述，26页pdf

【Nature】贝叶斯统计与建模综述，26页pdf

专知会员服务

77+阅读 · 2021年1月21日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

70+阅读 · 2020年3月30日

【推荐论文】具有深度学习知识的贝叶斯推理，Bayesian Reasoning with Deep-Learned Knowledge

【推荐论文】具有深度学习知识的贝叶斯推理，Bayesian Reasoning with Deep-Learned Knowledge

专知会员服务

39+阅读 · 2020年2月2日

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

专知会员服务

49+阅读 · 2020年1月1日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

【贝叶斯规则因果推理】《Causal Inference with Bayes Rule》by Finn Lattimore, David Rohde

【贝叶斯规则因果推理】《Causal Inference with Bayes Rule》by Finn Lattimore, David Rohde

专知会员服务

48+阅读 · 2019年12月13日

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

专知

20+阅读 · 2020年7月22日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

专知

27+阅读 · 2020年2月25日

一文读懂机器学习中的贝叶斯统计学

一文读懂机器学习中的贝叶斯统计学

数据分析

26+阅读 · 2019年5月8日

最新36页《贝叶斯非参学习综述》，机器学习内功修炼手册

最新36页《贝叶斯非参学习综述》，机器学习内功修炼手册

专知

25+阅读 · 2019年2月27日

深度学习贝叶斯，这是一份密集的6天速成课程（附视频与PPT）

深度学习贝叶斯，这是一份密集的6天速成课程（附视频与PPT）

数据派THU

17+阅读 · 2018年9月23日

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

GAN生成式对抗网络

15+阅读 · 2018年8月11日

送书 | 深入浅出，一起学习贝叶斯！

送书 | 深入浅出，一起学习贝叶斯！

AI100

10+阅读 · 2018年2月2日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

机器学习研究会

21+阅读 · 2018年1月21日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

贝叶斯网分解理论及其应用

国家自然科学基金

16+阅读 · 2017年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于贝叶斯观点的分数阶扩散方程反问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯网络的城市公交动态调度决策方法

国家自然科学基金

3+阅读 · 2015年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于狄利克雷过程的潜变量模型贝叶斯半参数分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Learning Bayesian Game Families, with Application to Mechanism Design

Learning Bayesian Game Families, with Application to Mechanism Design

Arxiv

0+阅读 · 5月4日

The Bayesian Reflex: Online Learning as the Autonomic Nervous System of Modern and Future AI

Arxiv

0+阅读 · 5月4日

Singular Bayesian Neural Networks

Arxiv

0+阅读 · 5月3日

Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information

Arxiv

0+阅读 · 5月1日

Incorporating Expert Knowledge into Bayesian Causal Discovery of Mixtures of Directed Acyclic Graphs

Arxiv

0+阅读 · 4月29日

The Harder Path: Last Iterate Convergence for Uncoupled Learning in Zero-Sum Games with Bandit Feedback

Arxiv

0+阅读 · 4月17日

On the Equivalence of Zero-Sum Games and Conic Programs

Arxiv

0+阅读 · 4月11日

Differentially Private and Federated Structure Learning in Bayesian Networks

Arxiv

0+阅读 · 4月10日

A generalized Bayesian approach to multiple changepoint analysis

Arxiv

0+阅读 · 3月26日

Meta-Learning for Repeated Bayesian Persuasion

Arxiv

0+阅读 · 3月20日

VIP会员

文章信息

相关主题

贝叶斯学习

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

0+阅读 · 14分钟前

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

0+阅读 · 16分钟前

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

【剑桥大学博士论文】贝叶斯机器学习进展:从不确定性到决策，272页pdf

专知会员服务

83+阅读 · 2023年2月5日

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

什么是贝叶斯workflow？牛津大学最新《贝叶斯工作流》教程及论文，附75页Slides与视频

专知会员服务

59+阅读 · 2022年9月27日

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

【Emtiyaz Khan】自适应人工智能的贝叶斯学习规则，The Bayesian Learning Rule for Adaptive AI

专知会员服务

27+阅读 · 2022年3月11日

【经典书】贝叶斯强化学习概述，147页pdf

【经典书】贝叶斯强化学习概述，147页pdf

专知会员服务

115+阅读 · 2021年11月21日

【Nature】贝叶斯统计与建模综述，26页pdf

【Nature】贝叶斯统计与建模综述，26页pdf

专知会员服务

77+阅读 · 2021年1月21日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

70+阅读 · 2020年3月30日

【推荐论文】具有深度学习知识的贝叶斯推理，Bayesian Reasoning with Deep-Learned Knowledge

【推荐论文】具有深度学习知识的贝叶斯推理，Bayesian Reasoning with Deep-Learned Knowledge

专知会员服务

39+阅读 · 2020年2月2日

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

【贝叶斯深度学习：一种基于模型的可解释方法】Bayesian deep learning: A model-based interpretable approach

专知会员服务

49+阅读 · 2020年1月1日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

【贝叶斯规则因果推理】《Causal Inference with Bayes Rule》by Finn Lattimore, David Rohde

【贝叶斯规则因果推理】《Causal Inference with Bayes Rule》by Finn Lattimore, David Rohde

专知会员服务

48+阅读 · 2019年12月13日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

贝叶斯与深度学习如何结合？看这份256页《贝叶斯深度学习原理》SPCOM2020硬核教程

专知

20+阅读 · 2020年7月22日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

专知

27+阅读 · 2020年2月25日

一文读懂机器学习中的贝叶斯统计学

一文读懂机器学习中的贝叶斯统计学

数据分析

26+阅读 · 2019年5月8日

最新36页《贝叶斯非参学习综述》，机器学习内功修炼手册

最新36页《贝叶斯非参学习综述》，机器学习内功修炼手册

专知

25+阅读 · 2019年2月27日

深度学习贝叶斯，这是一份密集的6天速成课程（附视频与PPT）

深度学习贝叶斯，这是一份密集的6天速成课程（附视频与PPT）

数据派THU

17+阅读 · 2018年9月23日

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

【深度】让DL可解释？这一份66页贝叶斯深度学习教程告诉你

GAN生成式对抗网络

15+阅读 · 2018年8月11日

送书 | 深入浅出，一起学习贝叶斯！

送书 | 深入浅出，一起学习贝叶斯！

AI100

10+阅读 · 2018年2月2日

贝叶斯机器学习前沿进展

贝叶斯机器学习前沿进展

机器学习研究会

21+阅读 · 2018年1月21日

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

不用数学也能讲清贝叶斯理论的马尔可夫链蒙特卡洛方法？这篇文章做到了

AI100

11+阅读 · 2017年12月24日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

相关论文

Learning Bayesian Game Families, with Application to Mechanism Design

Learning Bayesian Game Families, with Application to Mechanism Design

Arxiv

0+阅读 · 5月4日

The Bayesian Reflex: Online Learning as the Autonomic Nervous System of Modern and Future AI

Arxiv

0+阅读 · 5月4日

Singular Bayesian Neural Networks

Arxiv

0+阅读 · 5月3日

Nearly-Optimal Bandit Learning in Stackelberg Games with Side Information

Arxiv

0+阅读 · 5月1日

Incorporating Expert Knowledge into Bayesian Causal Discovery of Mixtures of Directed Acyclic Graphs

Arxiv

0+阅读 · 4月29日

The Harder Path: Last Iterate Convergence for Uncoupled Learning in Zero-Sum Games with Bandit Feedback

Arxiv

0+阅读 · 4月17日

On the Equivalence of Zero-Sum Games and Conic Programs

Arxiv

0+阅读 · 4月11日

Differentially Private and Federated Structure Learning in Bayesian Networks

Arxiv

0+阅读 · 4月10日

A generalized Bayesian approach to multiple changepoint analysis

Arxiv

0+阅读 · 3月26日

Meta-Learning for Repeated Bayesian Persuasion

Arxiv

0+阅读 · 3月20日

相关基金

贝叶斯网分解理论及其应用

国家自然科学基金

16+阅读 · 2017年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

贝叶斯柔性密度方法及其在高维金融数据中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于贝叶斯观点的分数阶扩散方程反问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于贝叶斯网络的城市公交动态调度决策方法

国家自然科学基金

3+阅读 · 2015年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

基于狄利克雷过程的潜变量模型贝叶斯半参数分析

国家自然科学基金

2+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员