We study a cooperative multi-agent multi-armed bandits with M agents and K arms. The goal of the agents is to minimized the cumulative regret. We adapt a traditional Thompson Sampling algoirthm under the distributed setting. However, with agent's ability to communicate, we note that communication may further reduce the upper bound of the regret for a distributed Thompson Sampling approach. To further improve the performance of distributed Thompson Sampling, we propose a distributed Elimination based Thompson Sampling algorithm that allow the agents to learn collaboratively. We analyse the algorithm under Bernoulli reward and derived a problem dependent upper bound on the cumulative regret.


翻译:我们用M剂和K武器研究一个多剂多武装合作匪徒,目的是尽量减少累积的遗憾。我们根据分布式环境对传统的Thompson取样器进行修改。然而,由于代理人的通讯能力,我们注意到,通信可能会进一步减少分发Thompson取样法的遗憾上限。为了进一步改善分发的Thompson取样法的绩效,我们提议一个分布式的基于Exprise Thompson取样法,使代理人能够合作学习。我们分析了Bernoulli奖项下的算法,并得出了一个取决于累积遗憾的问题。

0
下载
关闭预览

相关内容

专知会员服务
42+阅读 · 2021年4月2日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
112+阅读 · 2020年5月15日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
因果图,Causal Graphs,52页ppt
专知会员服务
254+阅读 · 2020年4月19日
专知会员服务
63+阅读 · 2020年3月4日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
8+阅读 · 2018年10月31日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年10月29日
Wasserstein Distance Maximizing Intrinsic Control
Arxiv
0+阅读 · 2021年10月28日
Arxiv
19+阅读 · 2020年7月13日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
最新内容
ICML 2026 | 演化选择的因果建模
专知会员服务
0+阅读 · 今天15:45
综述|学习式3D表征最新进展与趋势
专知会员服务
1+阅读 · 今天15:37
人工智能重塑威慑:算法优势的兴起
专知会员服务
3+阅读 · 今天14:27
AgentOps综述:智能体系统运维框架
专知会员服务
14+阅读 · 6月4日
《美陆军最新条令:兵力防护》
专知会员服务
9+阅读 · 6月4日
《人工智能的挑战:算法战的想象与现实》
专知会员服务
11+阅读 · 6月4日
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
7+阅读 · 6月4日
相关VIP内容
专知会员服务
42+阅读 · 2021年4月2日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
112+阅读 · 2020年5月15日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
因果图,Causal Graphs,52页ppt
专知会员服务
254+阅读 · 2020年4月19日
专知会员服务
63+阅读 · 2020年3月4日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
8+阅读 · 2018年10月31日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员