We study the regret in stochastic Multi-Armed Bandits (MAB) with multiple agents that communicate over an arbitrary connected communication graph. We analyzed a variant of Cooperative Successive Elimination algorithm, COOP-SE, and show an individual regret bound of $O(R/ m + A^2 + A \sqrt{\log T})$ and a nearly matching lower bound. Here $A$ is the number of actions, $T$ the time horizon, $m$ the number of agents, and $R = \sum_{Δ_i > 0}\log(T)/Δ_i$ is the optimal single agent regret, where $Δ_i$ is the sub-optimality gap of action $i$. Our work is the first to show an individual regret bound in cooperative stochastic MAB that is independent of the graph's diameter. When considering communication networks there are additional considerations beyond regret, such as message size and number of communication rounds. First, we show that our regret bound holds even if we restrict the messages to be of logarithmic size. Second, for logarithmic number of communication rounds, we obtain a regret bound of $O(R / m+A \log T)$.


翻译:本研究探讨了在任意连通通信图上进行通信的多智能体随机多臂赌博机(MAB)中的遗憾问题。我们分析了合作连续消除算法(COOP-SE)的一个变体,并证明了其个体遗憾上界为 $O(R/ m + A^2 + A \sqrt{\log T})$,同时给出了一个近乎匹配的下界。其中 $A$ 表示动作数量,$T$ 为时间范围,$m$ 为智能体数量,$R = \sum_{Δ_i > 0}\log(T)/Δ_i$ 为最优单智能体遗憾($Δ_i$ 表示动作 $i$ 的次优间隙)。我们的工作首次在合作随机MAB中提出了与图直径无关的个体遗憾界。在考虑通信网络时,除遗憾外还需关注消息大小和通信轮数等额外因素。首先,我们证明即使将消息限制为对数规模,该遗憾界依然成立。其次,在对数级通信轮数条件下,我们获得了 $O(R / m+A \log T)$ 的遗憾界。

0
下载
关闭预览

相关内容

《不确定通信条件下的分布式多智能体决策》122页
专知会员服务
56+阅读 · 2025年2月26日
面向复杂多任务的异构无人机集群分组调配
专知会员服务
44+阅读 · 2024年3月12日
《在互补战场上进行多场战斗》
专知会员服务
18+阅读 · 2024年1月20日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
异构资源类型下多无人机任务分配
专知会员服务
78+阅读 · 2023年10月10日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
兴军亮Science评述:多人德州扑克博弈新突破
中国科学院自动化研究所
19+阅读 · 2019年7月15日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
机器人操作的“圣杯问题” -- Bin Picking
机器人学家
16+阅读 · 2018年8月2日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月16日
Arxiv
0+阅读 · 2月7日
VIP会员
相关VIP内容
《不确定通信条件下的分布式多智能体决策》122页
专知会员服务
56+阅读 · 2025年2月26日
面向复杂多任务的异构无人机集群分组调配
专知会员服务
44+阅读 · 2024年3月12日
《在互补战场上进行多场战斗》
专知会员服务
18+阅读 · 2024年1月20日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
异构资源类型下多无人机任务分配
专知会员服务
78+阅读 · 2023年10月10日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员