We study the regret in stochastic Multi-Armed Bandits (MAB) with multiple agents that communicate over an arbitrary connected communication graph. We analyzed a variant of Cooperative Successive Elimination algorithm, $\coopse$, and show an individual regret bound of ${O}(\mathcal{R} / m + A^2 + A \sqrt{\log T})$ and a nearly matching lower bound. Here $A$ is the number of actions, $T$ the time horizon, $m$ the number of agents, and $\mathcal{R} = \sum_{Δ_i > 0}\log(T)/Δ_i$ is the optimal single agent regret, where $Δ_i$ is the sub-optimality gap of action $i$. Our work is the first to show an individual regret bound in cooperative stochastic MAB that is independent of the graph's diameter. When considering communication networks there are additional considerations beyond regret, such as message size and number of communication rounds. First, we show that our regret bound holds even if we restrict the messages to be of logarithmic size. Second, for logarithmic number of communication rounds, we obtain a regret bound of ${O}(\mathcal{R} / m+A \log T)$.


翻译:我们研究了在任意连通通信图上进行通信的多智能体随机多臂老虎机(MAB)中的遗憾问题。我们分析了合作连续消除算法 $\coopse$ 的一个变体,并证明了其个体遗憾上界为 ${O}(\mathcal{R} / m + A^2 + A \sqrt{\log T})$,同时给出了一个近乎匹配的下界。其中 $A$ 表示动作数量,$T$ 表示时间范围,$m$ 表示智能体数量,$\mathcal{R} = \sum_{Δ_i > 0}\log(T)/Δ_i$ 为最优单智能体遗憾,$Δ_i$ 表示动作 $i$ 的次优间隙。我们的工作首次在合作随机 MAB 中证明了与图直径无关的个体遗憾上界。在考虑通信网络时,除了遗憾之外还需考虑其他因素,例如消息大小和通信轮数。首先,我们证明即使将消息大小限制为对数级别,我们的遗憾上界依然成立。其次,对于对数级别的通信轮数,我们得到了 ${O}(\mathcal{R} / m+A \log T)$ 的遗憾上界。

0
下载
关闭预览

相关内容

《不确定通信条件下的分布式多智能体决策》122页
专知会员服务
57+阅读 · 2025年2月26日
面向复杂多任务的异构无人机集群分组调配
专知会员服务
44+阅读 · 2024年3月12日
《在互补战场上进行多场战斗》
专知会员服务
18+阅读 · 2024年1月20日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
异构资源类型下多无人机任务分配
专知会员服务
78+阅读 · 2023年10月10日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月7日
VIP会员
最新内容
无人机蜂群建模与仿真方法
专知会员服务
1+阅读 · 31分钟前
澳大利亚发布《国防战略(2026年)》
专知会员服务
0+阅读 · 57分钟前
【CMU博士论文】迈向基于基础先验的 4D 感知研究
专知会员服务
0+阅读 · 53分钟前
全球高超音速武器最新发展趋势
专知会员服务
1+阅读 · 今天13:17
人工智能在战场行动中的演进及伊朗案例
专知会员服务
7+阅读 · 4月18日
相关基金
国家自然科学基金
18+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员