We study the regret in stochastic Multi-Armed Bandits (MAB) with multiple agents that communicate over an arbitrary connected communication graph. We analyzed a variant of Cooperative Successive Elimination algorithm, $\coopse$, and show an individual regret bound of ${O}(\mathcal{R} / m + A^2 + A \sqrt{\log T})$ and a nearly matching lower bound. Here $A$ is the number of actions, $T$ the time horizon, $m$ the number of agents, and $\mathcal{R} = \sum_{Δ_i > 0}\log(T)/Δ_i$ is the optimal single agent regret, where $Δ_i$ is the sub-optimality gap of action $i$. Our work is the first to show an individual regret bound in cooperative stochastic MAB that is independent of the graph's diameter. When considering communication networks there are additional considerations beyond regret, such as message size and number of communication rounds. First, we show that our regret bound holds even if we restrict the messages to be of logarithmic size. Second, for logarithmic number of communication rounds, we obtain a regret bound of ${O}(\mathcal{R} / m+A \log T)$.


翻译:我们研究了在任意连通通信图上进行通信的多智能体随机多臂老虎机(MAB)中的遗憾问题。我们分析了合作连续消除算法 $\coopse$ 的一个变体,并证明了其个体遗憾上界为 ${O}(\mathcal{R} / m + A^2 + A \sqrt{\log T})$,同时给出了一个近乎匹配的下界。其中 $A$ 表示动作数量,$T$ 表示时间范围,$m$ 表示智能体数量,$\mathcal{R} = \sum_{Δ_i > 0}\log(T)/Δ_i$ 为最优单智能体遗憾,$Δ_i$ 表示动作 $i$ 的次优间隙。我们的工作首次在合作随机 MAB 中证明了与图直径无关的个体遗憾上界。在考虑通信网络时,除了遗憾之外还需考虑其他因素,例如消息大小和通信轮数。首先,我们证明即使将消息大小限制为对数级别,我们的遗憾上界依然成立。其次,对于对数级别的通信轮数,我们得到了 ${O}(\mathcal{R} / m+A \log T)$ 的遗憾上界。

0
下载
关闭预览

相关内容

《不确定通信条件下的分布式多智能体决策》122页
专知会员服务
56+阅读 · 2025年2月26日
面向复杂多任务的异构无人机集群分组调配
专知会员服务
44+阅读 · 2024年3月12日
《在互补战场上进行多场战斗》
专知会员服务
18+阅读 · 2024年1月20日
多智能体学习中合作的综述
专知会员服务
75+阅读 · 2023年12月12日
异构资源类型下多无人机任务分配
专知会员服务
78+阅读 · 2023年10月10日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
55+阅读 · 2022年11月2日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月7日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员