Near-Optimal Regret for Distributed Adversarial Bandits: A Black-Box Approach - 专知论文

会员服务 ·

0

赌博机 · 对抗 · 代价 · 最优 · 损失 ·

Near-Optimal Regret for Distributed Adversarial Bandits: A Black-Box Approach

翻译：分布式对抗性赌博机的最优遗憾逼近：一种黑箱方法

Hao Qiu,Mengxiao Zhang,Nicolò Cesa-Bianchi

We study distributed adversarial bandits, where $N$ agents cooperate to minimize the global average loss while observing only their own local losses. We show that the minimax regret for this problem is $\tildeΘ(\sqrt{(ρ^{-1/2}+K/N)T})$, where $T$ is the horizon, $K$ is the number of actions, and $ρ$ is the spectral gap of the communication matrix. Our algorithm, based on a novel black-box reduction to bandits with delayed feedback, requires agents to communicate only through gossip. It achieves an upper bound that significantly improves over the previous best bound $\tilde{O}(ρ^{-1/3}(KT)^{2/3})$ of Yi and Vojnovic (2023). We complement this result with a matching lower bound, showing that the problem's difficulty decomposes into a communication cost $ρ^{-1/4}\sqrt{T}$ and a bandit cost $\sqrt{KT/N}$. We further demonstrate the versatility of our approach by deriving first-order and best-of-both-worlds bounds in the distributed adversarial setting. Finally, we extend our framework to distributed linear bandits in $R^d$, obtaining a regret bound of $\tilde{O}(\sqrt{(ρ^{-1/2}+1/N)dT})$, achieved with only $O(d)$ communication cost per agent and per round via a volumetric spanner.

翻译：我们研究分布式对抗性赌博机问题，其中 $N$ 个智能体协同最小化全局平均损失，同时仅观察到各自的局部损失。我们证明该问题的最小最大遗憾为 $\tildeΘ(\sqrt{(ρ^{-1/2}+K/N)T})$，其中 $T$ 为时间范围，$K$ 为动作数量，$ρ$ 为通信矩阵的谱间隙。我们的算法基于一种新颖的将问题归约到带延迟反馈赌博机的黑箱方法，仅要求智能体通过 gossip 协议通信。该算法的上界显著优于 Yi 和 Vojnovic（2023）先前得到的最佳上界 $\tilde{O}(ρ^{-1/3}(KT)^{2/3})$。我们同时给出匹配的下界，证明问题的难度可分解为通信代价 $ρ^{-1/4}\sqrt{T}$ 和赌博机代价 $\sqrt{KT/N}$。进一步，通过在分布式对抗性设定下推导一阶界和两全其美界，展示我们方法的通用性。最后，我们将框架扩展到 $\mathbb{R}^d$ 中的分布式线性赌博机，借助体积张量生成器，每个智能体每轮仅需 $O(d)$ 通信代价即可获得 $\tilde{O}(\sqrt{(ρ^{-1/2}+1/N)dT})$ 的遗憾界。

0

相关内容

赌博机

随机网络效用最大化在战略排队系统中的博弈论方法

随机网络效用最大化在战略排队系统中的博弈论方法

专知会员服务

11+阅读 · 4月13日

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

专知会员服务

30+阅读 · 2025年10月21日

智能博弈对抗算法及其在情报领域中的应用*

智能博弈对抗算法及其在情报领域中的应用*

专知会员服务

39+阅读 · 2024年12月1日

【普林斯顿博士论文】从博弈论视角看控制中的鲁棒性，266页pdf

【普林斯顿博士论文】从博弈论视角看控制中的鲁棒性，266页pdf

专知会员服务

40+阅读 · 2024年2月27日

博弈论应用《互补战场上的多场战斗对抗》

博弈论应用《互补战场上的多场战斗对抗》

专知会员服务

27+阅读 · 2024年1月30日

【博士论文】最优传输的进展：低秩结构及其在机器学习中的应用，364页pdf

【博士论文】最优传输的进展：低秩结构及其在机器学习中的应用，364页pdf

专知会员服务

49+阅读 · 2023年10月26日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

专知会员服务

19+阅读 · 2022年6月16日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

面向大规模分布式一致性最优化问题的结构型一阶求解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

随机对策的首达目标准则及其有限逼近

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

两类非马氏保险模型下的最优问题以及公司合并问题

国家自然科学基金

0+阅读 · 2014年12月31日

Near-Optimal Stochastic Linear Bandits with Delay

Arxiv

0+阅读 · 6月15日

DAL: A Practical Prior-Free Black-Box Framework for Piecewise Stationary Bandits

Arxiv

0+阅读 · 6月13日

Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts

Arxiv

0+阅读 · 6月12日

Algorithm for Contextual Queueing Bandits with Rate-Optimal Queue Length Regret

Arxiv

0+阅读 · 6月8日

Multi-Armed Bandits with Arriving Arms: Sequential Screening, Dynamic Regret, and Sublinear Guarantees

Arxiv

0+阅读 · 6月8日

Regret Minimization with Adaptive Opponents in Repeated Games

Arxiv

0+阅读 · 6月4日

Offline-to-Online Learning in Linear Bandits

Arxiv

0+阅读 · 6月3日

Minimax-Optimal Policy Regret in Partially Observable Markov Games

Arxiv

0+阅读 · 6月1日

Asymptotic Theory and Sequential Testing for Adaptive Bandits

Arxiv

0+阅读 · 5月30日

Regret Equals Covariance: A Closed-Form Characterization for Stochastic Optimization

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

随机网络效用最大化在战略排队系统中的博弈论方法

随机网络效用最大化在战略排队系统中的博弈论方法

专知会员服务

11+阅读 · 4月13日

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

专知会员服务

30+阅读 · 2025年10月21日

智能博弈对抗算法及其在情报领域中的应用*

智能博弈对抗算法及其在情报领域中的应用*

专知会员服务

39+阅读 · 2024年12月1日

【普林斯顿博士论文】从博弈论视角看控制中的鲁棒性，266页pdf

【普林斯顿博士论文】从博弈论视角看控制中的鲁棒性，266页pdf

专知会员服务

40+阅读 · 2024年2月27日

博弈论应用《互补战场上的多场战斗对抗》

博弈论应用《互补战场上的多场战斗对抗》

专知会员服务

27+阅读 · 2024年1月30日

【博士论文】最优传输的进展：低秩结构及其在机器学习中的应用，364页pdf

【博士论文】最优传输的进展：低秩结构及其在机器学习中的应用，364页pdf

专知会员服务

49+阅读 · 2023年10月26日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

专知会员服务

19+阅读 · 2022年6月16日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

《人机对抗中的博弈学习方法》21页PDF，中科院自动化所最新发表

专知会员服务

117+阅读 · 2022年3月29日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

23+阅读 · 2022年8月28日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

换个角度看GAN：另一种损失函数

换个角度看GAN：另一种损失函数

机器之心

16+阅读 · 2019年1月1日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

相关论文

Near-Optimal Stochastic Linear Bandits with Delay

Arxiv

0+阅读 · 6月15日

DAL: A Practical Prior-Free Black-Box Framework for Piecewise Stationary Bandits

Arxiv

0+阅读 · 6月13日

Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts

Arxiv

0+阅读 · 6月12日

Algorithm for Contextual Queueing Bandits with Rate-Optimal Queue Length Regret

Arxiv

0+阅读 · 6月8日

Multi-Armed Bandits with Arriving Arms: Sequential Screening, Dynamic Regret, and Sublinear Guarantees

Arxiv

0+阅读 · 6月8日

Regret Minimization with Adaptive Opponents in Repeated Games

Arxiv

0+阅读 · 6月4日

Offline-to-Online Learning in Linear Bandits

Arxiv

0+阅读 · 6月3日

Minimax-Optimal Policy Regret in Partially Observable Markov Games

Arxiv

0+阅读 · 6月1日

Asymptotic Theory and Sequential Testing for Adaptive Bandits

Arxiv

0+阅读 · 5月30日

Regret Equals Covariance: A Closed-Form Characterization for Stochastic Optimization

Arxiv

0+阅读 · 5月13日

相关基金

面向大规模分布式一致性最优化问题的结构型一阶求解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

随机对策的首达目标准则及其有限逼近

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

随机递归最优控制及其在金融中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

2+阅读 · 2014年12月31日

保险金融市场中相依风险模型的随机最优控制

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

两类非马氏保险模型下的最优问题以及公司合并问题

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员