Self-Configurable Mesh-Networks for Scalable Distributed Submodular Bandit Optimization - 专知论文

会员服务 ·

0

赌博机 · 扩展性 · 可扩展性 · 智能体 · 带宽 ·

Self-Configurable Mesh-Networks for Scalable Distributed Submodular Bandit Optimization

翻译：可扩展分布式次模赌博机优化的自配置网状网络

Zirui Xu,Vasileios Tzoumas

We study how to scale distributed bandit submodular coordination under realistic communication constraints in bandwidth, data rate, and connectivity. We are motivated by multi-agent tasks of active situational awareness in unknown, partially-observable, and resource-limited environments, where the agents must coordinate through agent-to-agent communication. Our approach enables scalability by (i) limiting information relays to only one-hop communication and (ii) keeping inter-agent messages small, having each agent transmit only its own action information. Despite these information-access restrictions, our approach enables near-optimal action coordination by optimizing the agents' communication neighborhoods over time, through distributed online bandit optimization, subject to the agents' bandwidth constraints. Particularly, our approach enjoys an anytime suboptimality bound that is also strictly positive for arbitrary network topologies, even disconnected. To prove the bound, we define the Value of Coordination (VoC), an information-theoretic metric that quantifies for each agent the benefit of information access to its neighbors. We validate in simulations the scalability and near-optimality of our approach: it is observed to converge faster, outperform benchmarks for bandit submodular coordination, and can even outperform benchmarks that are privileged with a priori knowledge of the environment.

翻译：本研究探讨在带宽、数据速率和连通性等现实通信约束下，如何实现分布式赌博机次模协调的可扩展性。研究动机源于未知、部分可观测且资源受限环境中多智能体主动态势感知任务，此类任务要求智能体必须通过点对点通信进行协调。我们的方法通过以下机制实现可扩展性：(i) 将信息中继限制在单跳通信范围内；(ii)保持智能体间消息小型化，使每个智能体仅传输自身动作信息。尽管存在这些信息访问限制，我们的方法通过在智能体带宽约束条件下，通过分布式在线赌博机优化动态优化智能体的通信邻域，实现了近乎最优的动作协调。特别值得注意的是，该方法具备随时次优性界，且该界限对于任意网络拓扑（包括非连通网络）均保持严格正值。为证明该界限，我们定义了协调价值——一种信息论度量指标，用于量化每个智能体访问邻居信息所获得的收益。我们通过仿真验证了该方法在可扩展性和近优性方面的优势：观测到该方法具有更快的收敛速度，在赌博机次模协调任务中超越基准方法，甚至能够优于那些具备环境先验知识的基准方法。

0

相关内容

赌博机

随机网络效用最大化在战略排队系统中的博弈论方法

随机网络效用最大化在战略排队系统中的博弈论方法

专知会员服务

11+阅读 · 4月13日

《基于图神经网络、深度强化学习与概率主题建模的战略对手建模》

《基于图神经网络、深度强化学习与概率主题建模的战略对手建模》

专知会员服务

31+阅读 · 2025年11月16日

多智能体博弈中的分布式学习：原理与算法

多智能体博弈中的分布式学习：原理与算法

专知会员服务

54+阅读 · 2024年6月13日

多智能体系统带宽分配及预测云控制

多智能体系统带宽分配及预测云控制

专知会员服务

18+阅读 · 2023年7月9日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

「分布式机器学习系统网络性能优化」研究进展

「分布式机器学习系统网络性能优化」研究进展

专知会员服务

28+阅读 · 2022年10月1日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

专知会员服务

25+阅读 · 2022年4月10日

纽约大学等《网络、博弈和学习的融合：网络上多智能体决策的博弈论框架》，60页pdf

纽约大学等《网络、博弈和学习的融合：网络上多智能体决策的博弈论框架》，60页pdf

专知会员服务

135+阅读 · 2022年4月3日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

AI研习社

22+阅读 · 2019年1月10日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

专知

14+阅读 · 2018年3月30日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

网络化非线性系统的协调控制及其在分布式可重构航天器中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

基于调度采样的网络化系统分布式控制策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

主动配电网分布式自律优化调控的关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于对等网的可扩展流媒体分发模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

Distributed Equilibrium-Seeking in Target Coverage Games via Self-Configurable Networks under Limited Communication

Arxiv

0+阅读 · 3月18日

Resilient Chaotic Cross-Layer Routing for Smart Grid IoT Networks

Arxiv

0+阅读 · 3月15日

Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners

Arxiv

0+阅读 · 2月19日

Energy-Efficient Routing Protocol in Vehicular Opportunistic Networks: A Dynamic Cluster-based Routing Using Deep Reinforcement Learning

Arxiv

0+阅读 · 2月17日

Replicable Constrained Bandits

Arxiv

0+阅读 · 2月16日

Decentralized Optimal Equilibrium Learning in Stochastic Games via Single-bit Feedback

Arxiv

0+阅读 · 2月13日

Self-Concordant Perturbations for Linear Bandits

Arxiv

0+阅读 · 2月12日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

NetWorld: Communication-Based Diffusion World Model for Multi-Agent Reinforcement Learning in Wireless Networks

Arxiv

0+阅读 · 1月31日

Stochastic Linear Bandits with Parameter Noise

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

5+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

10+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

随机网络效用最大化在战略排队系统中的博弈论方法

随机网络效用最大化在战略排队系统中的博弈论方法

专知会员服务

11+阅读 · 4月13日

《基于图神经网络、深度强化学习与概率主题建模的战略对手建模》

《基于图神经网络、深度强化学习与概率主题建模的战略对手建模》

专知会员服务

31+阅读 · 2025年11月16日

多智能体博弈中的分布式学习：原理与算法

多智能体博弈中的分布式学习：原理与算法

专知会员服务

54+阅读 · 2024年6月13日

多智能体系统带宽分配及预测云控制

多智能体系统带宽分配及预测云控制

专知会员服务

18+阅读 · 2023年7月9日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知会员服务

147+阅读 · 2022年11月14日

「分布式机器学习系统网络性能优化」研究进展

「分布式机器学习系统网络性能优化」研究进展

专知会员服务

28+阅读 · 2022年10月1日

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

长综述《用于随机控制和博弈的机器学习方法最新发展》2022最新76页长论文，加州大学、上海纽约大学等

专知会员服务

47+阅读 · 2022年9月29日

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

DARPA SI3-CMD项目支持，《网络多智能体影响博弈中的可扩展均衡计算》麻省理工、马里兰大学，Scalable Equilibrium Computation in Multi-agent Influence Games on Networks

专知会员服务

25+阅读 · 2022年4月10日

纽约大学等《网络、博弈和学习的融合：网络上多智能体决策的博弈论框架》，60页pdf

纽约大学等《网络、博弈和学习的融合：网络上多智能体决策的博弈论框架》，60页pdf

专知会员服务

135+阅读 · 2022年4月3日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

Github 项目推荐 | 论文的代码实现：可变形ConvNets v2的PyTorch实现

AI研习社

22+阅读 · 2019年1月10日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

专知

14+阅读 · 2018年3月30日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

相关论文

Distributed Equilibrium-Seeking in Target Coverage Games via Self-Configurable Networks under Limited Communication

Arxiv

0+阅读 · 3月18日

Resilient Chaotic Cross-Layer Routing for Smart Grid IoT Networks

Arxiv

0+阅读 · 3月15日

Online Learning with Improving Agents: Multiclass, Budgeted Agents and Bandit Learners

Arxiv

0+阅读 · 2月19日

Energy-Efficient Routing Protocol in Vehicular Opportunistic Networks: A Dynamic Cluster-based Routing Using Deep Reinforcement Learning

Arxiv

0+阅读 · 2月17日

Replicable Constrained Bandits

Arxiv

0+阅读 · 2月16日

Decentralized Optimal Equilibrium Learning in Stochastic Games via Single-bit Feedback

Arxiv

0+阅读 · 2月13日

Self-Concordant Perturbations for Linear Bandits

Arxiv

0+阅读 · 2月12日

A Review of Online Diffusion Policy RL Algorithms for Scalable Robotic Control

Arxiv

0+阅读 · 2月9日

NetWorld: Communication-Based Diffusion World Model for Multi-Agent Reinforcement Learning in Wireless Networks

Arxiv

0+阅读 · 1月31日

Stochastic Linear Bandits with Parameter Noise

Arxiv

0+阅读 · 1月30日

相关基金

网络化非线性系统的协调控制及其在分布式可重构航天器中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

随机接入中的分布式功率控制和数据包编码传输

国家自然科学基金

0+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

基于调度采样的网络化系统分布式控制策略研究

国家自然科学基金

0+阅读 · 2015年12月31日

主动配电网分布式自律优化调控的关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于对等网的可扩展流媒体分发模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

随机排队网络的强逼近及其相关渐近分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员