Boltzmann-based Exploration for Robust Decentralized Multi-Agent Planning - 专知论文

会员服务 ·

0

多智能体规划 · 鲁棒 · 多智能体 · 智能体 · 蒙特卡洛 ·

Boltzmann-based Exploration for Robust Decentralized Multi-Agent Planning

翻译：基于玻尔兹曼探索的鲁棒去中心化多智能体规划

Nhat Nguyen,Duong Nguyen,Gianluca Rizzo,Hung Nguyen

from arxiv, To appear in ICAPS 2026

Decentralized Monte Carlo Tree Search (Dec-MCTS) is widely used for cooperative multi-agent planning but struggles in sparse or skewed reward environments. We introduce Coordinated Boltzmann MCTS (CB-MCTS), which replaces deterministic UCT with a stochastic Boltzmann policy and a decaying entropy bonus for sustained yet focused exploration. While Boltzmann exploration has been studied in single-agent MCTS, applying it in multi-agent systems poses unique challenges. CB-MCTS is the first to address this. We analyze CB-MCTS in the simple-regret setting and show in simulations that it outperforms Dec-MCTS in deceptive scenarios and remains competitive on standard benchmarks, providing a robust solution for multi-agent planning.

翻译：去中心化蒙特卡洛树搜索（Dec-MCTS）在协作式多智能体规划中被广泛使用，但在稀疏或偏斜奖励环境中表现不佳。我们提出了协调玻尔兹曼蒙特卡洛树搜索（CB-MCTS），该方法用随机玻尔兹曼策略和衰减熵奖励替代了确定性的UCT，以实现持续且聚焦的探索。虽然玻尔兹曼探索已在单智能体MCTS中得到研究，但将其应用于多智能体系统带来了独特的挑战。CB-MCTS是首个解决此问题的方法。我们在简单遗憾设定下分析了CB-MCTS，并在仿真中证明，其在欺骗性场景中优于Dec-MCTS，同时在标准基准测试中保持竞争力，为多智能体规划提供了一个鲁棒的解决方案。

0

相关内容

多智能体规划

多智能体规划

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

0+阅读 · 今天15:20

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

专知会员服务

17+阅读 · 2月14日

《基于认知层次与高斯过程分类的分布式多智能体运动规划》

《基于认知层次与高斯过程分类的分布式多智能体运动规划》

专知会员服务

29+阅读 · 2月1日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

41+阅读 · 2025年12月28日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

专知会员服务

14+阅读 · 2025年11月8日

多智能体路径规划技术研究综述

多智能体路径规划技术研究综述

专知会员服务

59+阅读 · 2024年9月4日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

134+阅读 · 2022年12月15日

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

专知会员服务

313+阅读 · 2022年6月23日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多节点协作的高鲁棒性低度复杂的抗窃听技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Practical MCTS-based Query Optimization: A Reproducibility Study and new MCTS algorithm for complex queries

Arxiv

0+阅读 · 3月17日

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Arxiv

0+阅读 · 3月12日

Robust Information Design for Multi-Agent Systems with Complementarities: Smallest-Equilibrium Threshold Policies

Arxiv

0+阅读 · 2月26日

Agentic AI for Scalable and Robust Optical Systems Control

Arxiv

0+阅读 · 2月23日

Verification of Robust Multi-Agent Systems

Arxiv

0+阅读 · 2月13日

Distributionally Robust Cooperative Multi-Agent Reinforcement Learning via Robust Value Factorization

Arxiv

0+阅读 · 2月11日

Multi-Agent Route Planning as a QUBO Problem

Arxiv

0+阅读 · 2月8日

Robust Multiagent Collaboration Through Weighted Max-Min T-Joins

Arxiv

0+阅读 · 2月7日

Multi-Agent Monte Carlo Tree Search for Makespan-Efficient Object Rearrangement in Cluttered Spaces

Arxiv

0+阅读 · 2月2日

Multi-agent Coordination via Flow Matching

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

多智能体规划

最新内容

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

0+阅读 · 今天15:20

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

1+阅读 · 今天15:17

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

3+阅读 · 今天13:05

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

2+阅读 · 今天13:00

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

0+阅读 · 今天12:47

【CVPR Oral 2026】LILA：从无标签视频中学习像素级时空一致表示

【CVPR Oral 2026】LILA：从无标签视频中学习像素级时空一致表示

专知会员服务

7+阅读 · 5月3日

【综述】基于大语言模型的对话用户模拟综述

【综述】基于大语言模型的对话用户模拟综述

专知会员服务

6+阅读 · 5月3日

《美战争部人工智能应用用例评估：人类专家与大型语言模型比较》

《美战争部人工智能应用用例评估：人类专家与大型语言模型比较》

专知会员服务

10+阅读 · 5月3日

《无人机与大规模齐射攻击：美国-以色列的经验教训》

《无人机与大规模齐射攻击：美国-以色列的经验教训》

专知会员服务

14+阅读 · 5月3日

《再入飞行器轨迹分析与性能工具的开发及其在SpaceX星舰™上的应用》227页

《再入飞行器轨迹分析与性能工具的开发及其在SpaceX星舰™上的应用》227页

专知会员服务

5+阅读 · 5月3日

《军事人工智能中的法律、伦理和技术困境》338页书籍

《军事人工智能中的法律、伦理和技术困境》338页书籍

专知会员服务

3+阅读 · 5月3日

首场人工智能战争：美军在伊朗对无人机、无人水面艇、无人潜航器、人工智能及商业航天技术的运用

首场人工智能战争：美军在伊朗对无人机、无人水面艇、无人潜航器、人工智能及商业航天技术的运用

专知会员服务

5+阅读 · 5月3日

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

反无人机措施与海湾局势：乌克兰战争对抗无人机的经验教训

专知会员服务

11+阅读 · 5月2日

【CVPR 2026】语义泡沫：统一空间与语义场景分解

【CVPR 2026】语义泡沫：统一空间与语义场景分解

专知会员服务

8+阅读 · 5月2日

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

【综述】智能体AI如何重塑软件开发生命周期：从代码补全到人类监督下的委托执行

专知会员服务

9+阅读 · 5月2日

相关VIP内容

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

0+阅读 · 今天15:20

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

《多智能体系统中的边界定义可容许性：贝尔曼共约、全局安全与分布式最优性》

专知会员服务

17+阅读 · 2月14日

《基于认知层次与高斯过程分类的分布式多智能体运动规划》

《基于认知层次与高斯过程分类的分布式多智能体运动规划》

专知会员服务

29+阅读 · 2月1日

《基于Transformer的智能体的战术决策解释》

《基于Transformer的智能体的战术决策解释》

专知会员服务

41+阅读 · 2025年12月28日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

28+阅读 · 2025年11月17日

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

专知会员服务

14+阅读 · 2025年11月8日

多智能体路径规划技术研究综述

多智能体路径规划技术研究综述

专知会员服务

59+阅读 · 2024年9月4日

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

【NTU博士论文】复杂序列决策中的多智能体强化学习，176页pdf

专知会员服务

72+阅读 · 2024年1月13日

多智能体协同决策方法研究

多智能体协同决策方法研究

专知会员服务

134+阅读 · 2022年12月15日

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

推荐！中文版《作战战略机动的多智能体协作强化学习研究综述》美国陆军研究实验室最新33页研究报告

专知会员服务

313+阅读 · 2022年6月23日

热门VIP内容

开通专知VIP会员享更多权益服务

【综述】机器人学习中的世界模型：全面综述

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

伊朗的导弹-无人机行动及其对美国威慑的影响

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

《可解释人工智能在多域作战中的智能增强》美国陆军、IBM、卡迪夫大学等论文

专知

68+阅读 · 2022年11月2日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】

人工智能前沿讲习班

27+阅读 · 2018年12月13日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Practical MCTS-based Query Optimization: A Reproducibility Study and new MCTS algorithm for complex queries

Arxiv

0+阅读 · 3月17日

A Robust and Efficient Multi-Agent Reinforcement Learning Framework for Traffic Signal Control

Arxiv

0+阅读 · 3月12日

Robust Information Design for Multi-Agent Systems with Complementarities: Smallest-Equilibrium Threshold Policies

Arxiv

0+阅读 · 2月26日

Agentic AI for Scalable and Robust Optical Systems Control

Arxiv

0+阅读 · 2月23日

Verification of Robust Multi-Agent Systems

Arxiv

0+阅读 · 2月13日

Distributionally Robust Cooperative Multi-Agent Reinforcement Learning via Robust Value Factorization

Arxiv

0+阅读 · 2月11日

Multi-Agent Route Planning as a QUBO Problem

Arxiv

0+阅读 · 2月8日

Robust Multiagent Collaboration Through Weighted Max-Min T-Joins

Arxiv

0+阅读 · 2月7日

Multi-Agent Monte Carlo Tree Search for Makespan-Efficient Object Rearrangement in Cluttered Spaces

Arxiv

0+阅读 · 2月2日

Multi-agent Coordination via Flow Matching

Arxiv

0+阅读 · 1月30日

相关基金

基于低秩表示的鲁棒特征抽取和分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多节点协作的高鲁棒性低度复杂的抗窃听技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向生物特征识别的鲁棒判别结构化特征表示方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于势场法的多智能体系统鲁棒自适应刚性编队控制

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员