自适应价值分解：协调城市系统中动态变化的智能体数量 (Adaptive Value Decomposition: Coordinating a Varying Number of Agents in Urban Systems) - 专知论文

会员服务 ·

0

系统 · 智能体 · 自适应 · 分解 · 城市系统 ·

Adaptive Value Decomposition: Coordinating a Varying Number of Agents in Urban Systems

翻译：自适应价值分解：协调城市系统中动态变化的智能体数量

Yexin Li,Jinjin Guo,Haoyu Zhang,Yuhan Zhao,Yiwen Sun,Zihao Jiao

Multi-agent reinforcement learning (MARL) provides a promising paradigm for coordinating multi-agent systems (MAS). However, most existing methods rely on restrictive assumptions, such as a fixed number of agents and fully synchronous action execution. These assumptions are often violated in urban systems, where the number of active agents varies over time, and actions may have heterogeneous durations, resulting in a semi-MARL setting. Moreover, while sharing policy parameters among agents is commonly adopted to improve learning efficiency, it can lead to highly homogeneous actions when a subset of agents make decisions concurrently under similar observations, potentially degrading coordination quality. To address these challenges, we propose Adaptive Value Decomposition (AVD), a cooperative MARL framework that adapts to a dynamically changing agent population. AVD further incorporates a lightweight mechanism to mitigate action homogenization induced by shared policies, thereby encouraging behavioral diversity and maintaining effective cooperation among agents. In addition, we design a training-execution strategy tailored to the semi-MARL setting that accommodates asynchronous decision-making when some agents act at different times. Experiments on real-world bike-sharing redistribution tasks in two major cities, London and Washington, D.C., demonstrate that AVD outperforms state-of-the-art baselines, confirming its effectiveness and generalizability.

翻译：多智能体强化学习（MARL）为协调多智能体系统（MAS）提供了一个有前景的范式。然而，现有方法大多依赖于严格的假设，例如固定数量的智能体和完全同步的动作执行。这些假设在城市系统中常常被违背，因为活跃智能体的数量会随时间变化，且动作可能具有异质性的持续时间，从而形成一种半MARL环境。此外，虽然共享智能体间的策略参数被广泛采用以提高学习效率，但当一部分智能体在相似观测下同时做出决策时，这可能导致高度同质化的动作，从而可能降低协调质量。为应对这些挑战，我们提出了自适应价值分解（AVD），这是一个能够适应动态变化智能体群体的协作式MARL框架。AVD进一步引入了一种轻量级机制，以缓解由共享策略引起的动作同质化，从而鼓励行为多样性并维持智能体间的有效协作。此外，我们设计了一种专为半MARL环境定制的训练-执行策略，以适应部分智能体在不同时间采取行动时的异步决策。在伦敦和华盛顿特区两个主要城市的真实世界共享单车调度任务上的实验表明，AVD优于当前最先进的基线方法，证实了其有效性和泛化能力。

0

相关内容

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

27+阅读 · 2025年11月17日

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

专知会员服务

32+阅读 · 2025年9月12日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

25+阅读 · 2025年5月7日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

55+阅读 · 2024年8月3日

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

专知会员服务

42+阅读 · 2024年2月28日

《开放环境下协作多智能体强化学习研究进展综述》南大最新62页长综述

《开放环境下协作多智能体强化学习研究进展综述》南大最新62页长综述

专知会员服务

63+阅读 · 2024年2月2日

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

专知会员服务

30+阅读 · 2023年6月18日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Fluid-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月16日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Federated Hierarchical Reinforcement Learning for Adaptive Traffic Signal Control

Arxiv

0+阅读 · 2月7日

Bandwidth-constrained Variational Message Encoding for Cooperative Multi-agent Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity

Arxiv

0+阅读 · 2月3日

Agent Primitives: Reusable Latent Building Blocks for Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

MACTAS: Self-Attention-Based Inter-Agent Communication in Multi-Agent Reinforcement Learning with Action-Value Function Decomposition

Arxiv

0+阅读 · 1月23日

Factored Value Functions for Graph-Based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 1月16日

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

相关VIP内容

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《分布式多智能体强化学习策略的可解释性研究》

《分布式多智能体强化学习策略的可解释性研究》

专知会员服务

27+阅读 · 2025年11月17日

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

《空战战术中多智能体强化学习战略决策的可解释性研究》最新报告

专知会员服务

32+阅读 · 2025年9月12日

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

《多智能体系统的神经协调：多领域任务环境中基于深度学习的智能体最优选择框架》

专知会员服务

25+阅读 · 2025年5月7日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

55+阅读 · 2024年8月3日

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

《通过场景独立表征实现多智能体迁移强化学习》2024最新论文

专知会员服务

42+阅读 · 2024年2月28日

《开放环境下协作多智能体强化学习研究进展综述》南大最新62页长综述

《开放环境下协作多智能体强化学习研究进展综述》南大最新62页长综述

专知会员服务

63+阅读 · 2024年2月2日

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

《多智能体深度强化学习模型中动作序列的解释》AAMAS 2023

专知会员服务

30+阅读 · 2023年6月18日

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

同济等最新《多智能体强化学习》综述，43页pdf详述MARL方法、应用、展望与挑战

专知会员服务

64+阅读 · 2023年5月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

11+阅读 · 2022年11月26日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

58+阅读 · 2022年4月30日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

15+阅读 · 2020年9月9日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Fluid-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月16日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Federated Hierarchical Reinforcement Learning for Adaptive Traffic Signal Control

Arxiv

0+阅读 · 2月7日

Bandwidth-constrained Variational Message Encoding for Cooperative Multi-agent Reinforcement Learning

Arxiv

0+阅读 · 2月4日

Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity

Arxiv

0+阅读 · 2月3日

Agent Primitives: Reusable Latent Building Blocks for Multi-Agent Systems

Arxiv

0+阅读 · 2月3日

MACTAS: Self-Attention-Based Inter-Agent Communication in Multi-Agent Reinforcement Learning with Action-Value Function Decomposition

Arxiv

0+阅读 · 1月23日

Factored Value Functions for Graph-Based Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 1月16日

Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning

Arxiv

0+阅读 · 1月14日

相关基金

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统有限时间一致性的自适应控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员