Adaptive traffic signal control (ATSC) is crucial in alleviating congestion, maximizing throughput and promoting sustainable mobility in ever-expanding cities. Multi-Agent Reinforcement Learning (MARL) has recently shown significant potential in addressing complex traffic dynamics, but the intricacies of partial observability and coordination in decentralized environments still remain key challenges in formulating scalable and efficient control strategies. To address these challenges, we present CoordLight, a MARL-based framework designed to improve intra-neighborhood traffic by enhancing decision-making at individual junctions (agents), as well as coordination with neighboring agents, thereby scaling up to network-level traffic optimization. Specifically, we introduce the Queue Dynamic State Encoding (QDSE), a novel state representation based on vehicle queuing models, which strengthens the agents' capability to analyze, predict, and respond to local traffic dynamics. We further propose an advanced MARL algorithm, named Neighbor-aware Policy Optimization (NAPO). It integrates an attention mechanism that discerns the state and action dependencies among adjacent agents, aiming to facilitate more coordinated decision-making, and to improve policy learning updates through robust advantage calculation. This enables agents to identify and prioritize crucial interactions with influential neighbors, thus enhancing the targeted coordination and collaboration among agents. Through comprehensive evaluations against state-of-the-art traffic signal control methods over three real-world traffic datasets composed of up to 196 intersections, we empirically show that CoordLight consistently exhibits superior performance across diverse traffic networks with varying traffic flows. The code is available at https://github.com/marmotlab/CoordLight


翻译:自适应交通信号控制(ATSC)在缓解拥堵、最大化通行能力以及促进城市可持续发展中至关重要。多智能体强化学习(MARL)近期在处理复杂交通动态方面展现出巨大潜力,但分散环境下的部分可观测性与协调复杂性仍是构建可扩展高效控制策略的关键挑战。为应对这些挑战,我们提出CoordLight——一个基于MARL的框架,旨在通过增强单个交叉口(智能体)的决策能力及其与相邻智能体的协调,实现社区内交通优化并扩展至网络级交通优化。具体而言,我们引入队列动态状态编码(QDSE),一种基于车辆排队模型的新型状态表征,提升智能体分析、预测及响应局部交通动态的能力。进一步提出先进MARL算法——邻域感知策略优化(NAPO),该算法集成注意力机制以识别相邻智能体间的状态与动作依赖关系,旨在促进更协调的决策,并通过鲁棒优势计算改进策略学习更新。这使得智能体能够识别并优先处理与关键邻域智能体的重要交互,从而增强智能体间的靶向协调与协作。通过在三个包含多达196个交叉口的真实交通数据集上,与最先进的交通信号控制方法进行综合评估,我们实证表明CoordLight在不同车流模式的多样化交通网络中持续展现卓越性能。代码已开源至https://github.com/marmotlab/CoordLight

0
下载
关闭预览

相关内容

多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
《分布式多智能体强化学习策略的可解释性研究》
专知会员服务
29+阅读 · 2025年11月17日
《空战战术多智能体强化学习中的可解释性》最新报告
专知会员服务
86+阅读 · 2024年10月25日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
56+阅读 · 2022年11月2日
「基于通信的多智能体强化学习」 进展综述
华为分享 异质图表示学习(异质图神经网络)
图与推荐
14+阅读 · 2020年9月10日
用Attention玩转CV,一文总览自注意力语义分割进展
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员