Reinforcement Learning (RL) in Traffic Signal Control (TSC) faces significant hurdles in real-world deployment due to limited generalization to dynamic traffic flow variations. Existing approaches often overfit static patterns and use action spaces incompatible with driver expectations. This paper proposes a robust Multi-Agent Reinforcement Learning (MARL) framework validated in the Vissim traffic simulator. The framework integrates three mechanisms: (1) Turning Ratio Randomization, a training strategy that exposes agents to dynamic turning probabilities to enhance robustness against unseen scenarios; (2) a stability-oriented Exponential Phase Duration Adjustment action space, which balances responsiveness and precision through cyclical, exponential phase adjustments; and (3) a Neighbor-Based Observation scheme utilizing the MAPPO algorithm with Centralized Training with Decentralized Execution (CTDE). By leveraging centralized updates, this approach approximates the efficacy of global observations while maintaining scalable local communication. Experimental results demonstrate that our framework outperforms standard RL baselines, reducing average waiting time by over 10%. The proposed model exhibits superior generalization in unseen traffic scenarios and maintains high control stability, offering a practical solution for adaptive signal control.


翻译:交通信号控制中的强化学习由于对动态交通流变化的泛化能力有限,在实际部署中面临重大障碍。现有方法通常过度拟合静态模式,且采用与驾驶员预期不兼容的动作空间。本文提出一种在Vissim交通仿真器中验证的鲁棒多智能体强化学习框架。该框架整合了三种机制:(1)转向比随机化——一种通过将智能体暴露于动态转向概率以增强对未见场景鲁棒性的训练策略;(2)面向稳定性的指数相位时长调整动作空间——通过周期性指数相位调整实现响应性与精确性的平衡;(3)基于邻居观测的方案,采用MAPPO算法及集中训练分散执行架构。通过利用集中式更新,该方法在保持可扩展局部通信的同时,近似实现了全局观测的效果。实验结果表明,本框架优于标准强化学习基线,平均等待时间降低超过10%。所提模型在未见交通场景中展现出卓越的泛化能力,并保持高控制稳定性,为自适应信号控制提供了实用解决方案。

0
下载
关闭预览

相关内容

多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
44+阅读 · 2025年10月30日
多智能体强化学习控制与决策研究综述
专知会员服务
48+阅读 · 2024年11月23日
基于多智能体强化学习的博弈综述
专知会员服务
51+阅读 · 2024年11月23日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
「基于通信的多智能体强化学习」 进展综述
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月13日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
6+阅读 · 今天4:27
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
15+阅读 · 今天4:20
智能体化世界建模:基础、能力、规律及展望
专知会员服务
9+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关资讯
「基于通信的多智能体强化学习」 进展综述
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员