We study city-scale control of electric-vehicle (EV) ride-hailing fleets where dispatch, repositioning, and charging decisions must respect charger and feeder limits under uncertain, spatially correlated demand and travel times. We formulate the problem as a hex-grid semi-Markov decision process (semi-MDP) with mixed actions -- discrete actions for serving, repositioning, and charging, together with continuous charging power -- and variable action durations. To guarantee physical feasibility during both training and deployment, the policy learns over high-level intentions produced by a masked, temperature-annealed actor. These intentions are projected at every decision step through a time-limited rolling mixed-integer linear program (MILP) that strictly enforces state-of-charge, port, and feeder constraints. To mitigate distributional shifts, we optimize a Soft Actor--Critic (SAC) agent against a Wasserstein-1 ambiguity set with a graph-aligned Mahalanobis ground metric that captures spatial correlations. The robust backup uses the Kantorovich--Rubinstein dual, a projected subgradient inner loop, and a primal--dual risk-budget update. Our architecture combines a two-layer Graph Convolutional Network (GCN) encoder, twin critics, and a value network that drives the adversary. Experiments on a large-scale EV fleet simulator built from NYC taxi data show that PD--RSAC achieves the highest net profit, reaching \$1.22M, compared with \$0.58M--\$0.70M for strong heuristic, single-agent RL, and multi-agent RL baselines, including Greedy, SAC, MAPPO, and MADDPG, while maintaining zero feeder-limit violations.


翻译:我们研究城市规模的电动网约车车队控制问题,其中调度、重定位和充电决策必须在不确定且空间相关的需求与行程时间条件下,同时尊重充电桩和馈线容量限制。我们将该问题建模为六边形网格半马尔可夫决策过程,其中混合动作包含离散动作(用于服务、重定位和充电)与连续充电功率,且动作持续时间可变。为保证训练与部署阶段的物理可行性,策略基于掩码温度退火演员网络产生的高层意图进行学习。这些意图在每个决策时刻通过一个限时滚动混合整数线性规划进行投影,以严格强制执行荷电状态、充电端口和馈线约束。为缓解分布偏移,我们使用基于Wasserstein-1模糊集与捕获空间相关性的图对齐马氏距离地标度量,对软演员-评论家智能体进行优化。鲁棒后备策略采用Kantorovich-Rubinstein对偶形式、投影次梯度内循环及原始-对偶风险预算更新机制。我们的架构包含两层图卷积网络编码器、双评论家网络及驱动对抗者的价值网络。基于纽约出租车数据构建的大规模电动汽车车队模拟器实验表明,PD-RSAC算法实现了最高净利润122万美元,远高于强启发式方法、单智能体强化学习和多智能体强化学习基线(包括Greedy、SAC、MAPPO和MADDPG)的58万至70万美元,同时保持零馈线容量违规。

0
下载
关闭预览

相关内容

基于深度强化学习的多无人车系统编队控制
专知会员服务
46+阅读 · 2024年2月23日
电动汽车路径规划模型与算法研究进展
专知会员服务
17+阅读 · 2024年2月10日
【CTH博士论文】基于强化学习的自动驾驶决策,149页pdf
专知会员服务
59+阅读 · 2023年2月18日
滴滴司机调度系统实践
DataFunTalk
19+阅读 · 2020年8月9日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真(三)
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
MAAS:出行服务的颠覆者
智能交通技术
16+阅读 · 2018年12月27日
李克强:智能车辆运动控制研究综述
厚势
21+阅读 · 2017年10月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
3+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关资讯
滴滴司机调度系统实践
DataFunTalk
19+阅读 · 2020年8月9日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真(三)
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
MAAS:出行服务的颠覆者
智能交通技术
16+阅读 · 2018年12月27日
李克强:智能车辆运动控制研究综述
厚势
21+阅读 · 2017年10月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员