Dispatch in three-sided marketplaces provides a natural setting for reinforcement learning from world feedback: decisions are evaluated by delayed operational outcomes such as delivery speed, courier utilization, and merchant congestion. We present a deployed reinforcement learning system at DoorDash that adapts dispatch objective weights in a large-scale food-delivery marketplace using delayed signals. Rather than replacing the combinatorial assignment optimizer, a store-level policy learned from logged marketplace data selects a discrete multiplier that shifts the dispatch optimizer's tradeoff between delivery quality and batching efficiency. This interface enables offline policy learning under noisy, delayed, and coupled feedback while preserving production feasibility constraints and operational safeguards. We train a shared value function using centralized offline data and decentralized store-level execution, with Double Q-learning targets and a conservative regularizer to reduce out-of-distribution value overestimation. In a production switchback experiment, the offline-trained policy increases batching and reduces courier-side time costs without degrading customer-facing delivery quality. Results illustrate how world feedback from a live economic and logistics system can be used to safely adapt decision policies online.


翻译:三方市场中的调度为从世界反馈中进行强化学习提供了天然场景:决策通过延迟运营结果(如配送速度、骑手利用率、商家拥堵程度)进行评估。我们在DoorDash提出了一套已部署的强化学习系统,该系统利用延迟信号在大规模食品配送市场中自适应调整调度目标权重。该方法并非替代组合分配优化器,而是通过从历史市场数据中学到的店铺级策略来选择离散乘数,从而调整调度优化器在配送质量与批处理效率之间的权衡。这种接口使得在噪声、延迟且耦合的反馈下进行离线策略学习成为可能,同时保留生产可行性约束与运营保障。我们利用集中式离线数据和分散式店铺级执行训练共享值函数,采用双Q学习目标与保守正则化器以减少分布外价值高估。在生产切换实验中,离线训练的策略在未降低面向客户的配送质量前提下,提升了批处理效率并降低了骑手端时间成本。结果展示了如何利用真实经济与物流系统的世界反馈,安全地在线上自适应调整决策策略。

0
下载
关闭预览

相关内容

【NTU博士论文】基于协作式多智能体强化学习的决策制定
多智能体强化学习控制与决策研究综述
专知会员服务
49+阅读 · 2024年11月23日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
基于多智能体强化学习的协同目标分配
专知会员服务
141+阅读 · 2023年9月5日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
158+阅读 · 2023年5月4日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
多智能体深度强化学习的若干关键科学问题
专知会员服务
196+阅读 · 2020年5月24日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
强化学习初探 - 从多臂老虎机问题说起
专知
10+阅读 · 2018年4月3日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
【NTU博士论文】基于协作式多智能体强化学习的决策制定
多智能体强化学习控制与决策研究综述
专知会员服务
49+阅读 · 2024年11月23日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
基于多智能体强化学习的协同目标分配
专知会员服务
141+阅读 · 2023年9月5日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
158+阅读 · 2023年5月4日
基于通信的多智能体强化学习进展综述
专知会员服务
112+阅读 · 2022年11月12日
多智能体深度强化学习的若干关键科学问题
专知会员服务
196+阅读 · 2020年5月24日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员