Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers - 专知论文

会员服务 ·

0

多目标 · 多目标强化学习 · 协同 · 约束 · 强化学习 ·

Multi-Objective Reinforcement Learning for Large-Scale Tote Allocation in Human-Robot Collaborative Fulfillment Centers

翻译：大规模人机协同履约中心货箱分配的多目标强化学习

Sikata Sengupta,Guangyi Liu,Omer Gottesman,Joseph W Durham,Michael Kearns,Aaron Roth,Michael Caldara

Optimizing the consolidation process in container-based fulfillment centers requires trading off competing objectives such as processing speed, resource usage, and space utilization while adhering to a range of real-world operational constraints. This process involves moving items between containers via a combination of human and robotic workstations to free up space for inbound inventory and increase container utilization. We formulate this problem as a large-scale Multi-Objective Reinforcement Learning (MORL) task with high-dimensional state spaces and dynamic system behavior. Our method builds on recent theoretical advances in solving constrained RL problems via best-response and no-regret dynamics in zero-sum games, enabling principled minimax policy learning. Policy evaluation on realistic warehouse simulations shows that our approach effectively trades off objectives, and we empirically observe that it learns a single policy that simultaneously satisfies all constraints, even if this is not theoretically guaranteed. We further introduce a theoretical framework to handle the problem of error cancellation, where time-averaged solutions display oscillatory behavior. This method returns a single iterate whose Lagrangian value is close to the minimax value of the game. These results demonstrate the promise of MORL in solving complex, high-impact decision-making problems in large-scale industrial systems.

翻译：在基于货箱的履约中心中，优化整合流程需要在处理速度、资源使用率和空间利用率等相互冲突的目标之间进行权衡，同时还需满足一系列现实操作约束。该流程通过人工作业站与机器人工作站的协同，在货箱间移动物品，从而为入库库存释放空间并提升货箱利用率。我们将此问题建模为一个具有高维状态空间和动态系统行为的大规模多目标强化学习任务。我们的方法基于近期通过零和博弈中的最优响应与无悔动态求解约束强化学习问题的理论进展，实现了有理论依据的极小极大策略学习。在真实仓库仿真环境中的策略评估表明，我们的方法能有效权衡各项目标；经验观察发现，即使缺乏理论保证，该方法仍能学习到同时满足所有约束的单一策略。我们进一步提出了处理误差抵消问题的理论框架，该问题会导致时间平均解呈现振荡行为。该方法返回一个单一迭代解，其拉格朗日值接近博弈的极小极大值。这些结果证明了多目标强化学习在解决大规模工业系统中复杂且具有高影响力的决策问题方面的潜力。

0

相关内容

多目标

《抗干扰协同无人机中继网络的多智能体深度强化学习》

《抗干扰协同无人机中继网络的多智能体深度强化学习》

专知会员服务

27+阅读 · 2025年12月31日

《基于图计算的多机器人协同研究》最新139页

《基于图计算的多机器人协同研究》最新139页

专知会员服务

37+阅读 · 2025年5月28日

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

专知会员服务

60+阅读 · 2025年4月6日

【剑桥博士论文】面向多机器人系统的学习型协同感知与控制

【剑桥博士论文】面向多机器人系统的学习型协同感知与控制

专知会员服务

25+阅读 · 2025年3月26日

智能集群系统的强化学习方法综述

智能集群系统的强化学习方法综述

专知会员服务

84+阅读 · 2024年1月1日

《用于空战机动的分层多智能体强化学习》

《用于空战机动的分层多智能体强化学习》

专知会员服务

68+阅读 · 2023年10月5日

基于多智能体强化学习的协同目标分配

基于多智能体强化学习的协同目标分配

专知会员服务

139+阅读 · 2023年9月5日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知会员服务

102+阅读 · 2022年11月2日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知会员服务

260+阅读 · 2022年8月23日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

38+阅读 · 2023年4月11日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【AGV】仓库内多AGV协作的全局路径规划算法的研究

【AGV】仓库内多AGV协作的全局路径规划算法的研究

产业智能官

28+阅读 · 2018年11月10日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

基于多自主体的集装箱多式联运协调与协同优化研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

集成情境信息的协同物流柔性运作过程建模与分析

国家自然科学基金

1+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

基于物联网的集装箱甩挂运输协同机制与动态调度方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

自动化集装箱码头装卸作业的时空同步策略与优化方法

国家自然科学基金

1+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

Generative AI and Machine Learning Collaboration for Container Dwell Time Prediction via Data Standardization

Arxiv

0+阅读 · 2月24日

Rendezvous and Docking of Mobile Ground Robots for Efficient Transportation Systems

Arxiv

0+阅读 · 2月23日

Resource-Aware Distributed Submodular Maximization: A Paradigm for Multi-Robot Decision-Making

Arxiv

0+阅读 · 2月23日

Dual-Quadruped Collaborative Transportation in Narrow Environments via Safe Reinforcement Learning

Arxiv

0+阅读 · 2月18日

Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction

Arxiv

0+阅读 · 2月16日

Hierarchical Reinforcement Learning for Cooperative Air-Ground Delivery in Urban System

Arxiv

0+阅读 · 2月13日

Decentralized Reinforcement Learning for Multi-Agent Multi-Resource Allocation via Dynamic Cluster Agreements

Arxiv

0+阅读 · 2月11日

Co-jump: Cooperative Jumping with Quadrupedal Robots via Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

GRAND: Guidance, Rebalancing, and Assignment for Networked Dispatch in Multi-Agent Path Finding

Arxiv

0+阅读 · 2月7日

Hierarchical Multi-Agent Reinforcement Learning for Air Combat Maneuvering

Arxiv

49+阅读 · 2023年9月20日

VIP会员

文章信息

相关主题

多目标强化学习

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

10+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

7+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

4+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

19+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

11+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

《抗干扰协同无人机中继网络的多智能体深度强化学习》

《抗干扰协同无人机中继网络的多智能体深度强化学习》

专知会员服务

27+阅读 · 2025年12月31日

《基于图计算的多机器人协同研究》最新139页

《基于图计算的多机器人协同研究》最新139页

专知会员服务

37+阅读 · 2025年5月28日

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

《多机器人系统协作效能提升：基于模型与数据驱动的具身智能方法》339页

专知会员服务

60+阅读 · 2025年4月6日

【剑桥博士论文】面向多机器人系统的学习型协同感知与控制

【剑桥博士论文】面向多机器人系统的学习型协同感知与控制

专知会员服务

25+阅读 · 2025年3月26日

智能集群系统的强化学习方法综述

智能集群系统的强化学习方法综述

专知会员服务

84+阅读 · 2024年1月1日

《用于空战机动的分层多智能体强化学习》

《用于空战机动的分层多智能体强化学习》

专知会员服务

68+阅读 · 2023年10月5日

基于多智能体强化学习的协同目标分配

基于多智能体强化学习的协同目标分配

专知会员服务

139+阅读 · 2023年9月5日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知会员服务

102+阅读 · 2022年11月2日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知会员服务

260+阅读 · 2022年8月23日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

123+阅读 · 2020年5月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

38+阅读 · 2023年4月11日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

八千字长文深度解读，迁移学习在强化学习中的应用及最新进展

机器之心

13+阅读 · 2019年10月17日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【AGV】仓库内多AGV协作的全局路径规划算法的研究

【AGV】仓库内多AGV协作的全局路径规划算法的研究

产业智能官

28+阅读 · 2018年11月10日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Generative AI and Machine Learning Collaboration for Container Dwell Time Prediction via Data Standardization

Arxiv

0+阅读 · 2月24日

Rendezvous and Docking of Mobile Ground Robots for Efficient Transportation Systems

Arxiv

0+阅读 · 2月23日

Resource-Aware Distributed Submodular Maximization: A Paradigm for Multi-Robot Decision-Making

Arxiv

0+阅读 · 2月23日

Dual-Quadruped Collaborative Transportation in Narrow Environments via Safe Reinforcement Learning

Arxiv

0+阅读 · 2月18日

Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction

Arxiv

0+阅读 · 2月16日

Hierarchical Reinforcement Learning for Cooperative Air-Ground Delivery in Urban System

Arxiv

0+阅读 · 2月13日

Decentralized Reinforcement Learning for Multi-Agent Multi-Resource Allocation via Dynamic Cluster Agreements

Arxiv

0+阅读 · 2月11日

Co-jump: Cooperative Jumping with Quadrupedal Robots via Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

GRAND: Guidance, Rebalancing, and Assignment for Networked Dispatch in Multi-Agent Path Finding

Arxiv

0+阅读 · 2月7日

Hierarchical Multi-Agent Reinforcement Learning for Air Combat Maneuvering

Arxiv

49+阅读 · 2023年9月20日

相关基金

基于多自主体的集装箱多式联运协调与协同优化研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

集成情境信息的协同物流柔性运作过程建模与分析

国家自然科学基金

1+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

基于物联网的集装箱甩挂运输协同机制与动态调度方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

自动化集装箱码头装卸作业的时空同步策略与优化方法

国家自然科学基金

1+阅读 · 2014年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员