Online 3D Bin Packing (3D-BP) with robotic arms is crucial for reducing transportation and labor costs in modern logistics. While Deep Reinforcement Learning (DRL) has shown strong performance, it often fails to adapt to real-world short-term distribution shifts, which arise as different batches of goods arrive sequentially, causing performance drops. We argue that the short-term lookahead information available in modern logistics systems is key to mitigating this issue, especially during distribution shifts. We formulate online 3D-BP with lookahead parcels as a Model Predictive Control (MPC) problem and adapt the Monte Carlo Tree Search (MCTS) framework to solve it. Our framework employs a dynamic exploration prior that automatically balances a learned RL policy and a robust random policy based on the lookahead characteristics. Additionally, we design an auxiliary reward to penalize long-term spatial waste from individual placements. Extensive experiments on real-world datasets show that our method consistently outperforms state-of-the-art baselines, achieving over 10\% gains under distributional shifts, 4\% average improvement in online deployment, and up to more than 8\% in the best case--demonstrating the effectiveness of our framework.


翻译:在线三维装箱问题对于现代物流中降低运输与人力成本至关重要。尽管深度强化学习方法已展现出优异性能,但其往往难以适应现实场景中的短期分布偏移——这种偏移源于不同批次货物相继到达,导致性能下降。我们认为,现代物流系统中可获取的短期前瞻信息是缓解该问题的关键,尤其在分布偏移期间。本文将带有前瞻包裹的在线三维装箱问题建模为模型预测控制问题,并采用蒙特卡洛树搜索框架进行求解。该框架采用动态探索先验策略,能够根据前瞻特征自动平衡学习得到的强化学习策略与鲁棒的随机策略。此外,我们设计了辅助奖励函数以惩罚单次放置产生的长期空间浪费。在真实数据集上的大量实验表明,本方法始终优于现有先进基线:在分布偏移情况下获得超过10%的性能提升,在线部署平均提升4%,最佳情况下提升超过8%,充分证明了本框架的有效性。

0
下载
关闭预览

相关内容

【WWW2024】GraphPro:推荐系统中的图预训练与提示学习
专知会员服务
23+阅读 · 2024年1月26日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员