Deep reinforcement learning (DRL) has shown great promise in addressing multi-objective combinatorial optimization problems (MOCOPs). Nevertheless, the robustness of these learning-based solvers has remained insufficiently explored, especially across diverse and complex problem distributions. In this paper, we propose a unified robustness-oriented framework for preference-conditioned DRL solvers for MOCOPs. Within this framework, we develop a preference-based adversarial attack to generate hard instances that expose solver weaknesses, and quantify the attack impact by the resulting degradation on Pareto-front quality. We further introduce a defense strategy that integrates hardness-aware preference selection into adversarial training to reduce overfitting to restricted preference regions and improve out-of-distribution performance. The experimental results on multi-objective traveling salesman problem (MOTSP), multi-objective capacitated vehicle routing problem (MOCVRP), and multi-objective knapsack problem (MOKP) verify that our attack method successfully learns hard instances for different solvers. Furthermore, our defense method significantly strengthens the robustness and generalizability of neural solvers, delivering superior performance on hard or out-of-distribution instances.


翻译:深度强化学习(DRL)在解决多目标组合优化问题(MOCOPs)方面展现出巨大潜力。然而,这些基于学习的求解器的鲁棒性仍未得到充分探索,尤其是在多样且复杂的问题分布上。本文提出一个统一的、面向鲁棒性的框架,用于处理偏好条件化的MOCOPs DRL求解器。在此框架内,我们开发了一种基于偏好的对抗性攻击方法,用于生成暴露求解器弱点的困难实例,并通过由此产生的帕累托前沿质量退化来量化攻击影响。我们进一步引入一种防御策略,该策略将难度感知的偏好选择整合到对抗训练中,以减少对受限偏好区域的过拟合,并提升分布外性能。在多目标旅行商问题(MOTSP)、多目标容量约束车辆路径问题(MOCVRP)和多目标背包问题(MOKP)上的实验结果表明,我们的攻击方法成功地为不同求解器学习了困难实例。此外,我们的防御方法显著增强了神经求解器的鲁棒性和泛化能力,在困难或分布外实例上实现了更优的性能。

0
下载
关闭预览

相关内容

【TPAMI2024】增强视频-语言表示的结构时空对齐方法
专知会员服务
24+阅读 · 2024年6月30日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
27+阅读 · 2020年11月14日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【TPAMI2024】增强视频-语言表示的结构时空对齐方法
专知会员服务
24+阅读 · 2024年6月30日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
13+阅读 · 2020年12月12日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
27+阅读 · 2020年11月14日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员