Most neural solvers for the Traveling Salesperson Problem (TSP) are trained to output a single solution, even though practitioners rarely stop there: at test time, they routinely spend extra compute on sampling or post-hoc search. This raises a natural question: can the search procedure itself be learned? Neural improvement methods take this perspective by learning a policy that applies local modifications to a candidate solution, accumulating gains over an improvement trajectory. Yet learned improvement for TSP remains comparatively immature, with existing methods still falling short of robust, scalable performance. We argue that a key reason is design mismatch: many approaches reuse state representations, architectural choices, and training recipes inherited from single-solution methods, rather than being built around the mechanics of local search. This mismatch motivates NICO-TSP (Neural Improvement for Combinatorial Optimization): a 2-opt improvement framework for TSP. NICO-TSP represents the current tour with exactly $n$ edge tokens aligned with the neighborhood operator, scores 2-opt moves directly without tour positional encodings, and trains via a two-stage procedure: imitation learning to short-horizon optimal trajectories, followed by critic-free group-based reinforcement learning over longer rollouts. Under compute-matched evaluations that measure improvement as a function of both search steps and wall-clock time, NICO-TSP delivers consistently stronger and markedly more step-efficient improvement than prior learned and heuristic search baselines, generalizes far more reliably to larger out-of-distribution instances, and serves both as a competitive replacement for classical local search and as a powerful test-time refinement module for constructive solvers.


翻译:大多数用于旅行商问题(TSP)的神经求解器被训练以输出单一解,尽管实践者通常不会止步于此:在测试时,他们经常花费额外计算资源进行采样或事后搜索。这引出一个自然问题:搜索过程本身能否被学习?神经改进方法通过学习一个对候选解应用局部修改的策略来采纳这一视角,在改进轨迹上累积收益。然而,TSP的学习改进仍相对不成熟,现有方法尚未达到稳健、可扩展的性能。我们认为一个关键原因是设计不匹配:许多方法复用了从单一解方法继承的状态表示、架构选择和训练策略,而非围绕局部搜索的机制构建。这种不匹配催生了NICO-TSP(组合优化的神经改进):一个用于TSP的2-opt改进框架。NICO-TSP用恰好n个与邻域算子对齐的边缘标记表示当前路径,无需路径位置编码即可直接评分2-opt移动,并通过两阶段流程训练:模仿学习短视最优轨迹,随后在更长展开上执行无评论家的基于群体的强化学习。在测量改进作为搜索步数和挂钟时间的函数的计算匹配评估下,NICO-TSP比先前学习的和启发式搜索基线提供了持续更强且显著更步高效的改进,更可靠地泛化到更大的分布外实例,并既可作为经典局部搜索的竞争性替代品,也可作为构建性求解器的强大测试时精炼模块。

0
下载
关闭预览

相关内容

互联网
【博士论文】电商搜索中的排序学习
专知会员服务
13+阅读 · 2025年11月15日
深度学习在路由问题中的最新进展
专知会员服务
19+阅读 · 2022年3月6日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
61+阅读 · 2020年5月9日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员