Travel planning is a sophisticated decision-making process that requires synthesizing multifaceted information to construct itineraries. However, existing travel planning approaches face several challenges: (1) Pruning candidate points of interest (POIs) while maintaining a high recall rate; (2) A single reasoning path restricts the exploration capability within the feasible solution space for travel planning; (3) Simultaneously optimizing hard constraints and soft constraints remains a significant difficulty. To address these challenges, we propose TourPlanner, a comprehensive framework featuring multi-path reasoning and constraint-gated reinforcement learning. Specifically, we first introduce a Personalized Recall and Spatial Optimization (PReSO) workflow to construct spatially-aware candidate POIs' set. Subsequently, we propose Competitive consensus Chain-of-Thought (CCoT), a multi-path reasoning paradigm that improves the ability of exploring the feasible solution space. To further refine the plan, we integrate a sigmoid-based gating mechanism into the reinforcement learning stage, which dynamically prioritizes soft-constraint satisfaction only after hard constraints are met. Experimental results on travel planning benchmarks demonstrate that TourPlanner achieves state-of-the-art performance, significantly surpassing existing methods in both feasibility and user-preference alignment.


翻译:旅行规划是一个复杂的决策过程,需要综合多方面的信息来构建行程。然而,现有的旅行规划方法面临若干挑战:(1)在保持高召回率的同时对候选兴趣点(POI)进行剪枝;(2)单一推理路径限制了旅行规划在可行解空间内的探索能力;(3)同时优化硬约束和软约束仍然是一个重大难题。为应对这些挑战,我们提出了TourPlanner,一个具备多路径推理和约束门控强化学习的综合性框架。具体而言,我们首先引入个性化召回与空间优化(PReSO)工作流来构建具有空间感知的候选POI集合。随后,我们提出竞争性共识思维链(CCoT),这是一种多路径推理范式,旨在提升对可行解空间的探索能力。为了进一步优化规划方案,我们在强化学习阶段集成了一个基于Sigmoid函数的门控机制,该机制仅在满足硬约束后,才动态地优先考虑软约束的满足。在旅行规划基准测试上的实验结果表明,TourPlanner实现了最先进的性能,在可行性和用户偏好契合度方面均显著超越了现有方法。

0
下载
关闭预览

相关内容

《大规模活动安全强化综合框架》177页
专知会员服务
15+阅读 · 2025年6月7日
《通过网络重构进行场景可靠军事路线规划》最新67页
专知会员服务
23+阅读 · 2024年11月14日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
《多目标强化学习和规划的实用指南》59页最新论文
专知会员服务
55+阅读 · 2022年8月10日
基于旅游知识图谱的可解释景点推荐
专知会员服务
95+阅读 · 2020年9月4日
出行即服务(MAAS)框架
智能交通技术
53+阅读 · 2019年5月22日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
携程的旅游知识图谱构建和应用
数据猿
38+阅读 · 2018年12月31日
携程个性化推荐算法实践
架构文摘
12+阅读 · 2018年1月18日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员