TourPlanner：一种融合约束门控强化学习的竞争性共识旅行规划框架 (TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning) - 专知论文

会员服务 ·

0

约束 · 门控 · 路径 · 可行 · 融合 ·

TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

翻译：TourPlanner：一种融合约束门控强化学习的竞争性共识旅行规划框架

Yinuo Wang,Mining Tan,Wenxiang Jiao,Xiaoxi Li,Hao Wang,Xuanyu Zhang,Yuan Lu,Weiming Dong

Travel planning is a sophisticated decision-making process that requires synthesizing multifaceted information to construct itineraries. However, existing travel planning approaches face several challenges: (1) Pruning candidate points of interest (POIs) while maintaining a high recall rate; (2) A single reasoning path restricts the exploration capability within the feasible solution space for travel planning; (3) Simultaneously optimizing hard constraints and soft constraints remains a significant difficulty. To address these challenges, we propose TourPlanner, a comprehensive framework featuring multi-path reasoning and constraint-gated reinforcement learning. Specifically, we first introduce a Personalized Recall and Spatial Optimization (PReSO) workflow to construct spatially-aware candidate POIs' set. Subsequently, we propose Competitive consensus Chain-of-Thought (CCoT), a multi-path reasoning paradigm that improves the ability of exploring the feasible solution space. To further refine the plan, we integrate a sigmoid-based gating mechanism into the reinforcement learning stage, which dynamically prioritizes soft-constraint satisfaction only after hard constraints are met. Experimental results on travel planning benchmarks demonstrate that TourPlanner achieves state-of-the-art performance, significantly surpassing existing methods in both feasibility and user-preference alignment.

翻译：旅行规划是一个复杂的决策过程，需要综合多方面的信息来构建行程。然而，现有的旅行规划方法面临若干挑战：（1）在保持高召回率的同时对候选兴趣点（POI）进行剪枝；（2）单一推理路径限制了旅行规划在可行解空间内的探索能力；（3）同时优化硬约束和软约束仍然是一个重大难题。为应对这些挑战，我们提出了TourPlanner，一个具备多路径推理和约束门控强化学习的综合性框架。具体而言，我们首先引入个性化召回与空间优化（PReSO）工作流来构建具有空间感知的候选POI集合。随后，我们提出竞争性共识思维链（CCoT），这是一种多路径推理范式，旨在提升对可行解空间的探索能力。为了进一步优化规划方案，我们在强化学习阶段集成了一个基于Sigmoid函数的门控机制，该机制仅在满足硬约束后，才动态地优先考虑软约束的满足。在旅行规划基准测试上的实验结果表明，TourPlanner实现了最先进的性能，在可行性和用户偏好契合度方面均显著超越了现有方法。

0

相关内容

《战略条令语言模型：用于自动化军事规划与条令分析的综合性框架》2026最新文献

《战略条令语言模型：用于自动化军事规划与条令分析的综合性框架》2026最新文献

专知会员服务

35+阅读 · 1月23日

《大规模活动安全强化综合框架》177页

《大规模活动安全强化综合框架》177页

专知会员服务

15+阅读 · 2025年6月7日

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

《通过网络重构进行场景可靠军事路线规划》最新67页

《通过网络重构进行场景可靠军事路线规划》最新67页

专知会员服务

23+阅读 · 2024年11月14日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

《多目标强化学习和规划的实用指南》59页最新论文

《多目标强化学习和规划的实用指南》59页最新论文

专知会员服务

55+阅读 · 2022年8月10日

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

专知会员服务

140+阅读 · 2022年5月17日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

基于旅游知识图谱的可解释景点推荐

基于旅游知识图谱的可解释景点推荐

专知会员服务

95+阅读 · 2020年9月4日

【RecSys 2019报告】用于旅游业的推荐系统（Building Useful Recommender Systems for Tourists）

【RecSys 2019报告】用于旅游业的推荐系统（Building Useful Recommender Systems for Tourists）

专知会员服务

32+阅读 · 2019年9月19日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

专知

36+阅读 · 2022年10月16日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

11+阅读 · 2022年4月10日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

出行即服务（MAAS）框架

出行即服务（MAAS）框架

智能交通技术

53+阅读 · 2019年5月22日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

携程的旅游知识图谱构建和应用

携程的旅游知识图谱构建和应用

数据猿

38+阅读 · 2018年12月31日

携程个性化推荐算法实践

携程个性化推荐算法实践

架构文摘

12+阅读 · 2018年1月18日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于集成异构网络的民航旅客-航班关联挖掘研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性互补约束二次规划问题的一个全局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

新媒体语境下旅游形象量化投射模型构建与评估研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于社交媒体地理大数据的可感知情境的个性化旅游推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

大城市中等收入群体出行选择行为的不确定性决策机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

旅游地理本体与众包旅游信息的时空语义挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

智慧旅游背景下的旅游供应链多渠道协调研究

国家自然科学基金

5+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation

Arxiv

0+阅读 · 2月5日

GenMRP: A Generative Multi-Route Planning Framework for Efficient and Personalized Real-Time Industrial Navigation

Arxiv

0+阅读 · 2月4日

Adapting Reinforcement Learning for Path Planning in Constrained Parking Scenarios

Arxiv

0+阅读 · 1月30日

RulePlanner: All-in-One Reinforcement Learner for Unifying Design Rules in 3D Floorplanning

Arxiv

0+阅读 · 1月30日

Intelli-Planner: Towards Customized Urban Planning via Large Language Model Empowered Reinforcement Learning

Arxiv

0+阅读 · 1月29日

Link Representation Learning for Probabilistic Travel Time Estimation

Arxiv

0+阅读 · 1月26日

Programming over Thinking: Efficient and Robust Multi-Constraint Planning

Arxiv

0+阅读 · 1月23日

iTIMO: An LLM-empowered Synthesis Dataset for Travel Itinerary Modification

Arxiv

0+阅读 · 1月22日

TravelBench: A Broader Real-World Benchmark for Multi-Turn and Tool-Using Travel Planning

Arxiv

0+阅读 · 1月5日

TraveLLaMA: A Multimodal Travel Assistant with Large-Scale Dataset and Structured Reasoning

Arxiv

0+阅读 · 1月4日

VIP会员

文章信息

相关主题

相关VIP内容

《战略条令语言模型：用于自动化军事规划与条令分析的综合性框架》2026最新文献

《战略条令语言模型：用于自动化军事规划与条令分析的综合性框架》2026最新文献

专知会员服务

35+阅读 · 1月23日

《大规模活动安全强化综合框架》177页

《大规模活动安全强化综合框架》177页

专知会员服务

15+阅读 · 2025年6月7日

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

【CVPR2025】CarPlanner: 一种用于自动驾驶大规模强化学习的一致性自回归轨迹规划

专知会员服务

14+阅读 · 2025年3月2日

《通过网络重构进行场景可靠军事路线规划》最新67页

《通过网络重构进行场景可靠军事路线规划》最新67页

专知会员服务

23+阅读 · 2024年11月14日

基于模型的强化学习综述

基于模型的强化学习综述

专知会员服务

48+阅读 · 2023年1月9日

《多目标强化学习和规划的实用指南》59页最新论文

《多目标强化学习和规划的实用指南》59页最新论文

专知会员服务

55+阅读 · 2022年8月10日

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

专知会员服务

140+阅读 · 2022年5月17日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

基于旅游知识图谱的可解释景点推荐

基于旅游知识图谱的可解释景点推荐

专知会员服务

95+阅读 · 2020年9月4日

【RecSys 2019报告】用于旅游业的推荐系统（Building Useful Recommender Systems for Tourists）

【RecSys 2019报告】用于旅游业的推荐系统（Building Useful Recommender Systems for Tourists）

专知会员服务

32+阅读 · 2019年9月19日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

32+阅读 · 2022年10月17日

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

专知

36+阅读 · 2022年10月16日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

11+阅读 · 2022年4月10日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

出行即服务（MAAS）框架

出行即服务（MAAS）框架

智能交通技术

53+阅读 · 2019年5月22日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

携程的旅游知识图谱构建和应用

携程的旅游知识图谱构建和应用

数据猿

38+阅读 · 2018年12月31日

携程个性化推荐算法实践

携程个性化推荐算法实践

架构文摘

12+阅读 · 2018年1月18日

相关论文

MerNav: A Highly Generalizable Memory-Execute-Review Framework for Zero-Shot Object Goal Navigation

Arxiv

0+阅读 · 2月5日

GenMRP: A Generative Multi-Route Planning Framework for Efficient and Personalized Real-Time Industrial Navigation

Arxiv

0+阅读 · 2月4日

Adapting Reinforcement Learning for Path Planning in Constrained Parking Scenarios

Arxiv

0+阅读 · 1月30日

RulePlanner: All-in-One Reinforcement Learner for Unifying Design Rules in 3D Floorplanning

Arxiv

0+阅读 · 1月30日

Intelli-Planner: Towards Customized Urban Planning via Large Language Model Empowered Reinforcement Learning

Arxiv

0+阅读 · 1月29日

Link Representation Learning for Probabilistic Travel Time Estimation

Arxiv

0+阅读 · 1月26日

Programming over Thinking: Efficient and Robust Multi-Constraint Planning

Arxiv

0+阅读 · 1月23日

iTIMO: An LLM-empowered Synthesis Dataset for Travel Itinerary Modification

Arxiv

0+阅读 · 1月22日

TravelBench: A Broader Real-World Benchmark for Multi-Turn and Tool-Using Travel Planning

Arxiv

0+阅读 · 1月5日

TraveLLaMA: A Multimodal Travel Assistant with Large-Scale Dataset and Structured Reasoning

Arxiv

0+阅读 · 1月4日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于集成异构网络的民航旅客-航班关联挖掘研究

国家自然科学基金

1+阅读 · 2015年12月31日

线性互补约束二次规划问题的一个全局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

新媒体语境下旅游形象量化投射模型构建与评估研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于社交媒体地理大数据的可感知情境的个性化旅游推荐研究

国家自然科学基金

2+阅读 · 2015年12月31日

大城市中等收入群体出行选择行为的不确定性决策机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

旅游地理本体与众包旅游信息的时空语义挖掘研究

国家自然科学基金

1+阅读 · 2014年12月31日

智慧旅游背景下的旅游供应链多渠道协调研究

国家自然科学基金

5+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员