Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation - 专知论文

会员服务 ·

0

稀疏 · 上下文 · 搜索 · 集成 · 路径 ·

Plan-MCTS: Plan Exploration for Action Exploitation in Web Navigation

翻译：Plan-MCTS：面向网页导航中行动利用的规划探索

Weiming Zhang,Jihong Wang,Jiamu Zhou,Qingyao Li,Xinbei Ma,Congmin Zheng,Xingyu Lou,Weiwen Liu,Zhuosheng Zhang,Jun Wang,Yong Yu,Weinan Zhang

Large Language Models (LLMs) have empowered autonomous agents to handle complex web navigation tasks. While recent studies integrate tree search to enhance long-horizon reasoning, applying these algorithms in web navigation faces two critical challenges: sparse valid paths that lead to inefficient exploration, and a noisy context that dilutes accurate state perception. To address this, we introduce Plan-MCTS, a framework that reformulates web navigation by shifting exploration to a semantic Plan Space. By decoupling strategic planning from execution grounding, it transforms sparse action space into a Dense Plan Tree for efficient exploration, and distills noisy contexts into an Abstracted Semantic History for precise state awareness. To ensure efficiency and robustness, Plan-MCTS incorporates a Dual-Gating Reward to strictly validate both physical executability and strategic alignment and Structural Refinement for on-policy repair of failed subplans. Extensive experiments on WebArena demonstrate that Plan-MCTS achieves state-of-the-art performance, surpassing current approaches with higher task effectiveness and search efficiency.

翻译：大语言模型（LLM）已赋能自主代理处理复杂的网页导航任务。尽管近期研究通过集成树搜索来增强长程推理能力，但这些算法在网页导航中的应用面临两大关键挑战：稀疏的有效路径导致探索效率低下，以及嘈杂的上下文削弱了准确的状态感知。为解决这些问题，我们提出了Plan-MCTS框架，该框架通过将探索转移到语义规划空间来重构网页导航问题。通过将策略规划与执行落地解耦，该方法将稀疏的行动空间转化为稠密的规划树以实现高效探索，并将嘈杂的上下文提炼为抽象的语义历史以保障精确的状态感知。为确保效率与鲁棒性，Plan-MCTS引入了双重门控奖励机制，以严格验证物理可执行性与策略一致性，并采用结构优化方法对失败子规划进行在线策略修复。在WebArena上的大量实验表明，Plan-MCTS实现了最先进的性能，以更高的任务完成率和搜索效率超越了现有方法。

0

相关内容

《面向空军的知识图谱即解决方案：领域知识有效融入大语言模型》

《面向空军的知识图谱即解决方案：领域知识有效融入大语言模型》

专知会员服务

56+阅读 · 2025年11月8日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

大规模语言模型在自动规划中的应用综述

大规模语言模型在自动规划中的应用综述

专知会员服务

35+阅读 · 2025年2月22日

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

专知会员服务

50+阅读 · 2024年7月24日

《将大型语言模型（LLM）整合到海军作战规划中》

《将大型语言模型（LLM）整合到海军作战规划中》

专知会员服务

132+阅读 · 2024年6月13日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

103+阅读 · 2024年4月12日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

AI Agent，大模型时代重要落地方向, 42页ppt

AI Agent，大模型时代重要落地方向, 42页ppt

专知会员服务

292+阅读 · 2023年10月12日

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

专知会员服务

46+阅读 · 2023年9月22日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

86+阅读 · 2022年9月24日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

12+阅读 · 2022年4月10日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

领域应用 | 大众点评搜索基于知识图谱的深度学习排序实践

领域应用 | 大众点评搜索基于知识图谱的深度学习排序实践

开放知识图谱

11+阅读 · 2019年1月21日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

百度NLP模块使用手册--深度直击最新进展

百度NLP模块使用手册--深度直击最新进展

InfoQ

20+阅读 · 2017年10月30日

面向空中智能交通的大规模飞行航迹处理与分析方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

高动态环境下的多普勒测速脉冲星导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

基于大数据预测的船用惯性/星敏感器抗干扰组合导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿动物大脑网格细胞神经定位机制的同步定位与地图构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Localizing and Correcting Errors for LLM-based Planners

Arxiv

0+阅读 · 3月6日

MagicAgent: Towards Generalized Agent Planning

Arxiv

0+阅读 · 3月1日

PoTable: Towards Systematic Thinking via Plan-then-Execute Stage Reasoning on Tables

Arxiv

0+阅读 · 2月23日

Anticipate, Adapt, Act: A Hybrid Framework for Task Planning

Arxiv

0+阅读 · 2月23日

IMAGINE: Integrating Multi-Agent System into One Model for Complex Reasoning and Planning

Arxiv

0+阅读 · 2月10日

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Arxiv

0+阅读 · 2月5日

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Arxiv

0+阅读 · 2月4日

Textual Planning with Explicit Latent Transitions

Arxiv

0+阅读 · 2月4日

Landscape-aware Automated Algorithm Design: An Efficient Framework for Real-world Optimization

Arxiv

0+阅读 · 2月4日

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

4+阅读 · 今天12:53

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

3+阅读 · 今天12:39

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

2+阅读 · 今天12:32

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

1+阅读 · 今天12:25

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

1+阅读 · 今天12:14

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

0+阅读 · 今天12:08

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

4+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

6+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

11+阅读 · 7月22日

相关VIP内容

《面向空军的知识图谱即解决方案：领域知识有效融入大语言模型》

《面向空军的知识图谱即解决方案：领域知识有效融入大语言模型》

专知会员服务

56+阅读 · 2025年11月8日

PlanGenLLMs：大型语言模型规划能力的最新综述

PlanGenLLMs：大型语言模型规划能力的最新综述

专知会员服务

34+阅读 · 2025年5月18日

大规模语言模型在自动规划中的应用综述

大规模语言模型在自动规划中的应用综述

专知会员服务

35+阅读 · 2025年2月22日

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

专知会员服务

50+阅读 · 2024年7月24日

《将大型语言模型（LLM）整合到海军作战规划中》

《将大型语言模型（LLM）整合到海军作战规划中》

专知会员服务

132+阅读 · 2024年6月13日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

103+阅读 · 2024年4月12日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

AI Agent，大模型时代重要落地方向, 42页ppt

AI Agent，大模型时代重要落地方向, 42页ppt

专知会员服务

292+阅读 · 2023年10月12日

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

【NeurIPS 2023】大型语言模型的规划能力——一项关键性研究

专知会员服务

46+阅读 · 2023年9月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

乌克兰纵深打击如何重塑俄罗斯的战略选择

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

86+阅读 · 2022年9月24日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

【硬核书】规划算法 (Planning Algorithm)，1023页pdf，Steven M. Illinois大学

专知

12+阅读 · 2022年4月10日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

领域应用 | 大众点评搜索基于知识图谱的深度学习排序实践

领域应用 | 大众点评搜索基于知识图谱的深度学习排序实践

开放知识图谱

11+阅读 · 2019年1月21日

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

【泡泡图灵智库】MapNet：一种便于动态更新的全局地图存储方法（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月10日

百度NLP模块使用手册--深度直击最新进展

百度NLP模块使用手册--深度直击最新进展

InfoQ

20+阅读 · 2017年10月30日

相关论文

Localizing and Correcting Errors for LLM-based Planners

Arxiv

0+阅读 · 3月6日

MagicAgent: Towards Generalized Agent Planning

Arxiv

0+阅读 · 3月1日

PoTable: Towards Systematic Thinking via Plan-then-Execute Stage Reasoning on Tables

Arxiv

0+阅读 · 2月23日

Anticipate, Adapt, Act: A Hybrid Framework for Task Planning

Arxiv

0+阅读 · 2月23日

IMAGINE: Integrating Multi-Agent System into One Model for Complex Reasoning and Planning

Arxiv

0+阅读 · 2月10日

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Arxiv

0+阅读 · 2月5日

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

Arxiv

0+阅读 · 2月4日

Textual Planning with Explicit Latent Transitions

Arxiv

0+阅读 · 2月4日

Landscape-aware Automated Algorithm Design: An Efficient Framework for Real-world Optimization

Arxiv

0+阅读 · 2月4日

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Mil-SCORE: Benchmarking Long-Context Geospatial Reasoning and Planning in Large Language Models

Arxiv

0+阅读 · 2月3日

相关基金

面向空中智能交通的大规模飞行航迹处理与分析方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

高动态环境下的多普勒测速脉冲星导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

基于大数据预测的船用惯性/星敏感器抗干扰组合导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿动物大脑网格细胞神经定位机制的同步定位与地图构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员