Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via \textit{Impedance-Guided Preference Optimization} (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.


翻译:规划已成为当代智能体系统应对复杂、长周期任务的核心能力,然而现有方法主要依赖于固定的、手工设计的规划结构,缺乏灵活性,难以适应开放性问题结构多样性的需求。为解决这一局限性,我们提出了TodoEvolve,一种能够自主合成并动态修订任务特定规划架构的元规划范式。具体而言,我们首先构建了PlanFactory,一个模块化的设计空间,将拓扑、初始化、适应与导航等多样化的规划范式标准化于统一的代码库中,从而为异构的规划模式提供了通用接口。利用PlanFactory,我们收集了高质量的规划轨迹,并通过\textit{阻抗引导偏好优化}(IGPO)训练了Todo-14B模型。IGPO是一种多目标强化学习目标,旨在鼓励生成在任意任务和智能体骨干网络上均具备高性能、高稳定性且令牌高效的规划系统。在五个智能体基准测试上的实证评估表明,TodoEvolve始终优于精心设计的规划模块,同时保持了经济的API成本和运行时开销。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
40+阅读 · 2月2日
《动态环境中多智能体规划的恢复策略》123页
专知会员服务
24+阅读 · 2月2日
《基于二元优化与图学习的多智能体行动方案自动生成》
多智能体自主系统《群体自主系统的实时路径规划》248页
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月9日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
1+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
8+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员