LLM-powered agentic systems excel at complex long-horizon tasks, but remain constrained by static configurations fixed before execution. Such rigidity forces a trade-off between domain-specific performance and cross-task generalization: strong priors and compact tool spaces aid specialization but weaken transfer, while task-agnostic workflows and broad action spaces expand coverage but dilute guidance. Existing pre-execution optimization, planner-worker orchestration, and configuration patching fall short of resolving this tension, as they decouple adaptation from execution, causing information loss, fragmented optimization, and ambiguous credit assignment. We propose ToolSelf, a tool-driven runtime self-reconfiguration paradigm that abstracts configuration updates as a standardized tool interface and unifies execution and adaptation within one policy's action space. The execution agent can dynamically update sub-goals, strategies, toolboxes, context, and context-management modes based on task progress and feedback. We further introduce Configuration-Aware Two-stage Training (CAT), which combines rejection sampling fine-tuning with trajectory-level KTO reinforcement learning to internalize self-reconfiguration. Across diverse benchmarks, zero-shot ToolSelf rivals task-specialized agents; after CAT training, ToolSelf gains 28.8 points over the static-configuration baseline on average, illuminating a path toward emergent adaptivity that obviates manually injected guidance. The code is available at https://github.com/lian-tian-mo-zun/ToolSelf.


翻译:基于大语言模型的智能体系统在处理复杂长时程任务方面表现卓越,但始终受限于执行前预设的静态配置。这种刚性机制迫使领域特定性能与跨任务泛化能力之间形成权衡:强先验和紧凑工具空间有助于专业化但削弱迁移能力,而任务无关工作流与宽泛动作空间虽能扩展覆盖范围却稀释了引导信号。现有预执行优化、规划-执行者编排及配置修补方法难以解决这一矛盾,因其将适应与执行解耦,导致信息丢失、优化碎片化及信用分配模糊。我们提出ToolSelf——一种基于工具驱动的运行时自我重构范式,将配置更新抽象为标准化的工具接口,并将执行与适应统一至单一策略的动作空间内。执行代理可根据任务进展与反馈动态更新子目标、策略、工具集、上下文及上下文管理模式。我们进一步引入配置感知两阶段训练(CAT),结合拒绝采样微调与轨迹级KTO强化学习,将自我重构能力内化于模型。跨多个基准测试的零样本ToolSelf性能媲美任务专用代理;经CAT训练后,ToolSelf相较静态配置基线平均提升28.8分,揭示了无需人工植入引导信号即可实现涌现自适应的可行路径。代码已开源:https://github.com/lian-tian-mo-zun/ToolSelf。

0
下载
关闭预览

相关内容

AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
数据驱动的具身学习探索
专知会员服务
18+阅读 · 2025年2月26日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
【资源】领域自适应相关论文、代码分享
专知
32+阅读 · 2019年10月12日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员