AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.


翻译:AI智能体的性能关键取决于其运行时框架,包括引导模型观察、推理和行动的提示、工具、记忆及控制流。然而,当前的框架大多仍为人工构建且静态固化:每种新模型或新任务仍需定制化脚手架,而执行过程中产生的丰富轨迹鲜少被提炼用于系统性改进。我们提出HarnessX——一种用于构建可组合、自适应且可进化的智能体框架的生成平台。HarnessX通过替换代数组装类型化框架原语,借助AEGIS(一种基于轨迹驱动的多智能体进化引擎,其核心通过符号适应与强化学习之间的操作镜像实现)实现自适应,并通过将轨迹同时转化为框架更新与模型训练信号,闭环框架-模型交互。在五个基准测试(ALFWorld、GAIA、WebShop、tau^3-Bench及SWE-bench Verified)中,HarnessX平均带来+14.5%(最高达+44.0%)的性能提升,基线越低则增益越显著。这些结果表明,智能体进步未必依赖于模型规模扩展:从执行反馈中组合与进化运行时接口是一种可操作且具有互补性的杠杆。完整代码库将在未来版本中开源。

0
下载
关闭预览

相关内容

Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
21+阅读 · 5月28日
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
49+阅读 · 3月1日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 5月18日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员