HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry - 专知论文

会员服务 ·

0

自适应 · 可组合 · 智能体 · 构建 · 操作 ·

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

翻译：HarnessX：一种可组合、自适应且可进化的智能体运行框架

Tingyang Chen,Shuo Lu,Kang Zhao,Weicheng Meng,Hanlin Teng,Tianhao Li,Chao Li,Xule Liu,Jian Liang,Zhizhong Zhang,Yuan Xie,Heng Qu,Kun Shao,Jian Luan

AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.

翻译：AI智能体的性能关键取决于其运行时框架，包括引导模型观察、推理和行动的提示、工具、记忆及控制流。然而，当前的框架大多仍为人工构建且静态固化：每种新模型或新任务仍需定制化脚手架，而执行过程中产生的丰富轨迹鲜少被提炼用于系统性改进。我们提出HarnessX——一种用于构建可组合、自适应且可进化的智能体框架的生成平台。HarnessX通过替换代数组装类型化框架原语，借助AEGIS（一种基于轨迹驱动的多智能体进化引擎，其核心通过符号适应与强化学习之间的操作镜像实现）实现自适应，并通过将轨迹同时转化为框架更新与模型训练信号，闭环框架-模型交互。在五个基准测试（ALFWorld、GAIA、WebShop、tau^3-Bench及SWE-bench Verified）中，HarnessX平均带来+14.5%（最高达+44.0%）的性能提升，基线越低则增益越显著。这些结果表明，智能体进步未必依赖于模型规模扩展：从执行反馈中组合与进化运行时接口是一种可操作且具有互补性的杠杆。完整代码库将在未来版本中开源。

0

相关内容

自适应

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

12+阅读 · 5月29日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

27+阅读 · 5月28日

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

18+阅读 · 5月20日

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

49+阅读 · 3月1日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

30+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

251+阅读 · 2023年9月9日

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

专知会员服务

33+阅读 · 2023年3月1日

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

CyberEvolver: Structured Self-Evolution for Cybersecurity Agents On the Fly

Arxiv

1+阅读 · 6月16日

APEX: Adaptive Principle EXtraction A Three-Layer Self-Evolution Framework for Production AI Agents

Arxiv

0+阅读 · 6月13日

HarnessBridge: Learnable Bidirectional Controller for LLM Agent Harness

Arxiv

0+阅读 · 6月11日

Harnessing Embodied Agents: Runtime Governance for Policy-Constrained Execution

Arxiv

0+阅读 · 6月10日

What makes a harness a harness: necessary and sufficient conditions for an agent harness

Arxiv

0+阅读 · 6月8日

From Failed Trajectories to Reliable LLM Agents: Diagnosing and Repairing Harness Flaws

Arxiv

0+阅读 · 6月4日

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Arxiv

0+阅读 · 6月1日

ProofAgent Harness: Open Infrastructure for Adversarial Evaluation of AI Agents

Arxiv

0+阅读 · 5月22日

Code as Agent Harness

Arxiv

0+阅读 · 5月18日

SARC: A Governance-by-Architecture Framework for Agentic AI Systems

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

1+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

12+阅读 · 5月29日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

27+阅读 · 5月28日

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

代码即代理基础设施：迈向可执行、可验证、有状态的AI代理系统

专知会员服务

18+阅读 · 5月20日

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

49+阅读 · 3月1日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

30+阅读 · 1月2日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

251+阅读 · 2023年9月9日

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

专知会员服务

33+阅读 · 2023年3月1日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

重磅！斯坦福HAI《2023人工智能指数报告》出炉，386页pdf了解AI十大态势进展（附中文版报告下载）

专知

24+阅读 · 2023年4月4日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

CyberEvolver: Structured Self-Evolution for Cybersecurity Agents On the Fly

Arxiv

1+阅读 · 6月16日

APEX: Adaptive Principle EXtraction A Three-Layer Self-Evolution Framework for Production AI Agents

Arxiv

0+阅读 · 6月13日

HarnessBridge: Learnable Bidirectional Controller for LLM Agent Harness

Arxiv

0+阅读 · 6月11日

Harnessing Embodied Agents: Runtime Governance for Policy-Constrained Execution

Arxiv

0+阅读 · 6月10日

What makes a harness a harness: necessary and sufficient conditions for an agent harness

Arxiv

0+阅读 · 6月8日

From Failed Trajectories to Reliable LLM Agents: Diagnosing and Repairing Harness Flaws

Arxiv

0+阅读 · 6月4日

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Arxiv

0+阅读 · 6月1日

ProofAgent Harness: Open Infrastructure for Adversarial Evaluation of AI Agents

Arxiv

0+阅读 · 5月22日

Code as Agent Harness

Arxiv

0+阅读 · 5月18日

SARC: A Governance-by-Architecture Framework for Agentic AI Systems

Arxiv

0+阅读 · 5月8日

相关基金

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员