AI agent performance is not just a modeling problem, it is fundamentally a systems problem. The advanced capabilities of models are realized through agent harnesses. Therefore, a gap between model assumptions and harness behavior can easily prevent the model's full capabilities from translating into agent performance. We formalize this as the `intent-execution' gap: the mismatch between what the model intends and what the harness executes, and vice versa. We argue that minimizing this intent-execution gap is as important as other aspects of harness design such as tools and execution loops. To illustrate the impact of this harness-model alignment, we develop a simple and customizable harness called `Simple Strands Agent' (SSA). SSA aims to find the bulk of common patterns which generalize across different model families (such as Claude, Gemini, GPT, Grok, Qwen), as well as a small number of model-specific preferences. We make two contributions: (i) we $\textbf{reproduce or improve on the pass@1}$ performance reported by diverse model-provider families on popular agentic benchmarks (SWE-Pro, SWE-Verified and Terminal-Bench-2), and (ii) building on an $\textbf{analysis of 138k trajectories generated by SSA}$, we look beyond the $\texttt{pass@1}$ numbers which tend to be relatively even across frontier models. By representing agent trajectories in code state-spaces, we observe model-level differences in problem-solving behavior. Finer-grained metrics such as edit frequency, testing activity, and phase-transitions reveal how individual models allocate effort across different stages of autonomous problem solving.


翻译:AI智能体性能不仅是一个建模问题,本质上是系统性问题。模型的高级能力通过智能体支撑框架实现。因此,模型假设与支撑框架行为之间的差距容易阻碍模型完整能力向智能体性能的转化。我们将此形式化为"意图-执行"差距:模型意图与支撑框架执行之间的不匹配,反之亦然。我们认为最小化这种意图-执行差距与支撑框架设计中工具和执行循环等其他方面同等重要。为说明这种支撑框架-模型对齐的影响,我们开发了名为"简单链式智能体"(SSA)的轻量可定制支撑框架。SSA旨在发现跨不同模型家族(如Claude、Gemini、GPT、Grok、Qwen)的通用模式主体,以及少数模型特异性偏好。我们做出两项贡献:(i)在主流智能体基准测试(SWE-Pro、SWE-Verified和Terminal-Bench-2)中,**复现或超越**各模型提供商家族报告的pass@1性能;(ii)基于对SSA生成的**13.8万条轨迹的分析**,我们突破了前沿模型间相对均匀的pass@1数值表象。通过在代码状态空间中表征智能体轨迹,我们观察到问题求解行为中的模型级差异。编辑频率、测试活动、相位转换等细粒度指标揭示了各模型在自主问题求解不同阶段的努力分配模式。

0
下载
关闭预览

相关内容

智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
迈向智能体系统规模化的科学
专知会员服务
22+阅读 · 2025年12月12日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
大模型智能体:概念、前沿和产业实践
专知会员服务
79+阅读 · 2024年8月20日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
智能体化世界建模:基础、能力、规律及展望
专知会员服务
23+阅读 · 4月28日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
迈向智能体系统规模化的科学
专知会员服务
22+阅读 · 2025年12月12日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
大模型智能体:概念、前沿和产业实践
专知会员服务
79+阅读 · 2024年8月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员