With AI agents increasingly deployed as long-running systems, it becomes essential to autonomously construct and continuously evolve customized software to enable interaction within dynamic environments. Yet, existing benchmarks evaluate agents on isolated, one-off coding tasks, neglecting the temporal dependencies and technical debt inherent in real-world software evolution. To bridge this gap, we introduce DeepCommit, an agentic pipeline that reconstructs verifiable Milestone DAGs from noisy commit logs, where milestones are defined as functionally cohesive development goals. These executable sequences enable EvoClaw, a novel benchmark that requires agents to sustain system integrity and limit error accumulation, dimensions of long-term software evolution largely missing from current benchmarks. Our evaluation of 12 frontier models across 4 agent frameworks reveals a critical vulnerability: overall performance scores drop significantly from >80% on isolated tasks to at most 38% in continuous settings, exposing agents' profound struggle with long-term maintenance and error propagation.


翻译:随着AI代理越来越多地作为长期运行系统部署,自主构建并持续进化定制软件以实现动态环境中的交互变得至关重要。然而,现有基准测试仅在孤立的单次编程任务上评估代理,忽视了现实世界软件进化中固有的时间依赖性和技术债务。为填补这一空白,我们提出了DeepCommit,一个从嘈杂的提交日志中重建可验证里程碑有向无环图(DAG)的代理流水线,其中里程碑被定义为功能内聚的开发目标。这些可执行序列支撑了EvoClaw——一个新颖的基准测试,要求代理维护系统完整性并限制错误累积,而这些长期软件进化的维度在现有基准测试中严重缺失。我们对跨4个代理框架的12个前沿模型的评估揭示了一个关键弱点:整体性能得分从孤立任务上的>80%显著下降至连续设置下的最高38%,暴露了代理在长期维护和错误传播中的深刻困境。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
Al Agent:AI时代的软件革命
专知会员服务
48+阅读 · 2025年5月13日
中国AI Agent行业研究报告(二)
专知会员服务
48+阅读 · 2025年3月13日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员