Long-lived AI agents are increasingly deployed as persistent operational systems, yet they are still evaluated like freshly initialized models. Day-one benchmarks miss a basic systems question: how long does an agent remain reliable after deployment? Even when model weights are frozen, an agent's effective state keeps changing as it compresses interaction history, retrieves from a growing memory store, revises facts after updates, and undergoes routine maintenance. Reliability therefore becomes a lifespan property of the full agent harness, not only a snapshot property of the base model. We introduce AgingBench, a longitudinal reliability benchmark for agent lifespan engineering: measuring not only whether deployed agents degrade, but what form the degradation takes and where repair should target. AgingBench organizes agent aging into four mechanisms: compression aging, interference aging, revision aging, and maintenance aging. To diagnose these failures, AgingBench uses temporal dependency graphs and paired counterfactual probes that produce diagnostic profiles for the write, retrieval, and utilization stages of the memory pipeline. Across 7 scenarios, 14 models, multiple memory policies, and both runner-controlled and autonomous agents, over ~400 runs spanning 8 - 200 sessions show that agent aging is not one-dimensional: behavioral tests can remain clean while factual precision decays; derived-state tracking can collapse sharply within a single model; and the same wrong answer can require different repairs depending on what the diagnostic profile points to. These results suggest that reliable agent deployment requires lifespan evaluation, mechanism-level diagnosis, and stage-targeted repair, not only stronger day-one models.


翻译:长期运行的AI智能体正越来越多地被部署为持久性操作系统,然而它们仍像刚初始化的模型一样被评估。首日基准测试忽略了一个基本的系统问题:智能体在部署后能保持可靠运行多长时间?即使模型权重被冻结,智能体的有效状态也会持续变化——它压缩交互历史、从不断增长的记忆库中检索、在更新后修正事实,并经历常规维护。因此,可靠性成为整个智能体框架的寿命属性,而非仅限于基础模型的快照属性。我们提出AgingBench,一个面向智能体寿命工程的纵向可靠性基准:不仅测量已部署智能体是否退化,还诊断退化的具体形式及修复目标。AgingBench将智能体老化归纳为四种机制:压缩老化、干扰老化、修正老化和维护老化。为诊断这些故障,AgingBench采用时间依赖图与配对反事实探针,生成针对记忆管道写入、检索和利用阶段的诊断概况。在7个场景、14个模型、多种记忆策略以及运行器控制和自主智能体中,跨越8至200个会话周期的约400次运行表明:智能体老化并非单一维度——行为测试可能保持良好而事实准确性却持续衰减;派生状态追踪可能在单个模型内急剧崩溃;相同的错误答案根据诊断概况指向需要不同的修复策略。这些结果表明,可靠智能体部署需要寿命评估、机制级诊断和阶段定向修复,而不仅仅是更强的首日模型。

0
下载
关闭预览

相关内容

AgentOps综述:智能体系统运维框架
专知会员服务
19+阅读 · 6月4日
智能体工程的发展现状
专知会员服务
26+阅读 · 1月4日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
AI Agent深度(二):2025 Agent元年,AI从L2向L3发展
专知会员服务
45+阅读 · 2025年5月5日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
【人工智能】人工智能5大商业模式
产业智能官
16+阅读 · 2017年10月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员