AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 agentic models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.


翻译:AI智能体正日益广泛地部署于执行重要任务。尽管在标准基准测试中准确率得分不断提升,显示出快速进展,但许多智能体在实践中仍持续出现故障。这种差异凸显了当前评估方法的一个根本局限:将智能体行为压缩为单一的成功指标,掩盖了关键的操作缺陷。值得注意的是,这种方法忽略了智能体在多次运行中是否表现一致、能否抵御扰动、是否可预测地失败,以及其错误严重性是否有界。基于安全关键工程领域的理念,我们通过提出十二个具体指标,从一致性、鲁棒性、可预测性和安全性四个关键维度分解智能体的可靠性,从而提供一个全面的性能画像。通过对14个智能体模型在两个互补的基准测试中进行评估,我们发现近期模型能力的提升仅带来了可靠性的微小改进。通过揭示这些持续存在的局限,我们的指标不仅补充了传统评估方法,同时为分析智能体的表现、性能衰退及故障模式提供了工具。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
迈向智能体系统规模化的科学
专知会员服务
20+阅读 · 2025年12月12日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2月6日
Arxiv
0+阅读 · 1月22日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员