AI agents may soon become capable of autonomously completing valuable, long-horizon tasks in diverse domains. Current benchmarks either do not measure real-world tasks, or are not sufficiently difficult to meaningfully measure frontier models. To this end, we present Terminal-Bench 2.0: a carefully curated hard benchmark composed of 89 tasks in computer terminal environments inspired by problems from real workflows. Each task features a unique environment, human-written solution, and comprehensive tests for verification. We show that frontier models and agents score less than 65\% on the benchmark and conduct an error analysis to identify areas for model and agent improvement. We publish the dataset and evaluation harness to assist developers and researchers in future work at https://www.tbench.ai/ .


翻译:人工智能智能体可能很快将能够在多样化领域中自主完成有价值的长周期任务。当前基准测试要么未能衡量真实世界任务,要么难度不足以有效评估前沿模型。为此,我们提出终端基准2.0:一个精心构建的困难基准测试集,包含89个受真实工作流程问题启发的计算机终端环境任务。每个任务都具有独特的环境配置、人工编写的解决方案以及用于验证的全面测试集。实验表明前沿模型与智能体在该基准测试中得分低于65%,我们通过错误分析确定了模型与智能体需要改进的方向。我们在https://www.tbench.ai/ 发布了完整数据集与评估框架,以助力开发者和研究者的后续工作。

0
下载
关闭预览

相关内容

下半场思考:基础智能体记忆机制
专知会员服务
18+阅读 · 2月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
【Facebook】人工智能基准(Benchmarking)测试再思考,55页ppt
专知会员服务
31+阅读 · 2020年12月20日
AI综述专栏 | 基于深度学习的目标检测算法综述
人工智能前沿讲习班
12+阅读 · 2018年12月7日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
干货 | 基于深度学习的目标检测算法综述
AI科技评论
18+阅读 · 2018年9月1日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
基于深度学习的目标检测算法综述
AI研习社
15+阅读 · 2018年4月25日
基于区域的目标检测——细粒度
计算机视觉战队
14+阅读 · 2018年2月1日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员