ACE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments - 专知论文

会员服务 ·

0

ACE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments

翻译：ACE-Bench：轻量环境下具有可扩展视野与可控难度的智能体可配置评测基准

Wang Yang,Chaoda Song,Xinpeng Li,Debargha Ganguly,Chuang Ma,Shouren Wang,Zhihao Dou,Yuli Zhou,Vipin Chaudhary,Xiaotian Han

Existing Agent benchmarks suffer from two critical limitations: high environment interaction overhead (up to 41\% of total evaluation time) and imbalanced task horizon and difficulty distributions that make aggregate scores unreliable. To address these issues, we propose ACE-Bench built around a unified grid-based planning task, where agents must fill hidden slots in a partially completed schedule subject to both local slot constraints and global constraints. Our benchmark offers fine-grained control through two orthogonal axes: Scalable Horizons, controlled by the number of hidden slots $H$, and Controllable Difficulty, governed by a decoy budget $B$ that determines the number of globally misleading decoy candidates. Crucially, all tool calls are resolved via static JSON files under a Lightweight Environment design, eliminating setup overhead and enabling fast, reproducible evaluation suitable for training-time validation. We first validate that H and B provide reliable control over task horizon and difficulty, and that ACE-Bench exhibits strong domain consistency and model discriminability. We then conduct comprehensive experiments across 13 models of diverse sizes and families over 6 domains, revealing significant cross-model performance variation and confirming that ACE-Bench provides interpretable and controllable evaluation of agent reasoning.

翻译：现有智能体基准测试存在两个关键局限：高环境交互开销（高达总评测时间的41%）以及任务视野与难度分布不均衡导致聚合评分不可靠。为解决这些问题，我们提出ACE-Bench，其核心构建于统一的基于网格的规划任务——智能体必须根据局部插槽约束与全局约束，在部分完成的日程中填充隐藏插槽。该基准通过两个正交维度实现细粒度控制：由隐藏插槽数量H控制的可扩展视野，以及由诱饵预算B（决定全局误导性诱饵候选数量）调控的可控难度。关键创新在于，所有工具调用均通过轻量环境设计下的静态JSON文件解析，消除了部署开销，实现了适用于训练阶段验证的快速可重复评测。我们首先验证H与B能可靠控制任务视野与难度，且ACE-Bench展现出强领域一致性与模型区分度。随后在6个领域对13个不同规模与系列的模型进行综合实验，揭示了显著的跨模型性能差异，并证实ACE-Bench能为智能体推理提供可解释且可控的评测。

0

相关内容

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

21+阅读 · 2月28日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

68+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

智能体适应

智能体适应

专知会员服务

25+阅读 · 2025年12月11日

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

专知会员服务

31+阅读 · 2025年3月17日

敏捷作战部署（ACE）概念

敏捷作战部署（ACE）概念

专知会员服务

85+阅读 · 2024年7月4日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年1月20日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

上海交大Acemap团队发布学术知识图谱AceKG，含一亿多实体

上海交大Acemap团队发布学术知识图谱AceKG，含一亿多实体

论智

15+阅读 · 2018年3月16日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Arxiv

0+阅读 · 4月24日

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Arxiv

0+阅读 · 4月21日

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Arxiv

0+阅读 · 4月18日

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Arxiv

0+阅读 · 4月7日

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Arxiv

0+阅读 · 3月3日

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training

Arxiv

0+阅读 · 3月2日

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Arxiv

0+阅读 · 2月26日

Towards a Science of AI Agent Reliability

Arxiv

0+阅读 · 2月23日

Arxiv

0+阅读 · 2月23日

AgentBench: Evaluating LLMs as Agents

Arxiv

14+阅读 · 2023年8月7日

VIP会员

文章信息

相关主题

最新内容

美国军方使用的10种反无人机武器（2026年更新）

美国军方使用的10种反无人机武器（2026年更新）

专知会员服务

1+阅读 · 46分钟前

智能技术在战场指挥控制系统中的应用（附中英文版下载）

智能技术在战场指挥控制系统中的应用（附中英文版下载）

专知会员服务

1+阅读 · 今天3:21

北约《俄乌战争经验教训课程指南：25份课程计划》150页

北约《俄乌战争经验教训课程指南：25份课程计划》150页

专知会员服务

2+阅读 · 今天3:03

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

专知会员服务

2+阅读 · 今天2:59

首场人工智能战争——俄乌战争（中文版、原文下载）

首场人工智能战争——俄乌战争（中文版、原文下载）

专知会员服务

3+阅读 · 今天1:52

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

3+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

2+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

5+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

2+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

9+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

相关VIP内容

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

21+阅读 · 2月28日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

68+阅读 · 1月6日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

33+阅读 · 2025年12月31日

智能体适应

智能体适应

专知会员服务

25+阅读 · 2025年12月11日

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

专知会员服务

31+阅读 · 2025年3月17日

敏捷作战部署（ACE）概念

敏捷作战部署（ACE）概念

专知会员服务

85+阅读 · 2024年7月4日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

【Facebook】人工智能基准(Benchmarking)测试再思考，55页ppt

专知会员服务

31+阅读 · 2020年12月20日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

智能技术在战场指挥控制系统中的应用（附中英文版下载）

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

美国军方使用的10种反无人机武器（2026年更新）

北约《俄乌战争经验教训课程指南：25份课程计划》150页

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

【泡泡图灵智库】PointNet：用于三维分类与分割的点集深度学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年1月20日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

上海交大Acemap团队发布学术知识图谱AceKG，含一亿多实体

上海交大Acemap团队发布学术知识图谱AceKG，含一亿多实体

论智

15+阅读 · 2018年3月16日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

Arxiv

0+阅读 · 4月24日

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Arxiv

0+阅读 · 4月21日

PersonalHomeBench: Evaluating Agents in Personalized Smart Homes

Arxiv

0+阅读 · 4月18日

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Arxiv

0+阅读 · 4月7日

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Arxiv

0+阅读 · 3月3日

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training

Arxiv

0+阅读 · 3月2日

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Arxiv

0+阅读 · 2月26日

Towards a Science of AI Agent Reliability

Arxiv

0+阅读 · 2月23日

Arxiv

0+阅读 · 2月23日

AgentBench: Evaluating LLMs as Agents

Arxiv

14+阅读 · 2023年8月7日

相关基金

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

短波认知ALE系统中基于深度学习-GP混合模型的多维谱预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员