AI agents are increasingly developed and evaluated on benchmarks relevant to human work, yet it remains unclear how representative these benchmarking efforts are of the labor market as a whole. In this work, we systematically study the relationship between agent development efforts and the distribution of real-world human work by mapping benchmark instances to work domains and skills. We first analyze 43 benchmarks and 72,342 tasks, measuring their alignment with human employment and capital allocation across all 1,016 real-world occupations in the U.S. labor market. We reveal substantial mismatches between agent development that tends to be programming-centric, and the categories in which human labor and economic value are concentrated. Within work areas that agents currently target, we further characterize current agent utility by measuring their autonomy levels, providing practical guidance for agent interaction strategies across work scenarios. Building on these findings, we propose three measurable principles for designing benchmarks that better capture socially important and technically challenging forms of work: coverage, realism, and granular evaluation.


翻译:人工智能智能体日益基于与人类工作相关的基准进行开发和评估,然而这些基准测试工作究竟在多大程度上代表了整体劳动力市场仍不明确。本研究通过将基准测试实例映射至工作领域和技能,系统性地探究了智能体开发工作与真实世界人类工作分布之间的关系。我们首先分析了43个基准测试中的72,342项任务,测量其与美国劳动力市场中全部1,016种真实职业在人力就业和资本配置方面的匹配程度。研究揭示了当前以编程为中心的智能体开发与人类劳动及经济价值集中领域之间存在显著错配。在智能体当前所针对的工作领域内,我们进一步通过测量其自主水平来刻画当前智能体的效用,为跨工作场景的智能体交互策略提供实践指导。基于这些发现,我们提出了设计基准测试的三项可测量原则,以更好地捕捉具有社会重要性及技术挑战性的工作形式:覆盖度、真实性和细粒度评估。

0
下载
关闭预览

相关内容

智能体工程的发展现状
专知会员服务
26+阅读 · 1月4日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
基于大型语言模型的软件工程智能体综述
专知会员服务
60+阅读 · 2024年9月6日
大模型智能体:概念、前沿和产业实践
专知会员服务
79+阅读 · 2024年8月20日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月23日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员