智能体基准测试未能满足公共部门需求 (Agent Benchmarks Fail Public Sector Requirements) - 专知论文

会员服务 ·

0

基准 · 基准测试 · 智能体 · 大语言模型 · 基于大型语言模型的智能体 ·

Agent Benchmarks Fail Public Sector Requirements

翻译：智能体基准测试未能满足公共部门需求

Jonathan Rystrøm,Chris Schmitz,Karolina Korgul,Jan Batzner,Chris Russell

from arxiv, Forthcoming @ IASEAI 2026

Deploying Large Language Model-based agents (LLM agents) in the public sector requires assuring that they meet the stringent legal, procedural, and structural requirements of public-sector institutions. Practitioners and researchers often turn to benchmarks for such assessments. However, it remains unclear what criteria benchmarks must meet to ensure they adequately reflect public-sector requirements, or how many existing benchmarks do so. In this paper, we first define such criteria based on a first-principles survey of public administration literature: benchmarks must be \emph{process-based}, \emph{realistic}, \emph{public-sector-specific} and report \emph{metrics} that reflect the unique requirements of the public sector. We analyse more than 1,300 benchmark papers for these criteria using an expert-validated LLM-assisted pipeline. Our results show that no single benchmark meets all of the criteria. Our findings provide a call to action for both researchers to develop public sector-relevant benchmarks and for public-sector officials to apply these criteria when evaluating their own agentic use cases.

翻译：在公共部门部署基于大型语言模型的智能体（LLM智能体）时，必须确保其符合公共部门机构严格的法律、程序与结构性要求。从业者和研究人员通常借助基准测试进行此类评估。然而，当前仍不清楚基准测试需满足何种标准才能充分反映公共部门需求，亦无定论现有基准测试在多大程度上实现了这一目标。本文首先基于对公共行政文献的第一性原理调查，界定了以下标准：基准测试必须具备**流程导向性**、**现实性**、**公共部门专属性**，并需报告能反映公共部门独特需求的**度量指标**。我们通过专家验证的LLM辅助流程，对1300余篇基准测试论文进行了系统性分析。结果表明，目前没有任何单一基准测试能满足全部标准。本研究为研究者开发符合公共部门需求的基准测试提供了行动指引，同时建议公共部门官员在评估自身智能体应用案例时参考这些标准。

0

相关内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

1+阅读 · 2月27日

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

专知会员服务

7+阅读 · 2月26日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

36+阅读 · 2025年9月30日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

走向通用虚拟智能体

走向通用虚拟智能体

专知会员服务

74+阅读 · 2023年11月26日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

专知

25+阅读 · 2022年3月22日

最新！《智慧城市人工智能技术应用场景》国家标准意见稿发布，24页pdf

最新！《智慧城市人工智能技术应用场景》国家标准意见稿发布，24页pdf

专知

17+阅读 · 2022年3月19日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

人脸静默活体检测最新综述

人脸静默活体检测最新综述

PaperWeekly

14+阅读 · 2020年8月9日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

数学是普通程序员入门人工智能的最大障碍

数学是普通程序员入门人工智能的最大障碍

算法与数据结构

12+阅读 · 2018年7月27日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

Arxiv

0+阅读 · 2月11日

Measuring Agents in Production

Measuring Agents in Production

Arxiv

0+阅读 · 2月3日

CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

Arxiv

0+阅读 · 1月29日

Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

Arxiv

0+阅读 · 1月28日

Automated structural testing of LLM-based agents: methods, framework, and case studies

Arxiv

0+阅读 · 1月25日

Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

Arxiv

0+阅读 · 1月23日

When Agents Fail: A Comprehensive Study of Bugs in LLM Agents with Automated Labeling

Arxiv

0+阅读 · 1月21日

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

Arxiv

0+阅读 · 1月16日

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Arxiv

0+阅读 · 1月16日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

大语言模型

基于大型语言模型的智能体

相关VIP内容

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

1+阅读 · 2月27日

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

专知会员服务

7+阅读 · 2月26日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

36+阅读 · 2025年9月30日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

63+阅读 · 2024年3月4日

走向通用虚拟智能体

走向通用虚拟智能体

专知会员服务

74+阅读 · 2023年11月26日

《人工智能芯片基准测试评估方法》行业标准

《人工智能芯片基准测试评估方法》行业标准

专知会员服务

87+阅读 · 2022年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

《智慧城市城市运行指标体系总体框架及指标制定要求》国家标准征求意见稿发布！30页pdf

专知

25+阅读 · 2022年3月22日

最新！《智慧城市人工智能技术应用场景》国家标准意见稿发布，24页pdf

最新！《智慧城市人工智能技术应用场景》国家标准意见稿发布，24页pdf

专知

17+阅读 · 2022年3月19日

《智能制造机器视觉在线检测测试方法》国家标准意见稿

《智能制造机器视觉在线检测测试方法》国家标准意见稿

专知

13+阅读 · 2022年2月22日

人脸静默活体检测最新综述

人脸静默活体检测最新综述

PaperWeekly

14+阅读 · 2020年8月9日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

数学是普通程序员入门人工智能的最大障碍

数学是普通程序员入门人工智能的最大障碍

算法与数据结构

12+阅读 · 2018年7月27日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

相关论文

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

Arxiv

0+阅读 · 2月11日

Measuring Agents in Production

Measuring Agents in Production

Arxiv

0+阅读 · 2月3日

CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

Arxiv

0+阅读 · 1月29日

Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

Arxiv

0+阅读 · 1月28日

Automated structural testing of LLM-based agents: methods, framework, and case studies

Arxiv

0+阅读 · 1月25日

Lost in Simulation: LLM-Simulated Users are Unreliable Proxies for Human Users in Agentic Evaluations

Arxiv

0+阅读 · 1月23日

When Agents Fail: A Comprehensive Study of Bugs in LLM Agents with Automated Labeling

Arxiv

0+阅读 · 1月21日

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

Arxiv

0+阅读 · 1月16日

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Arxiv

0+阅读 · 1月16日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

高通量测序的可计算建模与应用基础算法

国家自然科学基金

1+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员