Deploying Large Language Model-based agents (LLM agents) in the public sector requires assuring that they meet the stringent legal, procedural, and structural requirements of public-sector institutions. Practitioners and researchers often turn to benchmarks for such assessments. However, it remains unclear what criteria benchmarks must meet to ensure they adequately reflect public-sector requirements, or how many existing benchmarks do so. In this paper, we first define such criteria based on a first-principles survey of public administration literature: benchmarks must be \emph{process-based}, \emph{realistic}, \emph{public-sector-specific} and report \emph{metrics} that reflect the unique requirements of the public sector. We analyse more than 1,300 benchmark papers for these criteria using an expert-validated LLM-assisted pipeline. Our results show that no single benchmark meets all of the criteria. Our findings provide a call to action for both researchers to develop public sector-relevant benchmarks and for public-sector officials to apply these criteria when evaluating their own agentic use cases.


翻译:在公共部门部署基于大型语言模型的智能体(LLM智能体)时,必须确保其符合公共部门机构严格的法律、程序与结构性要求。从业者和研究人员通常借助基准测试进行此类评估。然而,当前仍不清楚基准测试需满足何种标准才能充分反映公共部门需求,亦无定论现有基准测试在多大程度上实现了这一目标。本文首先基于对公共行政文献的第一性原理调查,界定了以下标准:基准测试必须具备**流程导向性**、**现实性**、**公共部门专属性**,并需报告能反映公共部门独特需求的**度量指标**。我们通过专家验证的LLM辅助流程,对1300余篇基准测试论文进行了系统性分析。结果表明,目前没有任何单一基准测试能满足全部标准。本研究为研究者开发符合公共部门需求的基准测试提供了行动指引,同时建议公共部门官员在评估自身智能体应用案例时参考这些标准。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
人脸静默活体检测最新综述
PaperWeekly
14+阅读 · 2020年8月9日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
数学是普通程序员入门人工智能的最大障碍
算法与数据结构
12+阅读 · 2018年7月27日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Measuring Agents in Production
Arxiv
0+阅读 · 2月3日
VIP会员
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员