智能体即裁判：迈向下一代评估范式 (Agent-as-a-Judge) - 专知论文

会员服务 ·

0

智能体 · 系统 · 综述 · 大语言模型 · 杂化 ·

Agent-as-a-Judge

翻译：智能体即裁判：迈向下一代评估范式

Runyang You,Hongru Cai,Caiqi Zhang,Qiancheng Xu,Meng Liu,Tiezheng Yu,Yongqi Li,Wenjie Li

LLM-as-a-Judge has revolutionized AI evaluation by leveraging large language models for scalable assessments. However, as evaluands become increasingly complex, specialized, and multi-step, the reliability of LLM-as-a-Judge has become constrained by inherent biases, shallow single-pass reasoning, and the inability to verify assessments against real-world observations. This has catalyzed the transition to Agent-as-a-Judge, where agentic judges employ planning, tool-augmented verification, multi-agent collaboration, and persistent memory to enable more robust, verifiable, and nuanced evaluations. Despite the rapid proliferation of agentic evaluation systems, the field lacks a unified framework to navigate this shifting landscape. To bridge this gap, we present the first comprehensive survey tracing this evolution. Specifically, we identify key dimensions that characterize this paradigm shift and establish a developmental taxonomy. We organize core methodologies and survey applications across general and professional domains. Furthermore, we analyze frontier challenges and identify promising research directions, ultimately providing a clear roadmap for the next generation of agentic evaluation.

翻译：LLM即裁判通过利用大型语言模型进行可扩展的评估，彻底改变了人工智能评估领域。然而，随着评估对象日益复杂化、专业化和多步骤化，LLM即裁判的可靠性受到其固有偏见、浅层单次推理以及无法对照现实世界观察验证评估结果的限制。这推动了向智能体即裁判的范式转变：智能体裁判通过规划、工具增强验证、多智能体协作和持久记忆等技术，实现更鲁棒、可验证且细致的评估。尽管智能体评估系统正快速涌现，该领域仍缺乏统一的框架来应对这一变革格局。为弥合此鸿沟，我们首次提出追踪这一演进的系统性综述。具体而言，我们识别了表征该范式转变的关键维度，并建立了发展分类体系。我们梳理了核心方法论，并综述了其在通用领域与专业领域的应用。此外，我们分析了前沿挑战并指明了有前景的研究方向，最终为下一代智能体评估提供了清晰的路线图。

0

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

16+阅读 · 1月14日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

38+阅读 · 1月8日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

30+阅读 · 2025年9月27日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

OpenAI 32页《智能体》指南，如何构建首个智能体系统

OpenAI 32页《智能体》指南，如何构建首个智能体系统

专知会员服务

50+阅读 · 2025年4月18日

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

专知会员服务

66+阅读 · 2025年4月5日

大语言模型智能体

大语言模型智能体

专知会员服务

97+阅读 · 2024年12月25日

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

专知会员服务

33+阅读 · 2024年11月29日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

10+阅读 · 2019年5月15日

《人工智能芯片技术白皮书（2018）》发布（附下载）

《人工智能芯片技术白皮书（2018）》发布（附下载）

专知

18+阅读 · 2019年1月12日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

Measuring Agents in Production

Measuring Agents in Production

Arxiv

0+阅读 · 2月3日

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Arxiv

0+阅读 · 1月30日

CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

Arxiv

0+阅读 · 1月29日

Towards Real-time Adaptation of Embodied Agent in Human-Robot Collaboration

Arxiv

0+阅读 · 1月26日

Interpreting Agentic Systems: Beyond Model Explanations to System-Level Accountability

Arxiv

0+阅读 · 1月23日

Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation

Arxiv

0+阅读 · 1月22日

Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation

Arxiv

0+阅读 · 1月21日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Arxiv

0+阅读 · 1月16日

JudgeFlow: Agentic Workflow Optimization via Block Judge

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

16+阅读 · 1月14日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

38+阅读 · 1月8日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

30+阅读 · 2025年9月27日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络

专知会员服务

25+阅读 · 2025年4月30日

OpenAI 32页《智能体》指南，如何构建首个智能体系统

OpenAI 32页《智能体》指南，如何构建首个智能体系统

专知会员服务

50+阅读 · 2025年4月18日

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

264页pdf！基础智能体的进展与挑战：从类脑智能到进化式、协作式与安全系统

专知会员服务

66+阅读 · 2025年4月5日

大语言模型智能体

大语言模型智能体

专知会员服务

97+阅读 · 2024年12月25日

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

大模型如何判决？从生成到判决：大型语言模型作为裁判的机遇与挑战

专知会员服务

33+阅读 · 2024年11月29日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

10+阅读 · 2019年5月15日

《人工智能芯片技术白皮书（2018）》发布（附下载）

《人工智能芯片技术白皮书（2018）》发布（附下载）

专知

18+阅读 · 2019年1月12日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Measuring Agents in Production

Measuring Agents in Production

Arxiv

0+阅读 · 2月3日

AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

Arxiv

0+阅读 · 1月30日

CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

Arxiv

0+阅读 · 1月29日

Towards Real-time Adaptation of Embodied Agent in Human-Robot Collaboration

Arxiv

0+阅读 · 1月26日

Interpreting Agentic Systems: Beyond Model Explanations to System-Level Accountability

Arxiv

0+阅读 · 1月23日

Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation

Arxiv

0+阅读 · 1月22日

Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation

Arxiv

0+阅读 · 1月21日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Arxiv

0+阅读 · 1月16日

JudgeFlow: Agentic Workflow Optimization via Block Judge

Arxiv

0+阅读 · 1月12日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

20+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员