Evaluating agentic AI on open-ended professional tasks faces a fundamental dilemma between rigor and flexibility. Static rubrics provide rigorous, reproducible assessment but fail to accommodate diverse valid response strategies, while LLM-as-a-judge approaches adapt to individual responses yet suffer from instability and bias. Human experts address this dilemma by combining domain-grounded principles with dynamic, claim-level assessment. Inspired by this process, we propose \textbf{JADE}, a two-layer evaluation framework. Layer 1 encodes expert knowledge as a predefined set of evaluation skills, providing stable evaluation criteria. Layer 2 performs report-specific, claim-level evaluation to flexibly assess diverse reasoning strategies, with evidence-dependency gating to invalidate conclusions built on refuted claims. Experiments on BizBench show that JADE improves evaluation stability and reveals critical agent failure modes missed by holistic LLM-based evaluators. We further demonstrate strong alignment with expert-authored rubrics and effective transfer to HealthBench and DR.BENCH, covering medical and 10-domain professional evaluation settings. Code and data are available at https://github.com/smiling-world/JADE.


翻译:评估智能体在开放式专业任务上的表现面临严谨性与灵活性之间的根本矛盾。静态评分标准提供严谨可复现的评估,但无法适应多样化的有效回答策略;而“大模型即评判者”方法虽然能适应个体回答,却存在不稳定性和偏差。人类专家通过将领域立足原则与动态、声明级别的评估相结合来解决这一矛盾。受此启发,我们提出**JADE**,一个双层评估框架。第一层将专家知识编码为预定义的评估技能集合,提供稳定的评估标准。第二层则执行面向报告特定、声明级别的评估,以灵活评估多样化的推理策略,并引入证据依赖门控机制,使基于被推翻声明的结论无效化。在BizBench上的实验表明,JADE提升了评估稳定性,并揭示了整体性LLM评估器遗漏的关键智能体故障模式。我们进一步证明了其与专家编写的评分标准高度对齐,并能有效迁移至涵盖医学及10个领域专业评估设置的HealthBench和DR.BENCH。代码与数据可在https://github.com/smiling-world/JADE获取。

0
下载
关闭预览

相关内容

一个模板引擎. 在Node.js中比较常见.
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
《面向定义跨域的领域复杂性度量》 DARPA 和美陆军
专知会员服务
37+阅读 · 2024年2月25日
《学习型系统的测试与评估》
专知会员服务
61+阅读 · 2023年3月12日
数据驱动的态势认知技术及发展思考
专知
19+阅读 · 2022年7月12日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员