E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing - 专知论文

会员服务 ·

0

Agent · 得分 · 统计量 · Prompt · 控制器 ·

E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing

翻译：标题：E-valuator：基于序贯假设检验的可靠智能体验证器

Shuvom Sadhuka,Drew Prinster,Clara Fannjiang,Gabriele Scalia,Bonnie Berger,Aviv Regev,Hanchen Wang

Agentic AI systems execute a sequence of actions, such as reasoning steps or tool calls, in response to a user prompt. To evaluate the success of their trajectories, researchers have developed verifiers, such as LLM judges and process-reward models, to score the quality of each action in an agent's trajectory. Although these heuristic scores can be informative, there are no guarantees of correctness when used to decide whether an agent will yield a successful output. Here, we introduce e-valuator, a method to convert any black-box verifier score into a decision rule with provable control of false alarm rates. We frame the problem of distinguishing successful trajectories (that is, a sequence of actions that will lead to a correct response to the user's prompt) and unsuccessful trajectories as a sequential hypothesis testing problem. E-valuator builds on tools from e-processes to develop a sequential hypothesis test that remains statistically valid at every step of an agent's trajectory, enabling online monitoring of agents over arbitrarily long sequences of actions. Empirically, we demonstrate that e-valuator provides greater statistical power and better false alarm rate control than other strategies across six datasets and three agents. We additionally show that e-valuator can be used for to quickly terminate problematic trajectories and save tokens. Together, e-valuator provides a lightweight, model-agnostic framework that converts verifier heuristics into decisions rules with statistical guarantees, enabling the deployment of more reliable agentic systems.

翻译：摘要：智能体AI系统会根据用户提示执行一系列动作，例如推理步骤或工具调用。为评估其轨迹的成功与否，研究人员开发了验证器（如大语言模型评判器和过程奖励模型），用于对智能体轨迹中每个动作的质量进行评分。虽然这些启发式评分能提供有用信息，但在用于判断智能体是否会产生成功输出时，其正确性无法保证。本文提出E-valuator方法，该方法可将任意黑盒验证器评分转化为具有可证虚警率控制能力的决策规则。我们将成功轨迹（即能引导出用户提示正确响应的动作序列）与失败轨迹的区分问题建模为序贯假设检验问题。E-valuator基于e-过程工具开发序贯假设检验方法，该方法在智能体轨迹的每一步均保持统计有效性，从而实现对任意长动作序列智能体的在线监控。实验表明，在六个数据集和三个智能体上，E-valuator相比其他策略具有更强的统计功效和更好的虚警率控制能力。我们还展示了E-valuator可快速终止问题轨迹以节省令牌。综上，E-valuator提供了一种轻量级、模型无关的框架，将验证器启发式评分转化为具有统计保证的决策规则，从而支持更可靠智能体系统的部署。

0

相关内容

Agent

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

10+阅读 · 6月14日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

10+阅读 · 5月29日

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

专知会员服务

14+阅读 · 5月20日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

37+阅读 · 2025年12月31日

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

专知会员服务

34+阅读 · 2025年4月24日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

250+阅读 · 2023年9月9日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

产业智能官

29+阅读 · 2018年10月13日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

Arxiv

0+阅读 · 6月15日

Human-on-the-Bridge: Scalable Evaluation for AI Agents

Arxiv

0+阅读 · 6月15日

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

Arxiv

0+阅读 · 6月12日

PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents

Arxiv

0+阅读 · 6月6日

Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows

Arxiv

0+阅读 · 5月29日

EviACT: An Evidence-to-Action Framework for Agentic Program Repair

Arxiv

0+阅读 · 5月26日

Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

Arxiv

0+阅读 · 5月26日

No Certificate, No Execution: Certified Traces as a Foundation for Trustworthy AI Agents

Arxiv

0+阅读 · 5月23日

Agentic Agile-V: From Vibe Coding to Verified Engineering in Software and Hardware Development

Arxiv

0+阅读 · 5月19日

Argus: Evidence Assembly for Scalable Deep Research Agents

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

2+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

4+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

3+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

10+阅读 · 6月14日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

10+阅读 · 5月29日

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

【博士论文】可信人工智能：从模型到智能体的可靠性与问责保障

专知会员服务

14+阅读 · 5月20日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

37+阅读 · 2025年12月31日

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

AI专题·Agent：智能体基建厚积薄发，商业化应用曙光乍现

专知会员服务

34+阅读 · 2025年4月24日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

AI Agent：基于大模型的自主智能体

AI Agent：基于大模型的自主智能体

专知会员服务

250+阅读 · 2023年9月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

推荐系统

炼数成金订阅号

28+阅读 · 2019年1月17日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

【知识图谱】基于知识图谱的安保机器人、知识图谱为电商而生如何感应用户需求、知识图谱在运维中的应用

产业智能官

29+阅读 · 2018年10月13日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

Arxiv

0+阅读 · 6月15日

Human-on-the-Bridge: Scalable Evaluation for AI Agents

Arxiv

0+阅读 · 6月15日

HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

Arxiv

0+阅读 · 6月12日

PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents

Arxiv

0+阅读 · 6月6日

Atomix: Timely, Transactional Tool Use for Reliable Agentic Workflows

Arxiv

0+阅读 · 5月29日

EviACT: An Evidence-to-Action Framework for Agentic Program Repair

Arxiv

0+阅读 · 5月26日

Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

Arxiv

0+阅读 · 5月26日

No Certificate, No Execution: Certified Traces as a Foundation for Trustworthy AI Agents

Arxiv

0+阅读 · 5月23日

Agentic Agile-V: From Vibe Coding to Verified Engineering in Software and Hardware Development

Arxiv

0+阅读 · 5月19日

Argus: Evidence Assembly for Scalable Deep Research Agents

Arxiv

0+阅读 · 5月19日

相关基金

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

生物序列大数据集模体发现算法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员