Partial Evidence Bench: Benchmarking Authorization-Limited Evidence in Agentic Systems - 专知论文

会员服务 ·

0

基准 · 系统 · 完整性 · 基准测试 · 报告 ·

Partial Evidence Bench: Benchmarking Authorization-Limited Evidence in Agentic Systems

翻译：部分证据基准测试：主体系统中受授权限制的证据评测

from arxiv, Benchmark paper with deterministic synthetic corpora, 14 pages, 6 tables

Enterprise agents increasingly operate inside scoped retrieval systems, delegated workflows, and policy-constrained evidence environments. In these settings, access control can be enforced correctly while the system still produces an answer that appears complete even though material evidence lies outside the caller's authorization boundary. This paper introduces Partial Evidence Bench, a deterministic benchmark for measuring that failure mode. The benchmark ships three scenario families -- due diligence, compliance audit, and security incident response -- with 72 tasks total, ACL-partitioned corpora, oracle complete answers, oracle authorized-view answers, oracle completeness judgments, and structured gap-report oracles. It evaluates systems along four surfaces: answer correctness, completeness awareness, gap-report quality, and unsafe completeness behavior. Checked-in baselines show that silent filtering is catastrophically unsafe across all shipped families, while explicit fail-and-report behavior eliminates unsafe completeness without collapsing the task into trivial abstention. Preliminary real-model runs show model-dependent and scenario-sensitive differences in whether systems overclaim completeness, conservatively underclaim, or report incompleteness in an enterprise-usable form. The benchmark's broader contribution is to make a governance-critical agent failure measurable without human judges or contamination-prone static corpora.

翻译：企业主体系统日益在限定范围的检索系统、委托工作流及受策略约束的证据环境中运行。在这些场景中，访问控制虽可被正确执行，但系统仍可能生成看似完整的答案，而实质性证据却位于调用者授权边界之外。本文提出部分证据基准测试（Partial Evidence Bench），一种用于度量此类故障模式的确定性基准。该基准包含三个场景族——尽职调查、合规审计与安全事件响应——共计72项任务，并配备基于ACL分区的语料库、完整答案的基准真相、授权视图答案的基准真相、完整性判断的基准真相以及结构化差距报告的基准真相。它从四个维度评估系统：答案正确性、完整性感知能力、差距报告质量及不安全完整性行为。已登记的基线测试表明，所有场景族中的静默过滤均存在灾难性不安全问题，而显式失败-报告行为可在不将任务简化为简单弃权的前提下消除不安全完整性。初步真实模型运行结果显示，系统在过度声明完整性、保守性低估完整性或以企业可用形式报告不完整性方面，存在模型依赖性与场景敏感性差异。该基准的广泛贡献在于，使治理关键性主体系统故障可通过无人工评判者且无污染风险的静态语料库进行可量化度量。

0

相关内容

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

专知会员服务

32+阅读 · 2023年7月18日

《自主系统的验证：结合仿真、公式化和实时飞行的自主 UAS 蜂群算法开发测试和评估》美国空军技术学院190页论文

《自主系统的验证：结合仿真、公式化和实时飞行的自主 UAS 蜂群算法开发测试和评估》美国空军技术学院190页论文

专知会员服务

77+阅读 · 2022年12月20日

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

专知会员服务

51+阅读 · 2022年5月31日

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

专知会员服务

23+阅读 · 2021年11月25日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

23+阅读 · 2020年1月15日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

32+阅读 · 2020年1月11日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

专知

10+阅读 · 2022年4月11日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

浅谈最广泛应用的金融风控算法-评分卡

浅谈最广泛应用的金融风控算法-评分卡

凡人机器学习

10+阅读 · 2020年8月3日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

推荐系统（一）：推荐系统基础

推荐系统（一）：推荐系统基础

菜鸟的机器学习

25+阅读 · 2019年9月2日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

收藏】等级保护测评主机安全三级详解测评要求项、测评方法及测评步骤，测评判分标准：0分标准和满分标准

收藏】等级保护测评主机安全三级详解测评要求项、测评方法及测评步骤，测评判分标准：0分标准和满分标准

黑白之道

34+阅读 · 2018年8月23日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

面向DS证据理论的关联信息融合研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

Arxiv

0+阅读 · 6月11日

Sovereign Assurance Boundary: Certificate-Bound Admission for Agentic Infrastructure

Arxiv

0+阅读 · 6月10日

TestMap: Evidence Infrastructure for Foundation-Model-Assisted Test Generation

Arxiv

0+阅读 · 6月8日

$τ$-Rec: A Verifiable Benchmark for Agentic Recommender Systems

Arxiv

0+阅读 · 6月8日

PBT-Bench: Benchmarking AI Agents on Property-Based Testing

Arxiv

0+阅读 · 5月30日

FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data

Arxiv

0+阅读 · 5月29日

Testing Agentic Workflows with Structural Coverage Criteria

Arxiv

0+阅读 · 5月26日

Deployment-complete benchmarking

Arxiv

0+阅读 · 5月25日

A TEE-Based Architecture for Confidential and Dependable Process Attestation in Authorship Verification

Arxiv

0+阅读 · 5月23日

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

4+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

5+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

6+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

6+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

4+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

8+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

8+阅读 · 7月31日

相关VIP内容

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

专知会员服务

32+阅读 · 2023年7月18日

《自主系统的验证：结合仿真、公式化和实时飞行的自主 UAS 蜂群算法开发测试和评估》美国空军技术学院190页论文

《自主系统的验证：结合仿真、公式化和实时飞行的自主 UAS 蜂群算法开发测试和评估》美国空军技术学院190页论文

专知会员服务

77+阅读 · 2022年12月20日

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

《数据标准管理实践白皮书》，20页pdf，中国信息通信研究院云计算与大数据研究所

专知会员服务

51+阅读 · 2022年5月31日

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

南开大学范登平的博士论文《认知规律启发的显著性物体检测方法与评测》

专知会员服务

23+阅读 · 2021年11月25日

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

复杂的序列数据分析：现有算法的系统文献综述，Complex Sequential Data Analysis: A Systematic Literature Review of Existing Algorithms

专知会员服务

27+阅读 · 2020年7月24日

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

【ACL2020】生成事实验证解释，Generating Fact Checking Explanations

专知会员服务

17+阅读 · 2020年4月15日

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

【2020密歇根大学论文】基于学习的序列决策算法的公平性综述论文，Fairness in Learning-Based Sequential Decision Algorithms: A Survey

专知会员服务

23+阅读 · 2020年1月15日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

32+阅读 · 2020年1月11日

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

【Open AI】利用过程生成对强化学习进行基准测试（Leveraging Procedural Generation to Benchmark Reinforcement Learning）

专知会员服务

10+阅读 · 2019年12月3日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

专知

10+阅读 · 2022年4月11日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

浅谈最广泛应用的金融风控算法-评分卡

浅谈最广泛应用的金融风控算法-评分卡

凡人机器学习

10+阅读 · 2020年8月3日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

推荐系统（一）：推荐系统基础

推荐系统（一）：推荐系统基础

菜鸟的机器学习

25+阅读 · 2019年9月2日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

收藏】等级保护测评主机安全三级详解测评要求项、测评方法及测评步骤，测评判分标准：0分标准和满分标准

收藏】等级保护测评主机安全三级详解测评要求项、测评方法及测评步骤，测评判分标准：0分标准和满分标准

黑白之道

34+阅读 · 2018年8月23日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

相关论文

EvoBrowseComp: Benchmarking Search Agents on Evolving Knowledge

Arxiv

0+阅读 · 6月11日

Sovereign Assurance Boundary: Certificate-Bound Admission for Agentic Infrastructure

Arxiv

0+阅读 · 6月10日

TestMap: Evidence Infrastructure for Foundation-Model-Assisted Test Generation

Arxiv

0+阅读 · 6月8日

$τ$-Rec: A Verifiable Benchmark for Agentic Recommender Systems

Arxiv

0+阅读 · 6月8日

PBT-Bench: Benchmarking AI Agents on Property-Based Testing

Arxiv

0+阅读 · 5月30日

FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data

Arxiv

0+阅读 · 5月29日

Testing Agentic Workflows with Structural Coverage Criteria

Arxiv

0+阅读 · 5月26日

Deployment-complete benchmarking

Arxiv

0+阅读 · 5月25日

A TEE-Based Architecture for Confidential and Dependable Process Attestation in Authorship Verification

Arxiv

0+阅读 · 5月23日

DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows

Arxiv

0+阅读 · 5月18日

相关基金

面向网络系统的一致性安全隐私分析与防护机制设计

国家自然科学基金

2+阅读 · 2017年12月31日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

可证明安全的确定性公钥加密体制研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

面向DS证据理论的关联信息融合研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员